苏妈掀翻独显桌子!AMD 192GB统一内存封顶:本地跑大模型的终极神机来了

苏妈掀翻独显桌子!AMD 192GB统一内存封顶:本地跑大模型的终极神机来了

开头:黄仁勋刚说完”重新发明PC”,AMD就把战火烧到了开发者桌上

6月1日,黄仁勋在台北COMPUTEX发布RTX Spark,整个芯片行业的地震波还没平息。

6月3日,AMD就亮出了自己的底牌——锐龙AI Halo开发者平台和锐龙AI Max PRO 400系列处理器。没有发布会,没有皮夹克,直接上规格。

AMD高级副总裁、客户端业务总经理Rahul Tikoo在接受Tom’s Hardware采访时说了一句很有意思的话:”我其实很高兴看到英伟达加入这个游戏。我们在这个领域几乎是唯一的玩家,已经快两年了。”[^1]

这话听着像是欢迎,实际上是在说:你们才刚来,我们已经在这里了。

但AMD这次拿出来的东西,确实不只是”欢迎新玩家”的姿态。锐龙AI Halo是一个能本地跑2000亿参数大模型的紧凑型开发者平台——128GB统一内存、16核Zen 5 CPU、40 CU RDNA 3.5 GPU、50 TOPS NPU,整机功耗120W,体积只有5.9×5.9×1.7英寸[^2]。

如果说RTX Spark是英伟达对”AI PC”的未来宣言,那锐龙AI Halo就是AMD对”本地AI开发”的现实答卷。两者的交锋,才让这场AI PC军备竞赛真正有了看头。

一、先看清产品:AMD到底发了什么?

AMD这次不是发了一颗芯片,而是发了一整套”本地AI开发”的解决方案。拆开来看,分两层。

第一层:锐龙AI Halo开发者平台(6月预售)

这是面向AI开发者的紧凑型主机。核心配置[^2]:

  • 处理器:锐龙AI Max+ 395,Zen 5架构,16核32线程,最高加速频率5.1GHz
  • GPU:Radeon 8060S,RDNA 3.5架构,40个CU,主流独显级别
  • NPU:XDNA 2架构,50 TOPS算力
  • 统一内存:最高128GB LPDDR5X 8000MT/s,256-bit位宽
  • 存储:2TB PCIe 4.0 SSD
  • 网络:Wi-Fi 7 + 万兆有线网卡
  • 体积:5.9×5.9×1.7英寸(约15×15×4.3厘米)
  • 功耗:120W整机
  • 价格:3999美元起
  • 发售:2026年6月,Micro Center独家预售

第二层:锐龙AI Max PRO 400系列(Q3推出)

这是面向商用AI PC和OEM整机的处理器系列,三款产品[^2]:

型号核心/线程加速频率GPU统一内存
AI Max+ PRO 49516C/32T5.2GHzRadeon 8065S 40CU最高192GB(160GB显存)
AI Max PRO 49012C/24T5.0GHzRadeon 8050S 32CU最高192GB(160GB显存)
AI Max PRO 4858C/16T5.0GHzRadeon 8050S 32CU最高192GB(160GB显存)

192GB统一内存、160GB可分配为专用显存——这个数字,是目前所有已发布的消费级AI平台中最高的。RTX Spark最高128GB,苹果M4 Max最高128GB。

值得注意的是PRO 400系列的定位。AMD明确说这些处理器将用于惠普、联想等OEM厂商的商用AI PC和工作站。换句话说,AMD不光要做开发者的”快乐盒”,还要把统一内存架构推入主流商用市场[^3]。

二、统一内存:AMD的”杀手锏”,也是被低估的优势

如果你一直在关注AI PC的新闻,可能对”统一内存”这个词已经麻木了。但这次AMD在统一内存上的打法,和英伟达、苹果有本质区别。

AMD的统一内存优势是”先来后到”。

早在2024年底,AMD就在Strix Halo(锐龙AI Max 300系列)上实现了128GB统一内存。到2026年Q3的Gorgon Halo(锐龙AI Max PRO 400系列),统一内存将拉到192GB。AMD在这个赛道已经跑了快两年,而英伟达RTX Spark的128GB统一内存今年秋天才上市[^1]。

这意味着什么?AMD在统一内存上的软件栈成熟度,是竞争对手短期内追不上的。开发者已经在Strix Halo上跑了快两年的模型——从Llama到Qwen到GLM,ROCm的兼容性和优化经过了真实开发场景的验证。

更重要的是实际性能对比。AMD官方给出了一组对比数据[^2]:

  • 对比NVIDIA DGX Spark:运行120B GPT OSS模型,AMD领先7%;122B Qwen 3.5模型,AMD领先12%;30B GLM 4.7 Flash,AMD领先14%
  • 对比苹果M4 Pro Mac mini:AMD提供平均4倍的生成式AI性能,且128GB统一内存远高于Mac mini的64GB上限

当然,AMD自己选对手肯定选有利的。DGX Spark用的是上一代GB10芯片(Grace CPU + Ampere GPU),不是RTX Spark的Blackwell架构。真正的对决要等今年秋季RTX Spark上市才能见分晓。

但有一件事是确定的:在”让开发者本地跑大模型”这件事上,AMD目前提供的统一内存容量是最高的。 192GB意味着你可以本地加载一个200B参数的模型,还有余量跑操作系统的其他进程。RTX Spark的128GB跑120B模型已经是极限,苹果的128GB还要分给macOS。

三、TCO算账:3999美元贵不贵?

AMD给锐龙AI Halo的定价是3999美元起。这个价格放在消费电子市场很贵,但放在AI开发者的世界里,AMD算了一笔很有意思的账[^2]:

假设场景:把部分Claude Sonnet 4.5 API调用迁移到本地

  • 锐龙AI Halo三年总成本:设备3999美元 + 电费583美元(每月16.2美元×36个月)= 约4582美元
  • 等量云端API成本:每月773美元 × 36个月 = 约27828美元
  • 回本周期:约6个月

这个TCO(总拥有成本)计算的假设是否合理?取决于你的使用强度。如果你每天8小时都在跑大模型推理,128K上下文的Qwen-3.6-35B模型在锐龙AI Max+ 395上能达到36 Tokens/s的持续解码速度——按8小时/天算,月输出量约3100万Token,月输入量约3.85亿Token[^2]。这个使用强度下,云端API的账单确实很可观。

但如果你只是偶尔跑跑小模型、主要用ChatGPT网页版,3999美元的投资就完全没必要。锐龙AI Halo的定位非常明确:面向高频AI开发者和中小企业的本地推理平台,不是消费电子产品。

AMD大中华区市场营销副总裁纪朝晖说了一句很精准的话:”中小企业要想在公司级层面用好AI、个人开发者要想做专业的大模型应用开发,就需要有一个从30B到120B参数不等的可靠模型底座,还要能跑自己的知识库、MCP和各种Agent。这些加在一起一般需要48GB左右显存,远超普通AIGC设备的能力范畴。”[^4]

这就是为什么AMD除了3999美元的锐龙AI Halo,还在推万元出头的”Mini AI工作站”——搭载同款锐龙AI Max+ 395芯片、96GB显存的紧凑型主机,面向中小企业和独立开发者。超过20款产品已经在7月深圳生态伙伴大会上展示[^4]。

四、CUDA护城河 vs ROCm:AMD的软件故事还能怎么讲?

聊AMD的AI硬件,永远绕不开一个问题:ROCm怎么跟CUDA打?

英伟达的CUDA生态是它最深的护城河——几乎所有主流AI框架都在CUDA上做了最深度优化。AMD的ROCm虽然开源,但在开发者心智和生态成熟度上,差距是客观存在的。

AMD首席软件官Andrej Zdravkovic在回应Tom’s Hardware关于”CUDA护城河”的提问时,给出了一段值得玩味的回答[^1]:

“如果你三年前问我这个问题,我会说CUDA确实很重要。但现在我觉得它没那么重要了。英伟达围绕CUDA建立了惊人的生态,而我们的优势是ROCm从开发者角度看非常容易使用……从一个平台迁移到另一个很简单。唯一的挑战是,如果你的应用用到了英伟达有而我们没有的特定指令——反过来也一样。”

这话有几分道理。随着PyTorch、vLLM、llama.cpp、Ollama、ComfyUI这些框架对ROCm的支持越来越成熟,大部分AI开发者写的代码并不直接调用CUDA底层API。从PyTorch代码迁移到ROCm后端,很多情况下只需要改几行配置。

但”特定指令”的问题确实存在。如果你在写CUDA kernel、做深度性能优化、或者使用NVIDIA独有的库(如TensorRT-LLM的某些高级特性),ROCm目前还无法完全替代。

AMD的策略是:不跟CUDA正面拼底层生态,而是用”开箱即用”的软件体验降低门槛。 锐龙AI Halo预装了5套AI工作流(Playbooks),另有10套可在线获取,覆盖用ComfyUI生图、用LM Studio跑大语言模型、用PyTorch+ROCm做高级LLM用例、在VS Code里跑Qwen3-Coder-30B、用n8n搭配gpt-oss-120b做自动化工作流等场景[^2]。AMD的口号是”花时间构建,而不是花时间配置”。

对中小企业开发者和独立开发者来说,这确实是一个务实的切入点。他们不需要最极致的CUDA性能优化,他们需要的是一个能跑起来、能出结果、不用折腾环境搭建的本地AI平台。

五、AMD vs NVIDIA vs Apple:三方的牌各不同

把锐龙AI Halo放进更大的竞争格局里看,AMD、英伟达、苹果三方的打法差异非常清晰。

AMD的牌:x86兼容 + 最高统一内存 + 性价比

锐龙AI Halo跑的是x86架构,这意味着所有Windows软件原生兼容,不存在Arm转译的性能损失和兼容性问题。对需要跑AutoCAD、SolidWorks、MATLAB等专业软件的用户来说,这是硬需求。同时192GB统一内存是当前消费级产品的天花板。

AMD的劣势也很明显:GPU算力不如英伟达Blackwell,AI软件生态不如CUDA成熟,品牌在AI开发者心智中的存在感还不够强。

英伟达的牌:最强GPU + CUDA生态 + Arm原生AI

RTX Spark的6144 CUDA核心 + Blackwell架构 + CUDA全栈支持,在AI训练和推理性能上领先。但对普通PC用户来说,Arm Windows的兼容性问题仍然是不可忽视的风险。

苹果的牌:能效比 + 系统整合 + 品牌溢价

M系列芯片的能效比无人能及,macOS和硬件的深度整合体验出色。但最高128GB统一内存的上限、没有CUDA生态、封闭的系统架构,让它在专业AI开发场景中始终差一口气。

AMD客户端业务总经理Tikoo说了一句很有格局的话:”英伟达进入这个市场带来了合法性……我认为这也会帮助整个生态更快地向前推进。英伟达和AMD是这个领域的两大玩家,我们都在这个赛道上,不仅驱动云生态,也在驱动PC端的AI生态。”[^1]

这不是客套话。当一个市场同时有英伟达和AMD在激烈竞争时,软件厂商适配的动力会大大增强,开发者的选择会变多,价格会下降——最终受益的是所有想在本地跑AI的人。

六、更大的棋局:本地AI推理的”iPhone时刻”正在逼近

如果把时间线拉长看,AMD这次发布的真正意义不在于一款产品,而在于它揭示了本地AI推理正在发生的一个结构性转变。

一年前,如果你想本地跑一个120B参数的大模型,唯一的选择是买一台几万美元的DGX Station或者租云端GPU。大多数开发者默认的选择是:写代码→提交到云端→等结果。

半年后,这个局面可能彻底改变。花3999美元买一台锐龙AI Halo,或者花2499美元买一台RTX Spark笔记本,你就能在本地跑120B模型。本地推理延迟<50ms(vs云端API 200-800ms),数据不出内网,没有API调用费用上限焦虑。

这不是渐进式改进,是范式的切换。

AMD给出的数据很直观:在128K预填充上下文条件下,锐龙AI Max+ 395运行Qwen-3.6-35B时,持续解码速度36 Tokens/s,持续预填充吞吐446 Tokens/s[^2]。这个速度已经达到”可用”的阈值——你不会因为等待推理结果而频繁打断工作流。

更关键的是生态的连锁反应。当AMD、英伟达、苹果都在推统一内存架构的本地AI设备时,以下事情会加速发生:

  • 开源模型社区会把”能在本地设备上流畅运行”作为模型设计的默认假设
  • 软件厂商会从”默认云端推理”转向”云端+本地混合推理”
  • AI应用开发者会开始针对本地推理做优化,而不是把所有计算都丢给云端API
  • Token成本不再是”用AI”的门槛,数据隐私也不再是”用云端AI”的代价

AMD首席软件官Zdravkovic说了一句话我很认同:”你现在不买一台Strix Halo笔记本,就是错了。”[^1] 这话当然有推销成分,但背后的逻辑是对的——对于AI开发者来说,本地推理能力正在从”锦上添花”变成”核心竞争力”。

结尾:AI PC的军备竞赛,最终赢家是开发者

写到这里,我想回到一个更根本的问题:AMD和英伟达在本地AI设备上的军备竞赛,到底谁会赢?

我的判断是:这个问题不重要。重要的是,这场竞赛正在把”本地跑大模型”从实验室里的小众需求,变成开发者标配的基础设施。

RTX Spark有CUDA生态和最强GPU,锐龙AI Halo有x86兼容和最高统一内存,苹果有能效比和系统整合。三方的牌完全不同,意味着不同需求的开发者都能找到适合自己的选择。这不是零和博弈,而是市场在快速扩大。

AMD这次最聪明的地方,是没有试图跟英伟达拼GPU算力的绝对峰值,而是把竞争引向自己最擅长的维度——统一内存容量、x86兼容性、开箱即用的软件体验、以及更低的TCO。

3999美元贵不贵?对于需要每天跑大模型推理的AI开发者来说,6个月回本,之后全是赚的。对于偶尔玩玩的普通用户来说,这价格确实劝退。但这不是问题——锐龙AI Halo本来就不是卖给普通用户的。它是AMD在AI开发者生态中钉下的一颗楔子,为的是在”本地AI”这个未来十年的主战场上,先占住一个生态位。

192GB统一内存、本地跑200B大模型、每月电费16.2美元——放在两年前,这些数字组合在一起,听起来像科幻小说。现在它是AMD的产品规格表。

AI PC的军备竞赛才刚刚开始。而开发者,正在成为这个时代最被认真对待的”甲方”。


参考来源:

[^1]: Tom’s Hardware - AMD executives react to Nvidia’s RTX Spark: c114pro.com/terminal/16

[^2]: 电脑报 - 200B大模型轻松拿捏!锐龙AI Halo开发者平台: toutiao.com/group/76473

[^3]: 微型计算机 - AMD锐龙AI Max PRO 400系列处理器发布: toutiao.com/group/76463

[^4]: CSDN - AMD Mini AI工作站:让每个人都成为超级开发者: blog.csdn.net/csdnnews/

编辑于 2026-06-04 · 著作权归作者所有