带 npu 的 amd cpu，也就是所谓的 ai pc 是如何部署大模型的？

当全世界还在给GPT-4o交月租的时候，AMD直接放出话来：
笔记本里能够塞进1280亿参数的大模型，0.3秒就能够吐出一行诗。
要是你对“显存”这两个字有点了解，都会不自觉地摸钱包。
这听着就好像把三里屯放进你家冰箱，还保证不串味。
不要着急，更夸张的是，它仅仅只用一颗指甲盖大小的APU。

这事爆出来是1月6日深夜，拉斯维加斯CES展馆。
苏姿丰把一颗RyzenAIMax+395举过头顶，现场灯牌亮出“128BLOCALLY”。
没有融资额，没有PPT画饼，只有一句“2026Q2出货”，台下厂商瞬间把展区挤成春运。
听起来就像社区菜市场突然宣布卖火星土，到底图啥？

说白了，AMD把显存和内存缝成一块“统一粥”。
用256-bitLPDDR5X16.2GBs的勺子往CPU、GPU、NPU嘴里轮流喂，带宽干到2.7TBs。
问题出现，Intel的Ultra9285HX还是在用96EU的核显配置，NPU算力就只有13TOPS。
可对方直接就弄出了120TOPS的性能数据，这差距差不多都快到一台PS6那么大。
难道老黄就不担心游戏本市场会倒向别的地方？

2024年苹果M3Ultra也曾喊出“本地跑大模型”。
可实际测试的时候，70B模型一运行，风扇就转得比较快，续航还少了3.2小时。
它，是比较聪明的，不过128B参数光权重就有256GB，你那16GB板载内存能装下啥？
你说说看，资本家傻不傻，真觉得用户不装微信吗？

资本图的是把云租费变整机溢价，国家图的是数据不出境，产业图的是PC换机周期从6年压回3年。
这不是性能竞赛，而是算力再分配。

华硕ROG幻16抢先把Llama-3.1-128B跑通，离线写代码速度是每秒28个token，比MacBookProM4Max快1.7倍。
本地运行70B模型的时候，2025年高通骁龙8Gen4版的三星Book4温度热到了49.8℃，退货率一下子就升到31。
内存带宽每增加1TB/s，token的延迟就能缩短0.12秒，这里面的差别到底意味着啥？
可不要小看那小数点后面的数字，背后全都是实实在在的成本和收益。

未来三到五年，机场贵宾室里最响亮的就不再是抖音的声音，而是“本地AI渲染”设备散热风扇的嗡嗡声。
有看法预测，到2028年，一半轻薄笔记本会把风扇设计给去掉，反过来用相变散热片来压制高达130TOPS的算力发热。
本地大模型不是噱头，是下一次“宽带免费”时刻。

现实情况是，云算力赌桌开始收取佣金了，端侧芯片成了新的庄家。
内存涨价可能会先把你淘汰出局。
下次换电脑的时候，你还会问“显卡是多大的”吗？
如果喜欢，记得点个关注，点个赞，万分感谢！
声明：本文内容90%以上基于自己原创，少量素材借助AI辅助，但是所有内容都经过自己严格审核和复核。图片素材全部都是来源真实素材或AI原创。文章旨在倡导社会正能量，无低俗等不良引导，望读者知悉。

编辑于 2026-01-12 · 著作权归作者所有

父亲月收入5000，买台万元电脑，过分吗？极客湾揭露手机厂商「作弊」视频遭下架，会给行业带来哪些影响？为什么有些人不敢使用微信？2026年最新！下载安装Google Play商店保姆级教程（无需Root，全机型可用）告别存储焦虑，我用10万张照片认真保存人生播客 (Podcast) 为什么又红了？为什么现在的年轻人不喜欢使用电脑了？5个极品网站，都很刺激 Everything史诗级更新，新功能绝了！如何评价极客湾的全年手机大横评视频被下架？你被哪个后来知道很sb的BUG困扰过一周以上吗？为什么古代的一些失传技术，如今无法复原？如何在知乎使用动态头像打了12345，不管用怎么办？为什么人一旦开窍了就变的特别厉害？如何查找弹窗广告的源头？有哪些薅羊毛方法，每天收入10元就可以?为什么知乎上很多人说 macOS 很好用，而实际其市场占有率只有大约17.7%？OPPO 母亲节海报文案因称「妈妈有两个老公」引发争议，数码品牌营销的创意边界该如何界定？漫展摄影师真能被女coser主动搭讪吗，为了去漫展找对象购买一套照相机值得吗？