现在怎么没有人提用AMD MAX395去跑本地大模型了?
买了,又卖了,他的生态位有点像是白银,卡那了
他的最大卖点是(可分配的)显存大,能在更低的价格下,比纯独显不offload塞下更大的模型
但由此带来了两个问题:
- 显存还是不够大,真塞个deepseek v4 flash这样300B+的模型,96G甚至linux下的120G显存还是勉强,只能进行极限量化,大幅降智
- 显存够大了,塞下了更大的模型,GPU性能和带宽都是更大的瓶颈,跑个27B-31B Q8 Dense模型就只剩下10tps,反正从我的体感上我不想等他这么蹦字
到头来如果兼顾体验和速度,部署的是30B-120B这个区间的MoE。而很尴尬,100B左右的MoE(比如Qwen的122B A10B)这种对AI Max+ 395搭配128G LPDDR5相对甜点的模型尺寸,现在可选择的少之又少。比较实用高性能的30B左右,常用的是Qwen3.x 35A3B/Gemma4 26A4B了,从我个人需求还有个HY MT2 30B A3B,而这两个你接受Q4量化,弄块消费级显卡跑的也不慢
到这你可能要说了:“独显+Offload,‘也不慢’也只是Q4 40-50tps,肯定是不如Q8 40tps/Q4 60tps体验好”,确实没错,只能说够用
但如果算上长prompt预处理,这点速度差距会被反超回来,一个60k+ tokens的上下文,AI Max+ 395经常会预处理1分钟以上
另外8060S到头来是个A卡,我5060Ti 5070Ti随便拎一个,有DLSS有CUDA,除去借着Vulkan/ROCm跑模型之外的场景都吊着你锤......
我能FasterWhisper CUDA做转录而ROCm的Whisper没什么封装好的应用;我能DLSS FG 3x+Preset L爽玩地平线而8060S开个低画质+FSR同时输掉画质和帧数
现在128G不带固态的也要17K(淘宝全新)/15K(闲鱼二手),而我7945HX MoDT+32G*2+5070Ti整套也没花这么多钱。
我需求就几个极端,要么是7B 14B的模型做翻译,这些5070Ti甚至5060Ti做的远好于AI Max;要么是中尺寸Dense跑点有的没的,云GPU按需启动;要么是接Hermes Codex这些干活/整活,梁圣的API和GPT Plus订阅我是看不到本地模型的需求
以及......现在云GPU租赁也是白菜价,2.8一小时的5090跑Dense 31B可没AI Max+ 395这么吭哧瘪肚。至于什么体积、功耗,你压到80W也比不过手机ssh都能连云服务器......
因此他最精准的定位是:
- 什么都需要一点什么都不多还只要一台机器
- 我就是要Windows+跑模型+玩游戏什么都能做
- 必须一台机器,还必须x86,还必须低功耗迷你主机
- 游戏需求还不高,能接受LOL CS2都不能4K爽玩,3A开个最低画质FSR超级性能80fps糊成马赛克
- 还能接受游戏时卸载模型断掉API,或完全不请求
- 符合以下几个需求,预算又摸不到GB10的:
- 存在硬性保密/政治敏感/淫秽色情等相关使用需求,不能借助API实现
- 有极高的延迟要求,例如实时字幕等,需要局域网内的低延时中低性能小模型/小MoE模型
- 有7*24不间断或完全随机使用需求,云GPU费效比极低的使用情况
不过该说不说,买完卖掉赚了2000,这可能是AI Max+ 395机器体验最好的瞬间了,你问我跑模型有什么收获,我说赚了(笑)