现在怎么没有人提用AMD MAX395去跑本地大模型了?
纯跑LLM的话,除DGX Spark和M5 Max(他们规模过关且有Tensor Core)的所有统一内存方案在算力上都是不及格的。
放在25年,395其实是几个统一内存的机器(M4 Pro Macmini, M4 Max Mac studio, DGX Spark)中性价比最高的。即便不考虑跑LLM,在一些吃CPU多核&内存带宽的应用中还可以当一个低功耗版本的7K62来用。突出一个比同价位同带宽的M4 Pro GPU强,比带宽/算力更高的Spark/M4 Max便宜一倍,但是面对26年的,有Volta水平的FP16 Tensor Core的M5 Pro比较吃力了。
带宽其实不是一个那么巨大的问题,毕竟512-bit DDR5的4677 Xeon服务器和m4 max/m5 max都比它贵的多。395主要问题还是在于:
- AMD软件层的管杀不管埋。最典型的现象是某些情况下Llama.cpp的Vulkan后端比Rocm后端更快。
- 现在内存的价格超级加倍,出迷你主机的小厂受冲击很大。现在的395的性价比相比闲鱼DGX Spark已经不是那么突出了。
- AMD出于未知的原因给了395 RDNA3.5而不是RDNA4,这导致395的算力并不高(在跑FP16时是同规模的RDNA4/N卡的一半,INT8/FP8时是1/4)。尽管因为RDNA3的双倍浮点比M4及更早的苹果好得多。综合考虑Prefill速度,这机器能比较适合的模型也就是Qwen3-Next-80B-A3B和GPT-OSS-120B。勉强能跑一下Qwen3.5-122B-A10B或者GLM-4.5-Air
编辑于 2026-03-13 · 著作权归作者所有