现在怎么没有人提用AMD MAX395去跑本地大模型了?
其实AMD Ryzen AI MAX+ 395 在本地大模型社区里其实一直很活跃,只是讨论的重心在发生变化。
其实在去年rocm7.0发布之前,大家还在讨论“这玩意终于能跑 xxx模型了”,而现在则变成了更深度的技术帖(基准测试、驱动优化、具体工作流),甚至是春节后ComfyUI也可以在395上跑了,所以就更没人讨论如何用395去跑本地大模型了。
所以我再给你捋一下现在的生态:
llama.cpp(Vulkan + HIP 两套后端)已经完全支持
在 Linux 下,通过设置 TTM 内核参数,每台机器的 GPU 可用显存可以从 96GB 提升到 120GB,我忘了那个帖子说其实可以直接调道128不过没必要,我是为了稳定,设置在了110G。
早期 HIP 后端效率较低,但在启用 hipBLASLt 后,FP16 算力利用率可达到理论峰值的 60% 以上和 MI300X 的效率相当。
而且Pytorch的2.10已经开始官方支持ROCM了,可以直接pip安装了(以前要么装Nightly,要么自己编译)
而且对于windows的支持rocm7.1比linux还稳,这真tm无语了
最后就是目前395的问题还是和内存相关的:
因为第一个内存带宽太低了,算上GPU的水平也就是3070的水平,所以跑MOE模型还是可以的,跑Dense的就慢了很多。不过不到100w的功耗来说的话是可以了
而且这个128G的内存不上不下,像minmax 那种200B的Q4跑不了长上下文,所以只能多机并联。但是现在这玩意涨价了30%,所以现在谁买谁亏。
最后就是你说的“同时还可以玩玩游戏”这个估计没人用他玩游戏吧,现在1万5+,你买5070+9700x不好么
编辑于 2026-03-13 · 著作权归作者所有