现在怎么没有人提用AMD MAX395去跑本地大模型了?
首先是ROCm支持问题,strix halo目前的状态距离开箱即用有很大的距离,和原来设想的c端小MI300A也有很大偏离。之前深入接触过AMD的人,他们当时宣传ryzen ai的时候压根就没提,甚至刻意回避了APU上还有Radeon GPU这回事,其实是让我比较惊讶的。所以用的时候还要到处折腾环境,甚至装vulkan来曲线救国。对于c端用户来说易用性的距离不要说比CUDA,比Metal都差得远。大家是来做赛博奴隶主,用皮鞭把Qwen和DS抽成小陀螺给自己干活的;不是来学《AI Infra从入门到精通》,做赛博牛马给你AMD打黑工的
当时他们宣传的AI生态是EPYC CPU,带NPU的APU,RDNA&CNDA GPU。我问如果遇到NPU不支持的算子怎么办?他们的说法是直接fallback到“为AI运算深度优化”(我猜指的是AVX)的Zen CPU上……
考虑到这波人是之前Xilinx的,这种说法也合理……更尖锐的问题就不能问了,都是沾亲带故的,再问要不礼貌了
然后整个Strix Point和Strix Halo系列为了冲高,首发只有极少的SKU配合独占周期,以及非常幽默的售价。直接限制了玩票党买回来当赛博核糖盘着玩,较少的供货量也阻碍了流动性。抛开核心配置不当的因素,AMD本身也确实还支撑不起对应的溢价,而等反应过来的调整了之后,最大的卖点内存喜提价格超级加倍,回天无力了
并且四通道256bit的128G LPDDR5其实所处的位置其实相当的尴尬,带宽谈不上领先,容量也非常大,甚至这两条都没法做到压制内存插满的服务器平台(单路SPR干到300G带宽+256GB容量还是手拿把掐,配合AMX也不是不能用)。其实DGX Spark那边也遇到了一样的问题,spark评测出了之后我看有人在那里震惊Spark和Halo的decoding怎么坐一桌,我想这不废话么,单设备单request的decding纯纯的一个io bound,连M5之前的果硅GPU是不怎么是瓶颈。苹果宣传的跑DS-671这种级别的超大型模型的都是用的1024bit的Ultra,少说也得是512bit的Max。M3 Ultra的带宽是800G,M5的9可以做到1.2T,这才勉强能说得上是“显存级”。而Spark和Halo两位只有250G级别,跟M Pro是一个档次的,这个数字甚至落后于还在用GDDR6的5050,decoding阶段的速度自然快不了
相比之下Spark至少还有一个算力高的优势,prefill够快,闲得蛋疼可以用雷电把DGX Spark和Mac Studio串起来尝试做PD分离(笑
最后一个很重要的是应用场景的问题了。Mac不用来跑大模型还可以退化为一个不错的准工作站,除了GPU和大显存之外还有很强的CPU,编解码,以及仅次于n卡的RT/渲染能力能力(是的,比如Blender下的gpu渲染,残血M4M/3080可以轻松杀AMD+intel全家,但要5070ti才能灭掉M3U,而且接近1.9x的的M5u还没出)。而395不跑模型的话可不是合格工作站,甚至谈不上合格的游戏机。古老的RDNA3架构缺失一些该有的现代特性,也就光栅这一项勉强打平了4060,RT/Tensor性能分别是4060的1/2和1/3(也可能是反过来,我忘了)。总不能就靠一个256bit的内存控制器就溢价吧
出去吃了个饭的功夫,这下面跟我说STH做游戏机合适的评论不知道怎么没了……当时编辑了一大段,所以还是想在这里要回复一下
我就不说STH大粪一样的销量和SKU数量,还不如DGX Spark的换皮兄弟多。目前减配的392的正经产品就一个只比5060版便宜了一千的天选Air,不会有人觉得这玩意性价比很高吧,要不看看6650M/7600M什么价?连OEM都觉得这玩意是大粪,总有人觉得自己比一线的更懂……
其实就是AMD的ROCm/RT/编解码/Tensor都稀烂依托,所谓的同性能只有光栅能达标,配卖的跟N卡一个价?自家为啥图形卡占有率只剩5%,还不反思是吧
还有用这玩意和MBP/Mac mini比价格的,纯纯的逆天,游戏本比准工作站了是吧,7*24撑得住么?Mac mini我真敢当服务器用。是,我确实说了AMD没多少SKU,你就真不知道同档次的MWS还有个战99 ultra,以及WS上还有个Z2 mini G1a是吧?哥们看看这些玩意多少钱呢?
最后,真的是瞄准游戏用SoC设计,不会在这个规模上配到40个CU的……因此下一代Medusa Halo的规模会有调整,这个也是本代重大失利的结果。