为什么m4max可以轻松堆128g显存,nvidia消费端显卡却长期被限制在24g?
都是trade-off嘛,每种内存都是平衡容量/带宽的不同的平衡点。这种trade-off是arch的魅力所在,硬说谁吊打谁就有点搞笑了
和GDDR相比,LPDDR做到接近的带宽会需要更大的容量和更高的位宽,比如在6400频率的时候,M1 Max做到400G带宽就意味着保底512bit的位宽和32G的容量,可以看看光控制器就占了多大的面积。而且上到这个规模,布线和封装的成本也不低,为此苹果专门封装了内存并且上了基板以降低成本,而不是部分半吊子说的扯淡的低延迟。而作为对比,同时期的3060的实现360G的带宽只用到了192bit/12G,而且如果老黄想的话,缩回6G也是可以的。对比下来,如果仅仅是从游戏的角度来说,对容量的需求多半会先跪在带宽&核心性能之前,所以GDDR显然更适合这个领域,LPDDR巨大的容量和和控制器都是浪费。这也就是为啥同样是用统一内存,游戏机要用GDDR而不是LPDDR。但是即使是这样,GDDR的高延迟和小容量给SoC还是有水土不服,所以Xbox Series的内存设计是不对称的,而PS5 Pro那边整了一点DDR给系统用
不过如果,恰好有一种负载,需要高带宽的同时,还需要巨大的内存呢,是不是LPDDR就用上了?这不就是LLM推理的需求嘛。尤其是现在模型都在转MoE,更加利好这种小带宽,高容量的模式。具体来说,计算卡的HBM直接被朝着LLM的形状塑造,而复用GDDR的传统图形卡跑推理就比较难受了,想要攒出200G级别的显存需要HDET级别的平台+至少300G这个级别的的内存+8卡,最好还要有PCIe Switch,而换成统一内存的SoC也就两台,用网卡甚至雷电串起来,虽然前者的理论性能和并发吞吐要高很多,但是整体的成本也是非常高的,对于玩票试试水来说投入过大了。目前老黄想出来的最适合图形卡的负载应该是做PD分离的P,所以我们看到了CPX这种东西,但是业界买不买账还另说。友商那边,Azure/AWS/Google主要是求稳压价用,目前都是HBM,没有什么花活;AMD则是搞起了HBM+LPDDR的两层,intel直接做LPDDR的GPU,高通/苹果的方案也是LPDDR。
虽然老黄的GPU没用LPDDR,但是服务器级CPU确实是LPDDR第一人,SOCAMM的设计看起来也兼顾了布线,散热和扩展
而到边缘这里,就更是LPDDR的天下了。AMD做了Strix Halo,256bit做到最大128G,intel早有死掉的大SoC(目前看又要复活),nv有工业场景的jetson(覆盖规模从64bit到256bit,目前最大256bit-128G),c端还准备搞N1/N1X(后者的打包方案就是DGX Spark),高通这边基本上全线LPDDR(无论是手机/pc还是更大的智驾芯片)。所以不是nv消费端被限制在24G,而是打游戏的没钱买更大的……