古尔曼报道苹果 Mac 新品因内存短缺延期,透露出当前半导体行业哪些困境?
我感觉更大的原因其实是, 苹果把 M5 Max/Ultra 的一部分内存资源, 拿去造那个 Private Cloud 了, 就是之前 4x M2 Ultra 192GB 一台, 跑云端 40B 模型的玩意.
然后就是保障 M5 Max 的 MacBook Pro 的交付. 如果说现在就上 M5 Ultra 的 Studio 的话, 那 512G 的一台订单, 就基本要挤走 4-10 台 M5 Max MBP 的订单.

毕竟 M2 Ultra/M3 Ultra 有几个大问题:
- 算力不足, 导致 Prefill 慢, 以及长下文 Decode 性能损失大, 且无法同时 P+D, 对服务端来说非常要命, 而 M5 Ultra算力相比 M3 Ultra 强 500% 的样子
- 内存控制器还是只支持 6400, 而 M5 Ultra 能支持 9600, 快了 50%
相比于卖给一些用户在 Mac Studio 玩准 SOTA, 比如 GLM-5.1, 苹果自己自建 AI 服务器的任务其实更为重要, 毕竟要给 Apple 用户提供隐私的云端准 SOTA 模型的算力. 像 GLM-5.1 的尺寸也就 700B A40B, M3 Ultra 就能跑了. 40B 激活量下, M5 Ultra 目测能跑到 45t/s 的输出速度.
以及这个 Server 的组装过程, 还在 WSJ 和现在 COO Sabih Khan 参观美国富士康组装工厂的时候稍微拍了些镜头.

上个月也有幸又碰到了 Sabih.

编辑于 2026-04-20 · 著作权归作者所有