重磅!苹果 M 芯片全系 LLM 性能排行榜

重磅!苹果 M 芯片全系 LLM 性能排行榜

昨天 Apple 发布了新款 M5 芯片全系 (除了 Ultra) ,趁着热乎劲儿,今天跟大家理性捋一下本地 LLM 部署,该如何选 Mac。

M5 系列使用 3nm 制程,优势明显,在每个 GPU 加了矩阵计算单元,LLM 推理 prefill 阶段对比 M4 提速 大概 3 到 4倍。但是 Decode 阶段速度只有大概 1.3 倍左右提速 (等级森严,不至于越阶碾压)。M5 系列要评价的话:加量也加价 (低配 m5 pro 直接 1T 起),我等等党誓守 M6 换 2mn 制程。


先上结论,具体表格数据往后看:

只需要少数几轮对话:选 pro 芯片(弃坑 m3 pro, 带宽拉胯,还不如 m1 pro 和 m2 pro)起,内存至少 16GB,随便玩一玩 AI 的话选 M2 芯片起。

需要多轮次对话,以 20k 上下文为准,等待时间 30 秒以内:至少要选 Max 芯片,如果需要跑 32B 的模型,至少 32 GB 内存起步。

如果真要靠 LLM 干点生产力的活:至少 64GB 内存起步,可以放进 80B Q4 模型。目前 M1 ultra 64GB (64 核 GPU 版本最好,48 核版本跟 AMD AI Max + 395 相当) 最具性价比没有之一 Best Mac for LLM[1] (目前闲鱼在 1.2 万上下,但是有涨势) ,800 GB/s 带宽的 plddr5 就真的 “Only Apple Can Do”。另外一款 M1 Max (32 核 GPU) 性价比也是很好,完全不输 M2 Max。

下面以 Llama 7B 模型为例,Q8 和 Q4 量化下,基于 llama.cpp 推理对比各个 Mac 版本在 prefill 和 decode 的速度。柱状图越高越好。欢迎大家在评论区分享自己的 Mac 推理速度。

Apple Mac 全系 Decode 速度对比 (最重要的)

整体看来,采用 Q4 量化会比 Q8 量化有 1.5 到 2 倍提速

image.png


image.png

这里提一下,这里的表现都是基于 llama.cpp,如果采用果子的 mlx 框架模型,速度会有 7% 到 10% 的提速。顺便提一个 m3 pro 这个坑,由于果子砍了内存带宽 (200GB/s 砍到 150GB/s),导致 Decode 速度甚至不如 m1 pro 和 m2 pro。

Apple Mac 全系 Prefill 速度对比 (长上下文)

因为 LLM 每次回答你的问题要把之前跟你的聊天记录都读一遍 (上下文),随着问答轮次增加,LLM 思考的时间明显增长,从而影响整体回答问题的速度。因此这个指标对于多轮对话是重要的。

image.png


image.png

这里解释下,用户跟 AI 交互的两个阶段:prefill 是 LLM 处理用户输入,反应 AI 听你说话脑子理解的速度;decode 是 LLM 向用户输出,反应 AI 回答你问题的速度。

根据这篇论文 So much to read, so little time: How do we read, and can speed reading help?, Psychological Science in the Public Interest 17.1 (2016): 4-34.[2] 研究显示,人类阅读英文每秒在 4 到 11 个单词范围内,中文大概在 6 到 18 个单词。那么,根据这个分分析,选定 LLM 模型之后,你要购买的机器要支持在每秒 20 tokens 的 decode 速度,否则就无法满足个人需求。

当然模型的选择也重要,介于篇幅,我们以后再谈怎么选模型。今天主要关注怎么选 mac。

整个数据表格 (包含 F16, Q8, Q4 量化下 Llama 7B 模型的表现)

ChipGenBW [GB/s]GPU CoresF16 PP [t/s]F16 TG [t/s]Q8_0 PP [t/s]Q8_0 TG [t/s]Q4_0 PP [t/s]Q4_0 TG [t/s]
M11687108.217.92107.8114.19
M11688117.257.91117.9614.15
M1 Pro120014262.6512.75235.1621.95232.5535.52
M1 Pro120016302.1412.75270.3722.34266.2536.41
M1 Max140024453.0322.55405.8737.81400.2654.61
M1 Max140032599.5323.03537.3740.20530.0661.19
M1 Ultra180048875.8133.92783.4555.69772.2474.93
M1 Ultra1800641168.8937.011042.9559.871030.0483.73
M221008147.2712.18145.9121.70
M2210010201.346.72181.4012.21179.5721.91
M2 Pro220016312.6512.47288.4622.70294.2437.87
M2 Pro220019384.3813.06344.5023.01341.1938.86
M2 Max240030600.4624.16540.1539.97537.6060.99
M2 Max240038755.6724.65677.9141.83671.3165.95
M2 Ultra2800601128.5939.861003.1662.141013.8188.64
M2 Ultra2800761401.8541.021248.5966.641238.4894.27
M3310010187.5212.27186.7521.34
M3 Pro315014272.1117.44269.4930.65
M3 Pro315018357.459.89344.6617.53341.6730.74
M3 Max330030589.4119.54566.4034.30567.5956.58
M3 Max340040779.1725.09757.6442.75759.7066.31
M3 Ultra3800601121.8042.241085.7663.551073.0988.40
M3 Ultra3800801538.3439.781487.5163.931471.2492.14
M4412010230.187.43223.6413.54221.2924.11
M4 Pro427316381.1417.19367.1330.54364.0649.64
M4 Pro427320464.4817.18449.6230.69439.7850.74
M4 Max441032736.2524.29718.5643.87713.9369.95
M4 Max454640922.8331.64891.9454.05885.6883.06
M5515312374.359.67489.7817.50636.3631.02
M5 Pro*530716516.619.7670.034.8872.556.3
M5 Pro*530720629.519.7820.635.01053.857.5
M5 Max*546032998.027.81311.449.91710.879.2
M5 Max*5614401250.636.31627.961.62122.394.2

带 * 号的数据是根据 M4 和 M5 数据对比的比率估计的。参考链接 Llama.cpp M 芯片 LLM[3]

欢迎大家测试一下自己的 Mac 的 LLM 表现,打在留言区👇🏻,
格式: Mac + 框架 + 模型 + 量化 + Prefill + Decode

比如我的测试:m1 ultra (64核 GPU) + mlx + Qwen3-Coder-Next 80B-A3B + int4 + 未知 + 40 tokens/s

引用链接

[1] Best Mac for LLM: ai.oldpan.me/t/topic/46
[2] So much to read, so little time: How do we read, and can speed reading help?, _Psychological Science in the Public Interest_ 17.1 (2016): 4-34.: scholar.google.com/scho
[3] Llama.cpp M 芯片 LLM: github.com/ggml-org/lla

编辑于 2026-03-04 · 著作权归作者所有