重磅！苹果 M 芯片全系 LLM 性能排行榜

昨天 Apple 发布了新款 M5 芯片全系 (除了 Ultra) ，趁着热乎劲儿，今天跟大家理性捋一下本地 LLM 部署，该如何选 Mac。

M5 系列使用 3nm 制程，优势明显，在每个 GPU 加了矩阵计算单元，LLM 推理 prefill 阶段对比 M4 提速大概 3 到 4倍。但是 Decode 阶段速度只有大概 1.3 倍左右提速 (等级森严，不至于越阶碾压)。M5 系列要评价的话：加量也加价 (低配 m5 pro 直接 1T 起)，我等等党誓守 M6 换 2mn 制程。

先上结论，具体表格数据往后看：

只需要少数几轮对话：选 pro 芯片（弃坑 m3 pro，带宽拉胯，还不如 m1 pro 和 m2 pro）起，内存至少 16GB，随便玩一玩 AI 的话选 M2 芯片起。

需要多轮次对话，以 20k 上下文为准，等待时间 30 秒以内：至少要选 Max 芯片，如果需要跑 32B 的模型，至少 32 GB 内存起步。

如果真要靠 LLM 干点生产力的活：至少 64GB 内存起步，可以放进 80B Q4 模型。目前 M1 ultra 64GB (64 核 GPU 版本最好，48 核版本跟 AMD AI Max + 395 相当) 最具性价比没有之一 Best Mac for LLM[1] (目前闲鱼在 1.2 万上下，但是有涨势) ，800 GB/s 带宽的 plddr5 就真的 “Only Apple Can Do”。另外一款 M1 Max (32 核 GPU) 性价比也是很好，完全不输 M2 Max。

下面以 Llama 7B 模型为例，Q8 和 Q4 量化下，基于 llama.cpp 推理对比各个 Mac 版本在 prefill 和 decode 的速度。柱状图越高越好。欢迎大家在评论区分享自己的 Mac 推理速度。

Apple Mac 全系 Decode 速度对比 (最重要的)

整体看来，采用 Q4 量化会比 Q8 量化有 1.5 到 2 倍提速

这里提一下，这里的表现都是基于 llama.cpp，如果采用果子的 mlx 框架模型，速度会有 7% 到 10% 的提速。顺便提一个 m3 pro 这个坑，由于果子砍了内存带宽 (200GB/s 砍到 150GB/s)，导致 Decode 速度甚至不如 m1 pro 和 m2 pro。

Apple Mac 全系 Prefill 速度对比 (长上下文)

因为 LLM 每次回答你的问题要把之前跟你的聊天记录都读一遍 (上下文)，随着问答轮次增加，LLM 思考的时间明显增长，从而影响整体回答问题的速度。因此这个指标对于多轮对话是重要的。

这里解释下，用户跟 AI 交互的两个阶段：prefill 是 LLM 处理用户输入，反应 AI 听你说话脑子理解的速度；decode 是 LLM 向用户输出，反应 AI 回答你问题的速度。

根据这篇论文 So much to read, so little time: How do we read, and can speed reading help?, Psychological Science in the Public Interest 17.1 (2016): 4-34.[2] 研究显示，人类阅读英文每秒在 4 到 11 个单词范围内，中文大概在 6 到 18 个单词。那么，根据这个分分析，选定 LLM 模型之后，你要购买的机器要支持在每秒 20 tokens 的 decode 速度，否则就无法满足个人需求。

当然模型的选择也重要，介于篇幅，我们以后再谈怎么选模型。今天主要关注怎么选 mac。

整个数据表格 (包含 F16, Q8, Q4 量化下 Llama 7B 模型的表现)

Chip	Gen	BW [GB/s]	GPU Cores	F16 PP [t/s]	F16 TG [t/s]	Q8_0 PP [t/s]	Q8_0 TG [t/s]	Q4_0 PP [t/s]	Q4_0 TG [t/s]
M1	1	68	7			108.21	7.92	107.81	14.19
M1	1	68	8			117.25	7.91	117.96	14.15
M1 Pro	1	200	14	262.65	12.75	235.16	21.95	232.55	35.52
M1 Pro	1	200	16	302.14	12.75	270.37	22.34	266.25	36.41
M1 Max	1	400	24	453.03	22.55	405.87	37.81	400.26	54.61
M1 Max	1	400	32	599.53	23.03	537.37	40.20	530.06	61.19
M1 Ultra	1	800	48	875.81	33.92	783.45	55.69	772.24	74.93
M1 Ultra	1	800	64	1168.89	37.01	1042.95	59.87	1030.04	83.73
M2	2	100	8			147.27	12.18	145.91	21.70
M2	2	100	10	201.34	6.72	181.40	12.21	179.57	21.91
M2 Pro	2	200	16	312.65	12.47	288.46	22.70	294.24	37.87
M2 Pro	2	200	19	384.38	13.06	344.50	23.01	341.19	38.86
M2 Max	2	400	30	600.46	24.16	540.15	39.97	537.60	60.99
M2 Max	2	400	38	755.67	24.65	677.91	41.83	671.31	65.95
M2 Ultra	2	800	60	1128.59	39.86	1003.16	62.14	1013.81	88.64
M2 Ultra	2	800	76	1401.85	41.02	1248.59	66.64	1238.48	94.27
M3	3	100	10			187.52	12.27	186.75	21.34
M3 Pro	3	150	14			272.11	17.44	269.49	30.65
M3 Pro	3	150	18	357.45	9.89	344.66	17.53	341.67	30.74
M3 Max	3	300	30	589.41	19.54	566.40	34.30	567.59	56.58
M3 Max	3	400	40	779.17	25.09	757.64	42.75	759.70	66.31
M3 Ultra	3	800	60	1121.80	42.24	1085.76	63.55	1073.09	88.40
M3 Ultra	3	800	80	1538.34	39.78	1487.51	63.93	1471.24	92.14
M4	4	120	10	230.18	7.43	223.64	13.54	221.29	24.11
M4 Pro	4	273	16	381.14	17.19	367.13	30.54	364.06	49.64
M4 Pro	4	273	20	464.48	17.18	449.62	30.69	439.78	50.74
M4 Max	4	410	32	736.25	24.29	718.56	43.87	713.93	69.95
M4 Max	4	546	40	922.83	31.64	891.94	54.05	885.68	83.06
M5	5	153	12	374.35	9.67	489.78	17.50	636.36	31.02
M5 Pro*	5	307	16	516.6	19.7	670.0	34.8	872.5	56.3
M5 Pro*	5	307	20	629.5	19.7	820.6	35.0	1053.8	57.5
M5 Max*	5	460	32	998.0	27.8	1311.4	49.9	1710.8	79.2
M5 Max*	5	614	40	1250.6	36.3	1627.9	61.6	2122.3	94.2

带 * 号的数据是根据 M4 和 M5 数据对比的比率估计的。参考链接 Llama.cpp M 芯片 LLM[3]

欢迎大家测试一下自己的 Mac 的 LLM 表现，打在留言区👇🏻，
格式: Mac + 框架 + 模型 + 量化 + Prefill + Decode

比如我的测试：m1 ultra (64核 GPU) + mlx + Qwen3-Coder-Next 80B-A3B + int4 + 未知 + 40 tokens/s

引用链接

[1] Best Mac for LLM: https://ai.oldpan.me/t/topic/467
[2] So much to read, so little time: How do we read, and can speed reading help?, _Psychological Science in the Public Interest_ 17.1 (2016): 4-34.: https://scholar.google.com/scholar_url?url=https://journals.sagepub.com/doi/abs/10.1177/1529100615623267&hl=en&sa=T&oi=gsb&ct=res&cd=0&d=17910175235598534089&ei=dPanabbrMs-NieoPi7X7-A4&scisig=AFtJQiwfvPBZorbjwIIoB9ZlmNWi
[3] Llama.cpp M 芯片 LLM: https://github.com/ggml-org/llama.cpp/discussions/4167

编辑于 2026-03-04 · 著作权归作者所有

英伟达的"苹果芯片时刻"：Macbook迎来终极对手 2026年第一次用Mac？请调整这些设置，操作体验立刻变流畅！联想：内存价格“永远”不会回到去年的水平｜显卡日报6月25日让多屏幕操作丝滑如一，鼠标移动再无边界！2026 最新 macOS 降级教程：无需任何技术基础，降级到指定系统国外的小登们拼了命也要用“电子垃圾”玩游戏？用Mac跑大模型，比5090还划算？MacBook Air M5 深度评测：大龙虾时代，这台轻薄本凭什么成为AI最佳载体？Macbook Neo凭什么会卖爆？珠联璧合——ThinkBook 14+ 2026酷睿版性能实测为什么苹果宁愿强上A18pro，也不愿意把M1捡起来再用程序员轻薄本大 PK：一名多年果粉，为何最终放弃了 MacBook Air 苹果全网最全使用指南：从入门到榨干：Apple ID 篇星闪鼠标会是无线鼠标的最终形态吗？！ATK GEAR的这几款无线鼠标还真有点东西去澳门买台 Mac 立省 3000 块，顺手开个蚂蚁银行，送 2 股阿里，还报销路费 8 年旧 MacBook 电池问题送修，苹果直接给换了一台顶配 M4 Pro！！switch1破解版升级系统版本到21.1 为什么每次说Mac的时候总会有人说Mac没有“生产力”，因为Mac用不了CAD？MacBook Neo 的一周使用体验分享，实际表现超预期给人装机那些事之十六（截至 2026.03）