mac mini M4(16GB+256GB) 本地跑一个 7b 模型,辅助一些日常任务可行吗?

目前顶配(补丁SSD存储空间)的MacBook Pro 16 M5 Max 128G统一内存的售价是含教育优惠4999美元。这个价格你可以购买到单张的Blackwell Pro 5000 48G DDR7。后者按照第三方测试可以运行至多70b的量化后模型并且实现大致30tps的输出。但是同尺寸和量化下的M5 Max却只能有20tps。这就是性能和存储空间不匹配,Mac能跑,但是跑不快。

目前对于MacOS适配的加速算法主要是MLX格式,oMLX引擎以及一体程度更高的Jang框架。这三个加速方式主要依赖的M系列芯片的多通道内存带来的更高的带宽。这就必定带来了MoE加速显著明显鱼Dense模型的结果。至于实际Decode的加速,目前有且只有CUDA下的生态是可以对全量模型有作用的。

任何本地部署的大模型在训练精度下的必须小于万亿级别,不然本地部署毫无意义。



我是M5 Max,已经退了。48g内存下对比5090或4090没有优势(以防有人杠,这个价格我可以买到5090整机,所以我就按照这个预算买)。现在的技术跑一个超过内存和显存组合的大模型其实没啥难度,问题是稳定和效率。Claude Opus使用官方API大致有34 tps,但是问题是这个模型经过vertex serve deepseek测算opus至少是1.5 trillion moe activate 200b的超大规模模型。

我测试了9b Qwen3.5全量fp16模型以及官方量化的27b GPTQ int4,同时也测试了Jackrong的蒸馏以及HauhauCS的消融模型和对应的int8以及int4量化。消融不是为了涩涩,单纯是作为生物工程很多问题被拒绝回答了。对于可以输出类似Opus速度的全量fp16模型是9b版本,大致tps在34左右。但是目前后端经常卡thinking后不输出正常内容。

如果换成unsloth dynamic 2.0或官方的4bit量化,9b的tps可以爆发到110 tps, 27b的可以有40-50tps(不是很稳定);但两个模型的if极差,很容易不按照规制输出内容,工具调用能力直线下滑,而且还是卡thinking。关掉thinking的话if更差了,属于是拆东墙补西墙。起初我以为thinking卡住是vllm的bug,转llama.cpp套壳的lmstudio还是发现上述问题。我就结果放弃了折腾,果断送钱给Anthropic。

为了让大家有一个对比的参考,4090台式机显卡的效率和M5 Max是差不多的。目前大模型infra几乎都依赖FA的变体,但是4090最高就支持到FA2,甚至会fallback到FA1。这就意味着虽然逻辑上4090支持混合算子以及fp8进度的运算加速,但对比新的blackwell等支持FA4的硬件而言软件支持差了不少。如果是cuda api的话我还可以自己跑onnx优化,榨取更多的tps,但是我们讨论的mac本身技术支持上就很“迟缓。”

最最最关键的还是显存小了,一块显卡真的不适合玩大模型。所有问题不是M5 Max,而是这个有一块放在你工作或日用机器内的单张民用显卡的逻辑。一台可以以30-40tps输出120billion fp8进度下的大尺寸模型的电脑的价格现在已经来到了天价,如果你换算单位质量换算价格已经堪比贵金属。当我发现这钱全送Claude 100刀的Max用3年还有多的时候,自己host任何LLM都是伪命题。


编辑于 2026-04-14 · 著作权归作者所有