Qwen3.6 35B A3B 各量化版本消费级显卡上哪个更好？

按目前的测试，如果显存够，比如双卡4090之类的，可以直接上FP8量化版本，效果最佳。

如果只有24G显存的显卡，Qwen 3.6-a3b-apex-I-Compact.gguf是不错的选择。

也可选MTP版本的Qwen3.6-a3b-apex-mtp-I-Compact.gguf，速度相较确实有所提升，快的时候每秒可达 140t/s

如果显存更少，只有16G，大概只能考虑Qwen3.6-35B-A3B-APEX-MTP-I-Nano.gguf这个版本。

特别要说一下，测量了Qwen3.5 9B、4B的版本，即使是采用量化版，其速度也没有35B A3B的版本速度快，因此是一个更优的选择。

双卡大显存还可以考虑Qwen3.6 27B，优选也是MTP版本，但如果没有双卡，消费级的单卡即使是显存大，跑起来也很吃力。

另外对于写码来说，Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-APEX-MTP-I-Compact.gguf，这个版本令人意外，不但本地能达到130t/s以上，结合opencode，稍中等一些的编码任务也极为丝滑。

这些模型直接配合llama.cpp的server便可以启用，24G显存本地部署经验参数是：

llama-server -ngl999-fa on -c131072-n8192-b4096
--modelQwen3.6-35B-A3B-APEX-MTP-I-Compact.gguf
--parallel1
--temperature0.1--top_p0.9--top_k20--min_p0.05
--cache-ram4--cache-idle-slots--kv-unified
--spec-typedraft-mtp--spec-draft-n-min1--spec-draft-n-max2
--chat-template-kwargs"{\"enable_thinking\":true}"

特别说明，开启MTP一定要用支持MTP的模型，并且应当加上参数

--spec-typedraft-mtp--spec-draft-n-min1--spec-draft-n-max2

如果要进一步节省内存，考虑采用q8量化

-－cache-type-k q8_0 --cache-type-v q8_0

这个参数不能再降了，再降会反而让模型跑得更慢

编辑于 2026-05-26 · 著作权归作者所有

相关文章

联想 ThinkBook14+/16+2026 酷睿版售 8299 元起，你觉得值得购买吗？真正懂显卡的人，都选了什么显卡？4090 魔改 48g 显存是怎么做到的？2026款 ThinkBook16+ 酷睿Ultra X7 358H使用体验（含TGX外接显卡）蓝戟 Intel Arc Pro B70 TF评测：32 GB大显存，推理神卡？RTX306012GB 显卡将于 6 月复产、7 月开卖，它在当前市场还有竞争力吗？梁文峰称英伟达「技术没有秘密」，从技术角度看该说法合理吗？26年4月，什么CPU值得买？（含天梯图）如何看待抖音店铺“矿龙飞全新显卡”被封禁？2026年5月该买什么CPU（INTEL篇）AMD 和 NVIDIA 显卡现在差距还有多大，各自优势在哪里？砺算科技 7g100 国产显卡开启预约，12GB 售 3299 元，其市场竞争力如何？有哪些二手显卡值得玩?史上最全各级别电脑主机配置单（从270元到25W主机，共153套）【2026年6月10日更新】本地跑AI大模型，显卡显存怎么选？一张表搞定，别再买错了为什么大家对i5 12400的评价那么好?《007：初露锋芒》RTX50系显卡实测，想当王牌特工到底需要什么配置？全系二手CPU推荐，闭眼买不亏的型号盘点，26号数据更新 NVIDIA RTX PRO™ 5000 Blackwell 深度测评：48GB vs 72GB，AI 推理怎么选？纯黑金特工高定初露锋芒实测七彩虹iGame RTX 5070 007联名定制显卡

推荐内容

为何windows自带的文件搜索这么慢，而Everything的这么快？合资车企到底做了什么恶，怎么在中国口碑这么差？很多人都厌恶？欧洲热浪已致上百人死亡，为什么不开空调？如何正确使用知乎？在经济适用时代，如何做到花钱少，吃得饱，睡得好？为什么有些人不敢使用微信？