Qwen3.6 35B A3B 各量化版本消费级显卡上哪个更好?
按目前的测试,如果显存够,比如双卡4090之类的,可以直接上FP8量化版本,效果最佳。
如果只有24G显存的显卡,Qwen 3.6-a3b-apex-I-Compact.gguf是不错的选择。
也可选MTP版本的Qwen3.6-a3b-apex-mtp-I-Compact.gguf,速度相较确实有所提升,快的时候每秒可达 140t/s
如果显存更少,只有16G,大概只能考虑Qwen3.6-35B-A3B-APEX-MTP-I-Nano.gguf这个版本。
特别要说一下,测量了Qwen3.5 9B、4B的版本,即使是采用量化版,其速度也没有35B A3B的版本速度快,因此是一个更优的选择。
双卡大显存还可以考虑Qwen3.6 27B,优选也是MTP版本,但如果没有双卡,消费级的单卡即使是显存大,跑起来也很吃力。
另外对于写码来说,Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-APEX-MTP-I-Compact.gguf,这个版本令人意外,不但本地能达到130t/s以上,结合opencode,稍中等一些的编码任务也极为丝滑。
这些模型直接配合llama.cpp的server便可以启用,24G显存本地部署经验参数是:
llama-server -ngl999-fa on -c131072-n8192-b4096
--modelQwen3.6-35B-A3B-APEX-MTP-I-Compact.gguf
--parallel1
--temperature0.1--top_p0.9--top_k20--min_p0.05
--cache-ram4--cache-idle-slots--kv-unified
--spec-typedraft-mtp--spec-draft-n-min1--spec-draft-n-max2
--chat-template-kwargs"{\"enable_thinking\":true}"
特别说明,开启MTP一定要用支持MTP的模型,并且应当加上参数
--spec-typedraft-mtp--spec-draft-n-min1--spec-draft-n-max2
如果要进一步节省内存,考虑采用q8量化
--cache-type-k q8_0 --cache-type-v q8_0
这个参数不能再降了,再降会反而让模型跑得更慢
编辑于 2026-05-26 · 著作权归作者所有