如何评价6月9日小米MiMo-V2.5-Pro的UltraSpeed模式?1000tps是怎么实现的?

技术细节建议看小米官方的博客,讲的还是比较清楚的。主要是三点:FP4推理、新的投机解码方案以及内核Kernel优化。

Xiaomi MiMo, Explore and Love

简单粗暴地理解的话,1T 参数的模型,如果要用 FP16精度,相当于需要占用 2TB 的显存,FP8 对应 1TB,FP4 则可以将显存占用压缩到 0.5TB。通过这种低精度量化的方案,可以显著降低显存占用以及带宽需求。我们都知道,大模型在 decoding 阶段是串行推理、自回归的方式,对于带宽的需求高于算力。因此,通过低精度量化就可以很大程度提高整体的吞吐量和速度。

当然,如果粗暴地进行全量低精度量化,很有可能因为精度丧失而影响性能。所以小米这次只对 MoE 的 Expert 部分进行了低精度量化,但维持了 Attention 等部分不变。通过这种方式,在有效降低显存和带宽需求的情况下,保证了模型性能不滑坡。

投机推理(MTP)其实也是现在比较常用的一种推理加速方案。通过一个小模型预测未来的 token 生成,可以减少每个 token 都需要通过全量模型生成的性能需求。

但是,现在主流的 MTP 也还是 token by token 的方式,即使做到MTP3收益也还是相对有限。这次UltraSpeed模式的投机推理用了DFlash的方法,DFlash技术细节我让GPT做了一张信息图,当然小米也针对自己的模型做了定制优化。简单来说就是基于扩散模型一次并行生成一个token block, 效率比串行MTP大大提升(Coding场景接受度能到6个token以上),也进一步加快了模型的吞吐速率。

最后是Kernel层面,进一步提升TPS意味着需要尽可能地降低任何可以压缩的开销,比如传统算子启动、硬件同步等的时间——通过跟TileRT团队的深度协同设计,对这一块的时延也做了最大化的压缩。TileRT团队的技术blog对这个话题有更详细的介绍,推荐读一读。

tilert.ai/blog/breaking

如果你去看小米目前在 OpenRouter 上的官方 Provider 的 TPS 的话,基本上是在 30 TPS 左右。这其实也是当前 1T 左右参数的模型平均的推理速度水平。这个速度对于 Chatbot 来说其实是够了的,人再快也没法一目十行。但是对于 Coding Agent 这种场景来说就远远不够了。目前 Coding Agent 的 Token 消耗有大量是用在了工具调用、上下文阅读和推理上,30 TPS 其实会显著地降低工作效率。

这其实也就成了小米这次 UltraSpeed 模式的必要性之一。一方面,对于 Coding Agent 产品来说,极致的速度可以帮助用户进一步提高使用效率。另一方面,更低的时延(正如小米官方博客所说)能够帮助大模型在很多有 Low Latency 需求的场景中实现应用突破。更不要说,更高的 TPS 意味着模型可以同时并发多个请求,实现 Best-of-N 等不同的探索方式。这对于现在越来越成为热点话题的 AI 自迭代范式来说,也是很有帮助的。

不过我个人认为,小米这里的 1000 TPS 更多是单节点单并发下的极限值。如果要在大规模集群下部署的话,根据官方在定价侧的表达,“10 倍输出体验”应该是 300 TPS 左右,也仍然是一个远超当前行业平均值的水平。

当然,更高的推理速度也意味着产品的价格相对来说要更高一些。目前看的话,3 倍的定价在 MiMo-V2.5-Pro 降价以后,仍然是非常有竞争力的。如果真的能够保证极高质量的 TPS,那么我认为这个定价也还是有它的合理性的。

毕竟最近跟很多行业内的朋友交流下来,大家对于 token 质量这个事情也开始有所评估。更好的 SLO 自然对应了更高的价格,无论在供给端还是需求端都是如此。

编辑于 2026-06-09 · 著作权归作者所有
相关文章
小米能否在技术上,以低成本方案阻止安装空调虚假抽真空行为?小米高端机型的品牌力为啥不被广泛认可?雷军说手机可能会越来越贵,若计划未来一年换手机,强烈推荐现在就换,现在真是最佳抄底时机吗?如何评价 4 月 17 日雷军开启 15 小时新 SU7 测试直播?如何评价4月17日雷军的小米su7京沪巡航测试直播?我在想,如果SU7和YU7不是小米做的,是一家新的新能源公司做的,大家态度是什么样,还有这样的热度?网传「小米玄戒芯片是arm深度定制」,现在半年过了,是否有其他企业使用arm深度定制芯片的具体成果?如何看待2026年3月8日开发者公开的小米骁龙8 Elite Gen 5机型BL锁漏洞?如果小米亲自下场拆su7 ultra,会揭穿挖孔造假风道不通风吗?小米为什么没有想到提前华为一步做阔折叠?如何评价红米R70?如何看待IDC发布2026第一季度国内手机出货量数据,华为居首苹果次席,小米跌出前五?如何评价小米mimo-V2.5 系列模型5月27日大降价?如何看到小米在不断被诋毁中,越走越远,小米汽车越卖越好?6 月 23 日部分小米电视用户反馈收到地震预警,小米致歉称内测操作失误,什么情况?暴露出哪些问题?小米被造过哪些低智商谣言?为什么董明珠攻击小米空调,而公牛却没有攻击小米插座?如何评价 4 月 17 日雷军开启 15 小时新 SU7 测试直播?新一代小米 SU7 发布,售价 21.99-30.39 万,怎样看待这一定价?预计销量会如何?如何评价4月17日雷军的小米su7京沪巡航测试直播?