如何评价6月9日小米MiMo-V2.5-Pro的UltraSpeed模式？1000tps是怎么实现的？

技术细节建议看小米官方的博客，讲的还是比较清楚的。主要是三点：FP4推理、新的投机解码方案以及内核Kernel优化。

简单粗暴地理解的话，1T 参数的模型，如果要用 FP16精度，相当于需要占用 2TB 的显存，FP8 对应 1TB，FP4 则可以将显存占用压缩到 0.5TB。通过这种低精度量化的方案，可以显著降低显存占用以及带宽需求。我们都知道，大模型在 decoding 阶段是串行推理、自回归的方式，对于带宽的需求高于算力。因此，通过低精度量化就可以很大程度提高整体的吞吐量和速度。

当然，如果粗暴地进行全量低精度量化，很有可能因为精度丧失而影响性能。所以小米这次只对 MoE 的 Expert 部分进行了低精度量化，但维持了 Attention 等部分不变。通过这种方式，在有效降低显存和带宽需求的情况下，保证了模型性能不滑坡。

投机推理（MTP）其实也是现在比较常用的一种推理加速方案。通过一个小模型预测未来的 token 生成，可以减少每个 token 都需要通过全量模型生成的性能需求。

但是，现在主流的 MTP 也还是 token by token 的方式，即使做到MTP3收益也还是相对有限。这次UltraSpeed模式的投机推理用了DFlash的方法，DFlash技术细节我让GPT做了一张信息图，当然小米也针对自己的模型做了定制优化。简单来说就是基于扩散模型一次并行生成一个token block，效率比串行MTP大大提升（Coding场景接受度能到6个token以上），也进一步加快了模型的吞吐速率。

最后是Kernel层面，进一步提升TPS意味着需要尽可能地降低任何可以压缩的开销，比如传统算子启动、硬件同步等的时间——通过跟TileRT团队的深度协同设计，对这一块的时延也做了最大化的压缩。TileRT团队的技术blog对这个话题有更详细的介绍，推荐读一读。

https://www.tilert.ai/blog/breaking-1000-tps.html

如果你去看小米目前在 OpenRouter 上的官方 Provider 的 TPS 的话，基本上是在 30 TPS 左右。这其实也是当前 1T 左右参数的模型平均的推理速度水平。这个速度对于 Chatbot 来说其实是够了的，人再快也没法一目十行。但是对于 Coding Agent 这种场景来说就远远不够了。目前 Coding Agent 的 Token 消耗有大量是用在了工具调用、上下文阅读和推理上，30 TPS 其实会显著地降低工作效率。

这其实也就成了小米这次 UltraSpeed 模式的必要性之一。一方面，对于 Coding Agent 产品来说，极致的速度可以帮助用户进一步提高使用效率。另一方面，更低的时延（正如小米官方博客所说）能够帮助大模型在很多有 Low Latency 需求的场景中实现应用突破。更不要说，更高的 TPS 意味着模型可以同时并发多个请求，实现 Best-of-N 等不同的探索方式。这对于现在越来越成为热点话题的 AI 自迭代范式来说，也是很有帮助的。

不过我个人认为，小米这里的 1000 TPS 更多是单节点单并发下的极限值。如果要在大规模集群下部署的话，根据官方在定价侧的表达，“10 倍输出体验”应该是 300 TPS 左右，也仍然是一个远超当前行业平均值的水平。

当然，更高的推理速度也意味着产品的价格相对来说要更高一些。目前看的话，3 倍的定价在 MiMo-V2.5-Pro 降价以后，仍然是非常有竞争力的。如果真的能够保证极高质量的 TPS，那么我认为这个定价也还是有它的合理性的。

毕竟最近跟很多行业内的朋友交流下来，大家对于 token 质量这个事情也开始有所评估。更好的 SLO 自然对应了更高的价格，无论在供给端还是需求端都是如此。

编辑于 2026-06-09 · 著作权归作者所有

小米能否在技术上，以低成本方案阻止安装空调虚假抽真空行为？小米高端机型的品牌力为啥不被广泛认可？雷军说手机可能会越来越贵，若计划未来一年换手机，强烈推荐现在就换，现在真是最佳抄底时机吗？如何评价 4 月 17 日雷军开启 15 小时新 SU7 测试直播?如何评价4月17日雷军的小米su7京沪巡航测试直播？我在想，如果SU7和YU7不是小米做的，是一家新的新能源公司做的，大家态度是什么样，还有这样的热度？网传「小米玄戒芯片是arm深度定制」，现在半年过了，是否有其他企业使用arm深度定制芯片的具体成果？如何看待2026年3月8日开发者公开的小米骁龙8 Elite Gen 5机型BL锁漏洞？如果小米亲自下场拆su7 ultra，会揭穿挖孔造假风道不通风吗？小米为什么没有想到提前华为一步做阔折叠？如何评价红米R70？如何看待IDC发布2026第一季度国内手机出货量数据，华为居首苹果次席，小米跌出前五？如何评价小米mimo-V2.5 系列模型5月27日大降价？如何看到小米在不断被诋毁中，越走越远，小米汽车越卖越好？6 月 23 日部分小米电视用户反馈收到地震预警，小米致歉称内测操作失误，什么情况？暴露出哪些问题？小米被造过哪些低智商谣言？为什么董明珠攻击小米空调，而公牛却没有攻击小米插座？如何评价 4 月 17 日雷军开启 15 小时新 SU7 测试直播?新一代小米 SU7 发布，售价 21.99-30.39 万，怎样看待这一定价？预计销量会如何？如何评价4月17日雷军的小米su7京沪巡航测试直播？