如何评价小米6月9日发布的MiMo-V2.5-Pro-UltraSpeed模式？

我想用尽量没接触过AI的人也能听懂的话，给大家解释一下

MiMo-V2.5-Pro-UltraSpeed模式到底是个啥？

他有什么用？能影响什么？（第一章是纯科普内容，不需要的同学们可以跳过）

今天小米技术的发文，第一句就是：

MiMo-V2.5-Pro-UltraSpeed：将 1T 参数模型的生成速度推向 1000 TPS

要理解这句话，我们得先知道，什么是TPS？

TPS，全称是Tokens Per Second，大白话说就是"每秒生成的token数量"。

那么一个新的问题，什么是token？

你可以把AI想象成一个正在敲键盘的人类，你每问它一个问题，他也得一个字一个字地用键盘敲，每一个字、每一个标点、每一个英文单词，都是一个token。

TPS就是这个AI敲键盘的速度，那就很清晰了，一个经验丰富的网文作者每个小时的码字速度可达3000-4000字左右，我们按照3600字来算（因为凑整），那一个人类高手的TPS就是1，注意，是一个人类打字高手，一个经验丰富的网文作者可以达到 1 TPS。

而MiMo-V2.5-Pro-UltraSpeed，可以达到1000TPS，就是每秒打1000个字。

这就是1000 TPS的意义，不是"快了一点"，而是"快了一个数量级"。

但是请注意，这个1000 TPS有个前提，是“1T 参数模型的生成速度推向1000 TPS”

那么，1T 参数的大模型，意味着什么？

首先需要明确1T参数的意义。1T即1万亿，对于大模型来说，1万亿（1T）参数是一个顶尖规模的标志。

目前主流的大模型，比如GPT-4、Llama 3 405B等，参数规模在数千亿级别。1T参数意味着模型的“知识容量”和表达能力理论上会非常强，理论上，参数越多，模型能记忆、学习和推理的复杂模式就越精细。

既然模型的参数越大越好，那大家为什么不把大模型参数往高了堆呢？

因为参数越大，消耗的算力越多。

训练一个1T参数的模型所需的算力，大约是训练一个100B参数模型的10倍，甚至更高。你需要成倍增加GPU数量、训练时间、电力消耗。也就是训练一个1T（万亿）参数的大模型，需要烧掉千亿参数大模型的指数倍率的钱，这是为什么只有顶级科技公司才能训练这种模型。每次回答一个问题，模型都要计算一遍所有1T参数。这确实需要巨大的算力，成本极高。

所以并不是大家不想要万亿参数大模型，而是太贵要不起。

而且同时，高参几乎意味着运算慢。

之前行业里有个共识——万亿参数级别的大模型，推理速度是不可能快的。因为每次回答一个问题，模型都要计算一遍所有1T参数。这确实需要巨大的算力，成本极高的同时，运算也慢。

你要么上Cerebras那种晶圆级集成的天价设备，花几千万买一台专用硬件；

要么就老老实实等，一个token一个token地蹦，用户问个问题，AI得先读完你预设的参数想半分钟才回你。

说白了，大模型的能力和速度，只能二选一。

好，现在我们终于说完了前提，终于可以回答这个最基本的问题了：

MiMo-V2.5-Pro-UltraSpeed模式到底是个啥？他有什么用？能影响什么？

让万亿级别的模型的生成速度达到 1000 TPS，这本身就是个里程碑。

首先是效率上的提升

而且是十倍效率上的提升，说白了就是MiMo-V2.5-Pro-UltraSpeed可以用同样的时间干十倍的活儿

所以虽然定价是MiMo-V2.5-Pro的3倍，但是其实效率提升了10倍，所以性价比反而更高了。

更重要的，是AI大模型应用上面的质变

在万亿参数尺度上，突破 1000 tps 绝不仅仅是打字机变快了，它带来的是 AI 应用范式的底层颠覆。

以前，你问AI一个问题，它只能给你一个答案。这个答案对不对，你不知道，AI其实也不知道。你只能祈祷它是对的。很多我们所谓的AI幻觉其实就源于此。

而如果AI大模型运算的足够快，它可以在相同的时间内，同时跑十条、甚至几十条推理路径，在后台自动使用这几十条同时推理出来的路径互相交叉验证纠错，最大程度的减少AI幻觉，直接提升推理质量。

我举个直白但是有些不恰当的例子，这就好比你做数学题，同一道题有十个不同的你一起做，做完再把答案交叉验证选择出最好的答案。

所以这不仅仅是"打字变快了"，而应该是"思考变深了"。

而且，1000tps 解放了 Coding Agent 的生产力极限

以前让AI写代码，你得等。等它想完，等它写完，等它改完。一个功能可能要等十几分钟。

现在，1000 TPS意味着什么？

意味着你刚说完需求，AI很快就能给你写出几百行代码。你还没看完第一行，它可能已经把整个功能写完了。

以前是"AI辅助人写代码"，现在是"人提需求，AI写代码"。

而且，我猜想后续还会有专门针对coding的解决方案。UltraSpeed只是开始，小米在coding领域的布局，可能才刚刚拉开序幕。

然后，我们讨论完最基本的大模型使用上面的问题，我们接下来讨论：

万亿参数模型的生成速度首次突破 1000 tps，会引起什么AI大模型应用上的质变吗？

我只能说，我不知道。

因为这是首次突破，我们暂时能想到的应用相当有限，不过我们有时间，我们可以去尝试。

比如之前有一些AI难以接入的领域，比如需要做实时决策的领域，现在随着AI大模型可以进行毫秒级的思考响应，说不定就可以开始尝试介入使用了。

比如小米技术团队提到的，高频交易、反诈拦截、甚至手术辅助、医疗影像分析等等等等，都可能因为AI的介入，有所发展，甚至大有发展。

未来还能如何，我不知道。

但我知道的是，未来的可能性已经打开了。

那么，下一个问题是

MiMo 怎么做到的？

原文是：

实现 1T 旗舰模型突破 1000 tokens/s 的生成速度，不是单一技术的突破，而是 MiMo 模型与 TileRT 系统团队深度协作、极致 Codesign 的成果。当前业界在追求类似极致速度时，往往选择走专用硬件路线，例如 Cerebras 的晶圆级集成（Wafer-Scale）或 Groq 基于纯片上 SRAM 的定制芯片架构。而我们选择了在通用 GPU 上，通过模型-系统协同设计便实现了更惊人的推理速度。

翻译一下就是：

MiMo做到这么快的推理速度，并没有使用昂贵的定制芯片架构，而是在通用 GPU上实现的，这就让这个万亿模型的1000 tokens/s 生成速度，有了绝强的性价比、和可复制性。

MiMo的方法是FP4 量化

MiMo-V2.5-Pro是一个万亿参数的模型，这么大的模型，如果用传统的FP16（16位浮点数）来存储，需要2TB的显存，如果用8张A100显卡，每张80GB，加起来才640GB。根本装不下。

怎么办？

用FP4量化。

FP4是什么？

简单来说，FP4是一种用4个比特（0或1）来表示一个数字的格式，可以简单类比为用一个仅有16个刻度的“微型尺子”去丈量一个无限丰富的世界。FP4格式通常采用1个符号位、2个指数位和1个尾数位的分配（即E2M1格式），这能让它在有限位数内相对灵活地表示很大和很小的数值。

FP4（4位浮点）可以说是当前AI计算中非常极端的量化方式之一，它的核心优势在于极致的效率，特别适合那些极度渴求内存和计算速度的场景，比如在显存有限的显卡或设备上直接运行超大模型。

但MiMo不是简单地把所有参数都量化成FP4，小米只量化了MiMo的Expert部分，因为MoE架构的特性——Expert占据了参数的绝大部分，且对量化的精度容忍度最高。

换句话说，小米找到了"最不重要"的参数，把它们FP4量化了，而"最重要"的参数，保持了高精度。

更多的技术问题，我这里跳过不再做更深入的技术分析了。下面简单聊聊

小米MiMo为什么要做这件事？

在申请入口里，小米技术团队说了这么一句：

由于资源紧张，本次试用名额有限，提交申请后不承诺审核时效性和审核通过率；我们将优先审核具备真实业务需求的企业与专业开发者场景，如有 UltraSpeed 相关的大规模商用需求，欢迎联系。

虽然短，但是信息量巨大。

传递的信号非常明确：小米MiMo正在从"技术展示"阶段，切换到"商业化"阶段。

而且根据will的说法，UltraSpeed发布后12小时内，超过3000家企业及其开发者申请了API试用名额。行业涵盖法律、金融、酒店、通信、物流、互联网、文化传媒、汽车制造……

这或许还不能说明行业非常认可UltraSpeed，但最起码说明了行业内对这次突破都非常好奇，暂时看好，都想试一试。

这也证明了MiMo通过这次突破，正式走向商业化的道路，小米在AI这个赛道上，有充分的潜力卷到世界前列。

而正如我们所知的，AI未来，大概率会是赢家通吃的。

编辑于 2026-06-09 · 著作权归作者所有

如何正确使用知乎？如何评价武亮在直播中说刚上大一不需要买电脑、男生每月生活费不能超过1500，女生要多给，起步2000？漫展摄影师真能被女coser主动搭讪吗，为了去漫展找对象购买一套照相机值得吗？你成长的私人暗器是什么？极客湾揭露手机厂商「作弊」视频遭下架，会给行业带来哪些影响？几乎全网视频都能下，颜值还高到离谱，这开源神器真的封神了。2026年最新！下载安装Google Play商店保姆级教程（无需Root，全机型可用）有哪些薅羊毛方法，每天收入10元就可以?为什么人一旦开窍了就变的特别厉害？为什么知乎上很多人说 macOS 很好用，而实际其市场占有率只有大约17.7%？为什么有些人不敢使用微信？亲测有效：笔记本电脑关闭这 7 个后台服务，续航更久、风扇更安静如何正确使用知乎？播客 (Podcast) 为什么又红了？为何windows自带的文件搜索这么慢，而Everything的这么快？如何看待00后多数人对电脑基础知识的缺失？OPPO 母亲节海报文案因称「妈妈有两个老公」引发争议，数码品牌营销的创意边界该如何界定？如何评价极客湾的全年手机大横评视频被下架？有没有一个极度精简的win10系统？告别存储焦虑，我用10万张照片认真保存人生