如何评价小米6月9日发布的MiMo-V2.5-Pro-UltraSpeed模式?

我想用尽量没接触过AI的人也能听懂的话,给大家解释一下

MiMo-V2.5-Pro-UltraSpeed模式到底是个啥?

他有什么用?能影响什么?(第一章是纯科普内容,不需要的同学们可以跳过)

今天小米技术的发文,第一句就是:

MiMo-V2.5-Pro-UltraSpeed:将 1T 参数模型的生成速度推向 1000 TPS

要理解这句话,我们得先知道,什么是TPS?

TPS,全称是Tokens Per Second,大白话说就是"每秒生成的token数量"。

那么一个新的问题,什么是token?

你可以把AI想象成一个正在敲键盘的人类,你每问它一个问题,他也得一个字一个字地用键盘敲,每一个字、每一个标点、每一个英文单词,都是一个token。

TPS就是这个AI敲键盘的速度,那就很清晰了,一个经验丰富的网文作者每个小时的码字速度可达3000-4000字左右,我们按照3600字来算(因为凑整),那一个人类高手的TPS就是1,注意,是一个人类打字高手,一个经验丰富的网文作者可以达到 1 TPS。

而MiMo-V2.5-Pro-UltraSpeed,可以达到1000TPS,就是每秒打1000个字。

这就是1000 TPS的意义,不是"快了一点",而是"快了一个数量级"。


但是请注意,这个1000 TPS有个前提,是“1T 参数模型的生成速度推向1000 TPS”

那么,1T 参数的大模型,意味着什么?

首先需要明确1T参数的意义。1T即1万亿,对于大模型来说,1万亿(1T)参数是一个顶尖规模的标志

目前主流的大模型,比如GPT-4、Llama 3 405B等,参数规模在数千亿级别。1T参数意味着模型的“知识容量”和表达能力理论上会非常强,理论上,参数越多,模型能记忆、学习和推理的复杂模式就越精细。

既然模型的参数越大越好,那大家为什么不把大模型参数往高了堆呢?

因为参数越大,消耗的算力越多。

训练一个1T参数的模型所需的算力,大约是训练一个100B参数模型的10倍,甚至更高。你需要成倍增加GPU数量、训练时间、电力消耗。也就是训练一个1T(万亿)参数的大模型,需要烧掉千亿参数大模型的指数倍率的钱,这是为什么只有顶级科技公司才能训练这种模型。每次回答一个问题,模型都要计算一遍所有1T参数。这确实需要巨大的算力,成本极高。

所以并不是大家不想要万亿参数大模型,而是太贵要不起。

而且同时,高参几乎意味着运算慢。

之前行业里有个共识——万亿参数级别的大模型,推理速度是不可能快的。因为每次回答一个问题,模型都要计算一遍所有1T参数。这确实需要巨大的算力,成本极高的同时,运算也慢。

你要么上Cerebras那种晶圆级集成的天价设备,花几千万买一台专用硬件;

要么就老老实实等,一个token一个token地蹦,用户问个问题,AI得先读完你预设的参数想半分钟才回你。

说白了,大模型的能力和速度,只能二选一。

好,现在我们终于说完了前提,终于可以回答这个最基本的问题了:


MiMo-V2.5-Pro-UltraSpeed模式到底是个啥?他有什么用?能影响什么?

让万亿级别的模型的生成速度达到 1000 TPS,这本身就是个里程碑。

首先是效率上的提升

而且是十倍效率上的提升,说白了就是MiMo-V2.5-Pro-UltraSpeed可以用同样的时间干十倍的活儿

所以虽然定价是MiMo-V2.5-Pro的3倍,但是其实效率提升了10倍,所以性价比反而更高了。


更重要的,是AI大模型应用上面的质变

在万亿参数尺度上,突破 1000 tps 绝不仅仅是打字机变快了,它带来的是 AI 应用范式的底层颠覆。

以前,你问AI一个问题,它只能给你一个答案。这个答案对不对,你不知道,AI其实也不知道。你只能祈祷它是对的。很多我们所谓的AI幻觉其实就源于此。


而如果AI大模型运算的足够快,它可以在相同的时间内,同时跑十条、甚至几十条推理路径,在后台自动使用这几十条同时推理出来的路径互相交叉验证纠错,最大程度的减少AI幻觉,直接提升推理质量。

我举个直白但是有些不恰当的例子,这就好比你做数学题,同一道题有十个不同的你一起做,做完再把答案交叉验证选择出最好的答案。

所以这不仅仅是"打字变快了",而应该是"思考变深了"。


而且,1000tps 解放了 Coding Agent 的生产力极限

以前让AI写代码,你得等。等它想完,等它写完,等它改完。一个功能可能要等十几分钟。

现在,1000 TPS意味着什么?

意味着你刚说完需求,AI很快就能给你写出几百行代码。你还没看完第一行,它可能已经把整个功能写完了。

以前是"AI辅助人写代码",现在是"人提需求,AI写代码"。

而且,我猜想后续还会有专门针对coding的解决方案。UltraSpeed只是开始,小米在coding领域的布局,可能才刚刚拉开序幕。


然后,我们讨论完最基本的大模型使用上面的问题,我们接下来讨论:


万亿参数模型的生成速度首次突破 1000 tps,会引起什么AI大模型应用上的质变吗?

我只能说,我不知道。

因为这是首次突破,我们暂时能想到的应用相当有限,不过我们有时间,我们可以去尝试。

比如之前有一些AI难以接入的领域,比如需要做实时决策的领域,现在随着AI大模型可以进行毫秒级的思考响应,说不定就可以开始尝试介入使用了。

比如小米技术团队提到的,高频交易、反诈拦截、甚至手术辅助、医疗影像分析等等等等,都可能因为AI的介入,有所发展,甚至大有发展。

未来还能如何,我不知道。

但我知道的是,未来的可能性已经打开了。


那么,下一个问题是

MiMo 怎么做到的?

原文是:

实现 1T 旗舰模型突破 1000 tokens/s 的生成速度,不是单一技术的突破,而是 MiMo 模型与 TileRT 系统团队深度协作、极致 Codesign 的成果。当前业界在追求类似极致速度时,往往选择走专用硬件路线,例如 Cerebras 的晶圆级集成(Wafer-Scale)或 Groq 基于纯片上 SRAM 的定制芯片架构。而我们选择了在通用 GPU 上,通过模型-系统协同设计便实现了更惊人的推理速度。

翻译一下就是:

MiMo做到这么快的推理速度,并没有使用昂贵的定制芯片架构,而是在通用 GPU上实现的,这就让这个万亿模型的1000 tokens/s 生成速度,有了绝强的性价比、和可复制性。

MiMo的方法是FP4 量化

MiMo-V2.5-Pro是一个万亿参数的模型,这么大的模型,如果用传统的FP16(16位浮点数)来存储,需要2TB的显存,如果用8张A100显卡,每张80GB,加起来才640GB。根本装不下。

怎么办?

用FP4量化。

FP4是什么?

简单来说,FP4是一种用4个比特(0或1)来表示一个数字的格式,可以简单类比为用一个仅有16个刻度的“微型尺子”去丈量一个无限丰富的世界。FP4格式通常采用1个符号位、2个指数位和1个尾数位的分配(即E2M1格式),这能让它在有限位数内相对灵活地表示很大和很小的数值。

FP4(4位浮点)可以说是当前AI计算中非常极端的量化方式之一,它的核心优势在于极致的效率,特别适合那些极度渴求内存和计算速度的场景,比如在显存有限的显卡或设备上直接运行超大模型。


但MiMo不是简单地把所有参数都量化成FP4,小米只量化了MiMo的Expert部分,因为MoE架构的特性——Expert占据了参数的绝大部分,且对量化的精度容忍度最高。

换句话说,小米找到了"最不重要"的参数,把它们FP4量化了,而"最重要"的参数,保持了高精度。


更多的技术问题,我这里跳过不再做更深入的技术分析了。下面简单聊聊

小米MiMo为什么要做这件事?

在申请入口里,小米技术团队说了这么一句:

由于资源紧张,本次试用名额有限,提交申请后不承诺审核时效性和审核通过率;我们将优先审核具备真实业务需求的企业与专业开发者场景,如有 UltraSpeed 相关的大规模商用需求,欢迎联系。

虽然短,但是信息量巨大。

传递的信号非常明确:小米MiMo正在从"技术展示"阶段,切换到"商业化"阶段。

而且根据will的说法,UltraSpeed发布后12小时内,超过3000家企业及其开发者申请了API试用名额。行业涵盖法律、金融、酒店、通信、物流、互联网、文化传媒、汽车制造……

这或许还不能说明行业非常认可UltraSpeed,但最起码说明了行业内对这次突破都非常好奇,暂时看好,都想试一试。

这也证明了MiMo通过这次突破,正式走向商业化的道路,小米在AI这个赛道上,有充分的潜力卷到世界前列。

而正如我们所知的,AI未来,大概率会是赢家通吃的。

编辑于 2026-06-09 · 著作权归作者所有