如何评价6月9日小米MiMo-V2.5-Pro的UltraSpeed模式？1000tps是怎么实现的？

郭德纲：你就说快不快吧~

技术圈都在照着小米博客说，说什么FP4量化、DFlash并行预测、TileRT推理重构，连环招把Token输出速度提高到1000tps，说真的，除了FP4量化，其他的概念术语我以前没听说，我要好好学习学习。

虽然我也不知道1000tps具体怎么实现的，但我只知道这会让人类的注意力更加宝贵，因为AI输出太快看不过来了。

以前是你等AI，以后是AI等你。

在100tps的时代，AI打字的速度比你阅读的速度略略快一点，也没快太多，所以看AI的输出差不多也能跟得上，你刚读完第一段，AI生成了第二段，你看完第二段，AI生成了第三段，你也就比AI输出晚个几秒看完它的输出，然后你就可以给它下一个指令。

你在读AI的输出过程，就能体会到AI怎么想的，也就是所谓思维链(Chain of Thoughts)，能看到它有时候还纠结一下，让你相信这厮是在思考，不是念稿。

这个节奏在100tps下OK，到了1000tps就不行了。

看小米官方博客上的demo，1000tps下，输出呼呼呼地滚动，是真的快，但也根本看不清输出了啥.

我不禁有了一个疑问——既然人类连1000tps输出都看不过来了，那还给我们看干嘛？

现在小米的模型疯狂输出那么多，我要慢慢看完，小米模型就得等我看完，才能等到我的下一个指令，这不就是从以前的人等AI，变成了AI等人？

感觉.......不大对劲啊，AI虽然提速了，但是瓶颈从AI转移到人身上了，呵呵~

此外，我基于朴素的逻辑，AI的智力和算力是成正比的，在给定算力情况下，加快Token的输出，但是总智力不会有显著的提升的。

打个比方讲，一个人脑力也就那么大，一分钟思考着说200个字，你训练他说话更快，最后他能和节目主持人一样10倍速把话说完，一分钟说2000个字，但是并不代表他脑力或者智力更强大了，他喷了2000个字，最后表达的思想和之前200个字一样，那就只是表演说话很快而已，对吧。

看到『FP4量化』这个词，很难让人不想到，虽然速度更快了，但是单个token代表的智能（intelligence per token)会降低。

先占个坑，回头拿小米模型来实操一下再来看实际表现如何。

编辑于 2026-06-09 · 著作权归作者所有