如何评价6月9日小米MiMo-V2.5-Pro的UltraSpeed模式?1000tps是怎么实现的?
郭德纲:你就说快不快吧~

技术圈都在照着小米博客说,说什么FP4量化、DFlash并行预测、TileRT推理重构,连环招把Token输出速度提高到1000tps,说真的,除了FP4量化,其他的概念术语我以前没听说,我要好好学习学习。
虽然我也不知道1000tps具体怎么实现的,但我只知道这会让人类的注意力更加宝贵,因为AI输出太快看不过来了。
以前是你等AI,以后是AI等你。
在100tps的时代,AI打字的速度比你阅读的速度略略快一点,也没快太多,所以看AI的输出差不多也能跟得上,你刚读完第一段,AI生成了第二段,你看完第二段,AI生成了第三段,你也就比AI输出晚个几秒看完它的输出,然后你就可以给它下一个指令。
你在读AI的输出过程,就能体会到AI怎么想的,也就是所谓思维链(Chain of Thoughts),能看到它有时候还纠结一下,让你相信这厮是在思考,不是念稿。
这个节奏在100tps下OK,到了1000tps就不行了。
看小米官方博客上的demo,1000tps下,输出呼呼呼地滚动,是真的快,但也根本看不清输出了啥.
我不禁有了一个疑问——既然人类连1000tps输出都看不过来了,那还给我们看干嘛?
现在小米的模型疯狂输出那么多,我要慢慢看完,小米模型就得等我看完,才能等到我的下一个指令,这不就是从以前的人等AI,变成了AI等人?
感觉.......不大对劲啊,AI虽然提速了,但是瓶颈从AI转移到人身上了,呵呵~
此外,我基于朴素的逻辑,AI的智力和算力是成正比的,在给定算力情况下,加快Token的输出,但是总智力不会有显著的提升的。
打个比方讲,一个人脑力也就那么大,一分钟思考着说200个字,你训练他说话更快,最后他能和节目主持人一样10倍速把话说完,一分钟说2000个字,但是并不代表他脑力或者智力更强大了,他喷了2000个字,最后表达的思想和之前200个字一样,那就只是表演说话很快而已,对吧。
看到『FP4量化』这个词,很难让人不想到,虽然速度更快了,但是单个token代表的智能(intelligence per token)会降低。
先占个坑,回头拿小米模型来实操一下再来看实际表现如何。