如何评价小米6月9日发布的MiMo-V2.5-Pro-UltraSpeed模式？

这个话题写起来好像有点复杂，我就用相对科普一点，大部分人都能看懂的角度来说一说吧。。

首先我觉得只要用ai的朋友就知道，ai的结果虽然很重要，但速度其实更重要。就比如DeepSeek大家都觉得它好用，但就是速度有点慢。

小米这次看官方的演示确实很强，1分钟就能复刻一个MacOS，速度太狠了...我已经申请内测了，回头试用下来给大家写体验。

我的审核过了，给大家拍个小视频：

https://www.zhihu.com/video/2047947111191386039

MiMo-V2.5-Pro-UltraSpeed，这名字挺长的，你就记住一个数字：1000。

什么意思呢，它一秒钟能输出1000个token。

token你可以理解成AI的"基础语素"，大约1个token对应1.5到2个中文字，所以1000 tokens/s换算过来差不多一秒1500到2000个字。普通人看文章的速度大概是一秒4到5个字，所以意思就是MiMo现在写东西比你读还快几百倍。

说到这儿你可能有个疑问，老听人说"万亿参数大模型"，参数到底是什么？为什么参数越多AI越聪明？

你可以把参数理解成AI大脑里的"神经连接"。人脑有860亿个神经元，神经元之间通过突触连在一起，你学到的每一个知识、形成的每一个习惯，本质上都是某些突触连接变强了。

AI的参数就是它版本的"突触"，每一个参数存着一个微小的数值，几万亿个参数加在一起，就构成了AI"理解世界"的方式。

参数越多，相当于这个AI的"脑容量"越大，能记住更多的知识、理解更复杂的关系、做出更细腻的判断。

打个不太严谨但很直观的比方，一个小模型可能只有几十亿参数，就像一个刚读完高中的学生，常识题能答，但遇到复杂的推理就吃力了。

万亿参数的大模型就像一个读了二十年的学术大佬，见多识广，什么领域都能聊两句。

但问题也来了，脑容量大的人"思考"也慢，你让学术大佬当场解一道题，他脑子里要翻的知识太多了，反应自然比高中生慢。

这就是大模型一直以来的死结：越聪明越慢。

以前这种万亿级别的AI慢得跟堵车似的，现在突然飙到1000 tokens/s，小米是怎么做到的？

先说一个常识，大模型提速最简单的办法就是让它变笨。

你想啊，一个博士做奥数题肯定比小学生做1+1慢，但博士能解出正确答案。

你要想快，换成1+1来算就快了，但遇到难题也傻眼了。之前很多AI提速就是这个思路，砍掉参数让它变轻变快，代价就是变笨。

小米这次没这么干。它的思路特别像一个公司优化：不动核心团队，只减后勤冗余。

万亿参数的大模型里，真正做决策的模块其实不大，大部分参数是负责"搬砖"的执行层，你可以理解成一个公司里真正拍板的是老板和几个总监，剩下几百号人都是干活的。

小米只给"干活的"做了压缩，"拍板的"原封不动保留。结果就是活照样干得动，决策质量一点没掉。

第二招更聪明，叫投机推理。什么意思呢，我打个比方。

假设你是一个大老板，每次写文件都要你亲自过目签字才能发出去，一个字一个字看，效率当然低。投机推理的思路是雇一个便宜的助理，让助理先帮你把文件草稿拟好，一次拟8条，你只需要一次性扫一眼，对了的6、7条直接盖章，错的1、2条打回去重写就行。

你看，你出场次数从8次变成了1次，但最终发出去的文件跟你亲自一个字一个字审过的完全一样。这不是偷懒，这是聪明地干活。在写代码这个场景下，8条里能蒙对6到7条，效率直接翻倍。

第三招是减少"等人"的时间。还是用公司来比喻，以前流水线上每道工序之间都要交接、等下一道工序准备好才能开工，中间全是空闲时间。

小米把工序之间的等待时间压到了微秒级，相当于流水线不停机，上一道刚做完下一道立刻接上，全程零等待。

这三招叠在一起才有了1000 tokens/s这个数字，缺了任何一招都到不了。不是某一个黑科技的单点突破，是三件事配合打出来的组合拳。

然后说第二个问题，为什么是小米做出来的，别人怎么不行。

你可能会想，投机推理、算子调度这些技术别人也能用啊，怎么就小米跑到了1000？

这里面有个关键的点，就像苹果为什么做芯片比别的手机厂强，不是因为苹果买的原材料更好，是因为苹果同时控制着硬件和软件，可以两边一起调。

小米也是一样的道理。压缩方案不是拿个通用工具套上去就行的，是针对自家模型一个一个参数调出来的。投机推理里的那个"助理模型"也不是随便找的，是跟主模型一起训练的，两个人的默契是从根上就设计好的。

你可以理解成一对双胞胎打乒乓球，他们从小一起练，配合的默契程度不是临时组队的人能比的。友商同类方案的公开数据普遍还在几百tokens/s的量级，差距不在工具，在"人"身上。

更重要的一点是，这种能力是可以复用的。下一代模型出来，同样的优化思路再来一轮，模型升级了系统跟着升级，两边一起往前走。这不是跑了一次百米冲刺的成绩，是建了一条能持续跑的赛道。

最后说说对咱们普通人意味着什么。

大模型行业一直有个死结：越聪明的AI用起来越贵。你可以理解成越好的医生挂号费越贵，很多企业想用顶尖AI，但一算账，算了用不起。

1000 tokens/s不只是快，它直接把每次使用的成本压下来了，理论上同样的预算约莫能服务一个量级以上的用户。这个经济账才是真正能让AI大规模落地的关键。

还有一大堆之前被卡住的场景现在有机会了。

比如你用代码助手写程序，需要它跟你来回对话几十轮不卡顿，以前到第5轮它就开始转圈了；比如实时客服，用户问一句话AI得秒回，慢半拍用户就跑了；再比如广告竞价，100毫秒之内必须做出决策，以前大模型根本进不了这个时间窗口。

现在门开了，万亿参数的AI第一次能进到这些"需要又快又准"的场景里。

还有一点容易被忽略，小米跑出这个成绩用的是通用GPU，不是什么专门定制的芯片。

这意味着不依赖某一家供应商，不担心被卡脖子，换一批显卡、出新模型，优化可以再来。这是长期主义的牌，不是赌一家芯片厂能不能按时交货，是把自己的能力变成谁也拿不走的东西。

说到这儿你可能觉得这就差不多了，但我觉得这件事还有一层更深的意味值得聊聊，就是小米在AI上的整体布局。

卢伟冰之前在Q1业绩电话会上把小米的AI战略讲得很透了，

三层架构：底层是基础大模型，就是MiMo这系列；中间层是把大模型用到智能驾驶和具身智能上；上层是让大模型走进你每天用的应用里。

三层叠在一起，大方向就八个字："用AI重构人车家全生态"。

别的厂做AI，要么做模型卖API，要么做某个垂直应用，但小米有手机、有汽车、有全屋智能，全球几亿台活跃设备摆在那，这是别家想抄都抄不来的底子。

今年3月小米发了国内首个手机端Agent产品miclaw，它能直接调用你手机上27项系统级工具，底层就是MiMo在驱动，而MiMo的推理速度直接决定了miclaw给你的体验够不够丝滑。

你想想，如果Agent帮你操作手机，每一步都要等3秒，你早就没耐心了，但如果每一步都是毫秒级响应，那感觉就跟自己操作一样流畅，你才会真的离不开它。

所以小米这次把推理速度拉到1000 tokens/s，不是单纯在跑分，是在给Agent的体验铺路。

Agent要好用，核心不是智商多高，而是反应得多快。你想让AI帮你同时操作好几件事，读短信、查日历、调空调、设闹钟，每一步都要大模型做推理判断，速度慢了整个链条就卡住了，速度快了才是真正的"你说一句它全给你搞定"。

这次的技术突破，说白了就是让小米的Agent在未来能同时处理更复杂的多步任务，而不至于在你面前转圈等加载。

还有个事儿挺值得琢磨的，下半年小米要出的一款重磅新品，据说是自研芯片玄戒、自研操作系统澎湃OS、自研AI大模型MiMo三项技术第一次在同一个终端上深度整合，现在网上都叫"技术大会师"。

如果MiMo的推理速度已经能做到1000 tokens/s，那这台新品的AI体验大概率会是一个质变级别的跃升。

更长远地看，小米未来五年要投2000亿搞研发，核心就是让AI渗透到人车家的每一个环节。

你手机上的miclaw帮你管生活，你车里的大模型帮你管驾驶和座舱体验，你家里的Miloco全屋智能系统帮你管家居，三端共享同一个底层模型能力。

这种全链路的好处是，你在手机上教AI的偏好和习惯，到了车里和家里它都记得，不需要每个设备重新"认识"你。而这整个体验能不能成立，底层就取决于模型够不够聪明、推理够不够快。

今天这1000 tokens/s，就是在给这张大网打最关键的地基。

之前我们觉得大模型就是"越强越慢越贵"，这个常识今天被打破了。万亿参数进实时推理，通用硬件跑出这个成绩，你把这两件事拆开看，任何一个单独拿出来在一年前都够开一场发布会了，现在是同时兑现。

而且它不只是现在快，它背后是一整套能跟着模型一起进化的优化体系，是小米用"人车家全生态"织起来的AI大网，这张网的天花板取决于底层模型的推理速度，而今天这个速度，才刚刚开始。

昨天刚看完星辰变动漫，不知道有没有朋友看啊！想到一个比喻可以来形容小米这些UltraSpeed…

小说里面的话，秦羽飞升神界前，因为炼器大师比较稀缺，所以整个神界想要炼造神器都很贵，一些水平比较拉的炼器大师就坐地起价，技术差不说还贼浪费资源。

小米这个UltraSpeed就跟秦羽有点像了，只需要普通材料，就可以炼造出上品神器，就像UltraSpeed只需要跑在通用GPU上一样。

你稍微给点资源，秦羽就能给你搞出一堆一流鸿蒙灵宝…以至于秦羽后来家里鸿蒙灵宝都用来当板凳了。

怎么说呢？大概这就是天赋型选手卷技术的成果，就是又快又便宜还比你搞得好。

编辑于 2026-06-10 · 著作权归作者所有

手机的AI降噪到底是个什么鬼？2026年土耳其区Apple ID注册教程及避坑指南如何正确使用知乎？21世纪看番指北 - 计算机大学生的看番个人最佳实践父亲月收入5000，买台万元电脑，过分吗？中年女人喜欢被撩吗？如何评价武亮在直播中说刚上大一不需要买电脑、男生每月生活费不能超过1500，女生要多给，起步2000？为什么古代的一些失传技术，如今无法复原？学习时，看PDF的效率是否不如看纸质书？如何克服？zip 解压密码忘记了怎么办？我国以前禁用过手机WIFI，为什么后来又允许了？普通人的一生该如何破局?win11反应巨慢，对比win10感觉啥都慢半拍，有大佬知道咋解决吗？5个极品网站，都很刺激如何评价极客湾因为大横评被全网软封禁?为何windows自带的文件搜索这么慢，而Everything的这么快？Everything史诗级更新，新功能绝了！为什么我的鼠标最多用半年按键就会失灵？有哪些薅羊毛方法，每天收入10元就可以?如何看待内存条价格崩了？