如何评价小米 3 月 19 日发布的 Xiaomi MiMo-V2-Pro / Omni/TTS?

其实在这次MiMo V2 Pro发布之前的一周,OpenRouter上就已经出现了一个叫“Hunter Alpha”的模型了,并且一直霸占在榜首上。
当时很多人猜测这个是DeepSeek V4或者GLM5.5的测试版,我还跑去请教了一下铎神,铎神给我发了一串意味不明的表情包,现在揭晓答案,合着这原来就是他们小米MiMo V2 Pro的测试版!
相比于之前的309B(激活15B)的MoE模型MiMo V2,这次的V2 Pro总参数规模突破1万亿(1T),其中激活参数为42B。V2 Pro采用改进后的混合注意力机制,在保证推理效率的同时大幅提升模型容量。其上下文窗口进一步扩展至100万Token,可以支持超长任务链和复杂工作流。
小米对MiMo V2 Pro的定义就是“面向Agent时代的旗舰基座大模型”,相比于之前的只能对话和处理简单任务,这次它升级为了“Agent系统的大脑”,能够主动去理解任务、然后主动调用工具,再去执行多步骤流程,最后实现交付。
另外这次同步发布的还有MiMo V2 Omni和Mimo V2 TTS。
Omni的定义是“能看见、听得懂、能动手的全模态Agent”,它支持图像、视频、音频、文本感知能力,是具身智能设备的基座。
TTS定义是“为Agent注入灵魂,从此刻开始发声”,它支持语言特征捕捉与还原,甚至还支持整体风格定调到局部情绪的精准调节,可以在同一句话内实现语气转折、情感递变,唱歌时也能表达高音和节奏,自然不做作。
MiMo V2 Pro提供了“有思考逻辑的大脑”,而Omni和TTS,则补齐了感知与表达的最后两块拼图。
这波MiMo V2 Pro/Omni/TTS可谓是“三剑齐发”,三模型的组合,某种程度上能在告诉他他是“鸡哥”之后,他自己在写出“鸡你太美”的同时,然后在机器人上表演一个“唱、跳、Rap和篮球”,总之就是很牛皮。

在全球权威大模型综合智能排行榜Artificial Analysis上,MiMo-V2-Pro位列全球第八,国内第二。

在小米技术微博账号公布的这张Agent能力测试表当中,V2 Pro的大部分能力相较于V2均有了较大提升,横向对比之下,它的表现也已进入全球第一梯队。在ClawEval(通用Agent能力评估)中,V2 Pro得分61.5,比Claude Opus 4.6差4.8分;在PinchBench测试中已经逼近Claude Opus和GPT 5.2。
当然,小米的大模型也不只是纯粹的跑分,小米也在强调真实世界的表现,这也是小米目前的发展方向,即将小米人车家、小米智能工厂和AI大模型结合,将AI从虚拟世界搬向物理现实。
换句话说,MiMo V2 Pro/Omni/TTS不只是“能回答”,它还是“能干活”,它正在从传统的对话模型向“执行模型”转变。

在小米技术公布的前端应用场景中,MiMo-V2-Pro同样表现出较强的跨领域能力。
测试要求它模拟90年代纸质杂志的风格,包括各种元素和各种格式的排版、标题、纹理,甚至还能细化到动效,去设计一个网页。模型成功识别并理解了这一系列的复杂描述,甚至还生成了包含字体选择、布局结构与动态效果在内的完整前端实现方案。
这也标志着MiMo V2 Pro正在从纯粹的“生成内容”走向“生成一个完整的解决方案”,再加上它的对话框能够输入100万Token的长问,因此它就能更好地去处理长且复杂的任务,甚至是处理多轮任务。




目前,小米MiMo V2 Pro 已在MiMo Studio、金山办公、米家和小米浏览器等多个平台同步上线。
以及MiMo Studio也同步上线了MiMo Claw,你可以用V2 Pro来养龙虾了。MiMo Claw 模块现已全面打通金山 WebOffice 生态,原生支持 Word、Excel、PPT、PDF 四大主流格式,无缝覆盖超 95% 的日常文档类型。

在收费这一块,目前是限时一周免费。
后续采用分段收费的模式:在256K上下文范围内,输入与输出单价分别为1美元和3美元(每百万Token);若使用1百万长上下文,费率则上浮至输入2美元、输出6美元。
这个价格明显是要比几个竞品低的,小米也希望利用这种性价比策略来吸引更多开发者,尤其是“缓存写入暂时免费”这一点,对于需要频繁调用长上下文提示词的Agent开发者而言,将极大地降低运行成本。