如何评价小米 3 月 19 日发布的 Xiaomi MiMo-V2-Pro / Omni/TTS?

这两天把 OpenClaw 接上之后，我断断续续用了整整一天多，先随便聊聊感受。

Pro 和 Omni 这两个模型的推理速度都挺快，但思维链的长度看起来都不算很够。拿来驱动一些不太依赖智力密度的任务，我觉得问题不大。这可能也和小米团队针对自身业务场景做了定向设计有关。

先说 Pro。老实说，这个模型给我的整体印象比较一般。虽然上下文窗口看起来很长，但真正有效可用的长度其实没有那么高。OpenClaw 的系统提示词本身就很长，等这些内容加载完之后，有些约定还没正式开始聊就已经记不太住了。它的好处当然也有，就是可以减少压缩，所以在长上下文任务上的表现会比 Omni 好一些，但这个优势也比较有限。不知道是不是滑窗注意力层的比例变多了，我总觉得这种设计多少影响了整个模型的效果。

而且 Pro 在一些简单逻辑测试上的表现也不太理想。像洗车问题答不对，时钟镜像问题也答不对。不过这里我也不敢完全下定论，因为不确定是不是版本之间存在差异。官方在线平台上的版本，体感上似乎比我接进 OpenClaw 里的要聪明不少。也有可能是 OpenClaw 的提示词太长，占用了太多上下文，导致性能出现衰减。

相比之下，Omni 的表现我觉得就非常可圈可点。

如果整体上下文长度不是特别长，我甚至觉得它的实际表现比 Pro 版还要更好一些。系统提示词里的一些特殊约定，它基本都还能记得住，不会随着对话推进就慢慢遗忘。

逻辑测试方面，它也明显比 Pro 更好一点。当然，遇到特别难的题，它还是做不出来。不过考虑到它的尺寸，我觉得这个问题是可以接受的。

编程能力方面，我的评价是中规中矩，没有什么特别让我惊喜的地方。但有一次我让它帮我找一份代码里的 bug，它居然找出了一个语法上完全没问题、但业务逻辑上有错误的 bug。这份代码我之前让国内外不少模型都帮忙检查过，最后只有 Claude 和 GPT 发现了这个问题，所以这一点还是挺让我意外的。

多模态能力这边，我目前只测试了图像内容识别。我发了一张之前 Cursor 做过的榜单对比图，让它来分析，整体结果算是比较理想。图像内容的识别和标注都还不错，不过有些文字还是会识别错。

总的来说，我觉得 Pro 这个模型的后训练可能还不够到位。滑动窗口注意力层的比例比较高，这一点本身是不是也存在问题，我现在还不太确定。但从结果看，确实会让人觉得它有点过于强调计算速度和成本了。相比之下，Omni 的完成度就明显高很多，我觉得是个挺靠谱的模型。后面有空的话，我想再拿它和千问 3.5 Plus 做一下对比。如果小米后面真的会出 Coding Plan，我可能会因为这个模型去支持一下。

编辑于 2026-03-22 · 著作权归作者所有

普通人的一生该如何破局?我国以前禁用过手机WIFI，为什么后来又允许了？有哪些薅羊毛方法，每天收入10元就可以?win11反应巨慢，对比win10感觉啥都慢半拍，有大佬知道咋解决吗？几乎全网视频都能下，颜值还高到离谱，这开源神器真的封神了。中年女人喜欢被撩吗？Everything史诗级更新，新功能绝了！如何正确使用知乎？安娜的档案为什么用不了了？2026年土耳其区Apple ID注册教程及避坑指南 21世纪看番指北 - 计算机大学生的看番个人最佳实践你成长的私人暗器是什么？如何正确使用知乎？漫展摄影师真能被女coser主动搭讪吗，为了去漫展找对象购买一套照相机值得吗？如何评价极客湾的全年手机大横评视频被下架？为什么光驱的发展停止了?为什么人一旦开窍了就变的特别厉害？如何看待网曝百度网盘 Windows 版兼容模式疑似限制用户电脑 CPU 频率？这是真的吗？有没有用过跟everything一样好用的免费软件？播客 (Podcast) 为什么又红了？