如何评价小米 3 月 19 日发布的 Xiaomi MiMo-V2-Pro / Omni/TTS?

这两天把 OpenClaw 接上之后,我断断续续用了整整一天多,先随便聊聊感受。

Pro 和 Omni 这两个模型的推理速度都挺快,但思维链的长度看起来都不算很够。拿来驱动一些不太依赖智力密度的任务,我觉得问题不大。这可能也和小米团队针对自身业务场景做了定向设计有关。

先说 Pro。老实说,这个模型给我的整体印象比较一般。虽然上下文窗口看起来很长,但真正有效可用的长度其实没有那么高。OpenClaw 的系统提示词本身就很长,等这些内容加载完之后,有些约定还没正式开始聊就已经记不太住了。它的好处当然也有,就是可以减少压缩,所以在长上下文任务上的表现会比 Omni 好一些,但这个优势也比较有限。不知道是不是滑窗注意力层的比例变多了,我总觉得这种设计多少影响了整个模型的效果。

而且 Pro 在一些简单逻辑测试上的表现也不太理想。像洗车问题答不对,时钟镜像问题也答不对。不过这里我也不敢完全下定论,因为不确定是不是版本之间存在差异。官方在线平台上的版本,体感上似乎比我接进 OpenClaw 里的要聪明不少。也有可能是 OpenClaw 的提示词太长,占用了太多上下文,导致性能出现衰减。

相比之下,Omni 的表现我觉得就非常可圈可点。

如果整体上下文长度不是特别长,我甚至觉得它的实际表现比 Pro 版还要更好一些。系统提示词里的一些特殊约定,它基本都还能记得住,不会随着对话推进就慢慢遗忘。

逻辑测试方面,它也明显比 Pro 更好一点。当然,遇到特别难的题,它还是做不出来。不过考虑到它的尺寸,我觉得这个问题是可以接受的。

编程能力方面,我的评价是中规中矩,没有什么特别让我惊喜的地方。但有一次我让它帮我找一份代码里的 bug,它居然找出了一个语法上完全没问题、但业务逻辑上有错误的 bug。这份代码我之前让国内外不少模型都帮忙检查过,最后只有 Claude 和 GPT 发现了这个问题,所以这一点还是挺让我意外的。

多模态能力这边,我目前只测试了图像内容识别。我发了一张之前 Cursor 做过的榜单对比图,让它来分析,整体结果算是比较理想。图像内容的识别和标注都还不错,不过有些文字还是会识别错。

总的来说,我觉得 Pro 这个模型的后训练可能还不够到位。滑动窗口注意力层的比例比较高,这一点本身是不是也存在问题,我现在还不太确定。但从结果看,确实会让人觉得它有点过于强调计算速度和成本了。相比之下,Omni 的完成度就明显高很多,我觉得是个挺靠谱的模型。后面有空的话,我想再拿它和千问 3.5 Plus 做一下对比。如果小米后面真的会出 Coding Plan,我可能会因为这个模型去支持一下。

编辑于 2026-03-22 · 著作权归作者所有