如何评价小米 3 月 19 日发布的 Xiaomi MiMo-V2-Pro / Omni/TTS?

我称之为一场“悄无声息的伏击”——并非因为这是我们刻意策划的,而是因为从“对话”(Chat)范式向“智能体”(Agent)范式演进的转变发生得太过迅猛,甚至连我们自己都有些难以置信。在这转变的过程中,我们经历了一段既惊心动魄、又充满艰辛,同时还令人着迷的历程。

早在数月前,这个拥有万亿参数的基础模型便已启动训练。最初的目标是提升长文本语境下的推理效率。“混合注意力机制”(Hybrid Attention)蕴含着真正的创新,且并未流于浮夸——事实证明,这正是构建智能体时代所需的核心基石。百万级的上下文窗口,以及旨在实现超低延迟与极低成本的 MTP 推理技术。这些架构层面的决策在当时看来或许并不追逐潮流,但它们构成了我们在实际需求浮现之前便已未雨绸缪、提前构建好的结构性优势。

真正彻底改变一切的,是我们首次亲身体验到了一种复杂的“智能体支架”(Agentic Sc​​affold)——我将其称之为“编排式语境”(Orchestrated Context)。初次体验的那一天,我彻底被震撼了。我试图说服团队采纳这一机制,但起初并未奏效。于是,我下达了一道强硬的指令:

MiMo 团队的每一位成员,如果明天结束前未能完成至少 100 轮与该系统的对话交互,即可自行离职。

这一招奏效了。一旦团队的想象力被智能体系统所展现出的强大能力彻底点燃,这种想象力便会直接转化为推动研发进程的澎湃动力。

常有人问起:为何你们的步伐如此迅捷?在亲历了 DeepSeek R1 模型的构建全过程后,我对此有了切身的体会。若要我坦诚地总结,原因大致如下:

  • 基础架构(Backbone & Infra)层面的研发往往周期漫长。你需要具备极强的战略定力与信念,并坚持整整一年之久,方能迎来回报。
  • 后训练(Post-train)阶段的敏捷性,则是一项截然不同的能力:它要求我们凭借敏锐的产品直觉来驱动评估与验证,大幅压缩迭代周期,并能先人一步捕捉到范式层面的重大转变。
  • 始终如一的特质:强烈的好奇心、敏锐的技术直觉、果断的执行力、全身心的投入——以及一种极易被人们低估的情怀:对你所亲手构建的这个世界,怀抱着一份发自内心的挚爱。

关于开源计划——待到我们的模型在稳定性与成熟度上达到足以配享开源殊荣的水平时,我们定将向社区开放。

没有想到,3年前Gemfield关于小米大模型的愿景,这一刻竟然和Luo Fuli碰撞了:

她不但正在实现我的愿景,今天还帮我赚钱,非常欣赏!

业务线就不聊了,划重点,自行体会:

编辑于 2026-03-19 · 著作权归作者所有