如何评价小米6月9日发布的MiMo-V2.5-Pro-UltraSpeed模式？

听说小米内部维护了 Github 上开源贡献者的信息，所以在申请表上附上自己 Github 的链接，就能很快通过机审。

如果没有开源贡献，附上一些 AI 使用心得，也有很大概率过审，只是时间会稍长一些。

我在提交之后，很快收到了过审邮件。

官方送了一个月 Pro 会员，相当于7亿 Token。

正好，MiMo 最近新发布了 MiMo-V2.5-Pro 模型，本文正好使用其赠送的额度来测试一下这款模型性能。

MiMo-V2.5-Pro 模型背景

MiMo-V2.5-Pro 是一个 1.02T 总参数量，激活参数量为 42B 的 MoE 模型。

在正式使用前，推荐看一下 MiMo 系列模型负责人罗福莉最近的采访节目[2]。

三个半小时听下来，有不少有价值的信息，她还是说了不少实话，比如：

MiMo-V2.5-Pro 是奔着 Agent 的应用场景去做的，该场景必须要求模型有长上下文，所以这款模型的上下文窗口有 1M
在做这款模型之前，他们一直在使用 Claude Opus 4.6 驱动 ClaudeCode 和 OpenClaw，并且用它写了很多 infra 代码，所以他们也算是间接“蒸馏”了顶级模型的知识
MiMo-V2.5-Pro 是和 MiMo-V2-Flash 同期开始训练的，用的数据是一样的，只是 MiMo-V2.5-Pro 参数量较大，训练过程中出现了很多训练不稳定的问题，所以才更晚发布
好的 Harness 能够放大顶尖模型的优势，弥补中等模型的短板，所以用 ClaudeCode 来驱动 MiMo-V2.5-Pro，可以取得更好的效果

听完之后，对于大模型训练以及 MiMo 模型的优化方向都有了更深的理解。

既然模型的设计者都主要使用 ClaudeCode，那 ClaudeCode 想必是最适配这个模型的 Harness。

下面是在 ClaudeCode 中配置 MiMo-V2.5-Pro 的方法。

只需要在 CC-Switch 中填写 URL 和 Key 就行了。

用它送的 Plan 渠道，这里的 URL 会和默认的有所不同，具体需要填写 MiMo 后台里这两个信息。

四个模型均设置为 mimo-v2.5-pro

然后就可以正常使用了。

说了一句你好，在控制后台一看，烧掉 5w token，ClaudeCode那些预设的隐含上下文还是挺多的。

这也同样印证了做长上下文模型的必要性，如果模型的上下文长度和以前一样是 128K，那么刚开局就要消耗一半，两轮之后直接废了。

说几句泼冷水的话：

1. 申请制限时开放，只到6月23日，名额有限，优先企业用户。普通人想体验得排队。
2. 不支持Token Plan，只能按API调用。基础版输出6元/百万Token，UltraSpeed是18元/百万Token，3倍价格。官方说法是"3倍价格提升，10倍输出体验"——数学上确实划算，但绝对值不低。
3. FP4量化有代价。官方说"基本持平"，但极端场景下的精度损失谁也不敢打包票。你得拿自己的业务数据测。
4. 通用能力不是很强。用过Mimo 2.5 Pro的人，有人说便宜好用，也有人说太傻经常出问题。能不能实际用到自己的生产线上只能亲自试过才知道。

小米这次做的事情，本质上是在软件层面把通用硬件的性能榨到了极限。没有去造专用芯片，而是在量化、解码、执行引擎三个维度做协同优化。

这种"模型-系统协同"的思路，对行业的示范意义可能比benchmark数字更大。它告诉所有做AI的团队：别只盯着模型架构创新，推理系统优化同样有巨大的空间。

万亿参数模型在8张通用GPU上跑出1000 tokens/s——这件事本身就是一个信号：AI的基础设施正在从"少数人的特权"变成"多数人的工具"。

编辑于 2026-06-09 · 著作权归作者所有