如何评价小米mimo-V2.5 系列模型5月27日大降价?

根据罗福莉自己讲的:

MiMo API 降价背后的逻辑: 此次降幅最大——高达 99%——的部分是“输入(缓存命中)”环节。其核心原因在于,我们的推理框架现已支持针对 SWA 架构的层级式 KV 缓存优化。生产级推理引擎的测试结果显示,这项优化将缓存 Token 的容量提升了 5 倍,相当于将缓存成本降低了 80%。若结合Hybrid model中多个Full Attention模块之间的“Cache Read Overlap”机制,实际成本还能进一步降低。

备注:在过去,当“SWA 架构”遇到“层级式缓存”时,主流推理引擎往往显得比较机械:即使某些 SWA 层在数学计算上只需要滑动窗口内那一小段数据,系统在 GPU、CPU 和 SSD 之间调度数据时,依然会傻傻地把包含全上下文的超大记忆包在多级存储间同步搬运。这就导致了极大的带宽资源浪费。而“SWA 架构的层级式 KV 缓存优化”,本质上是让多级存储管理系统能够精准识别 SWA 层的动态边界。系统在搬运数据时,只对“窗口尺寸内”的 KV 缓存进行换入和换出,将窗口之外的无效数据彻底阻断在搬运链路之外。

针对“输入(缓存未命中)”和“输出”环节,价格也下调了 60% 至 80%。这主要得益于该模型架构所带来的极致的 1:7“全注意力/SWA”稀疏度比例(具体而言,70 层的 MiMo-V2.5-Pro 模型在预填充阶段的计算量,大致仅相当于一个 10 层的 GQA 模型)。这一特性使得我们原有的推理成本远低于行业平均水平,自然在定价上预留了 2 到 3 倍的利润空间。此次价格调整,仅仅是我们决定将这些结构性的成本效率优势直接回馈给开发者的体现。 即便在执行这些大幅下调后的 API 新定价时,我们的生产级推理引擎依然在接近满负荷的状态下运行,且我们仍能基本实现收支平衡。
我们此前曾建议大型语言模型(LLM)企业不要“盲目降价”,正是因为极少有模型架构或推理优化技术能够确保 API 服务在低价运营时仍不至于亏损。如果未来能涌现出更多有助于节省计算资源和 KV 缓存开销的模型架构,并辅以更优越的推理基础设施来进一步压低 API 成本,必将在行业内形成一个良性的正向循环。 更关键的是,那些价格亲民且性能卓越的模型 API,将有力地激发真实、持续且规模化的推理需求。

后续,小米的大模型团队会发表一篇博客来介绍如何做到这些性能提升的。

编辑于 2026-05-27 · 著作权归作者所有