如何评价小米mimo-V2.5 系列模型5月27日大降价？

根据罗福莉自己讲的：

MiMo API 降价背后的逻辑：此次降幅最大——高达 99%——的部分是“输入（缓存命中）”环节。其核心原因在于，我们的推理框架现已支持针对 SWA 架构的层级式 KV 缓存优化。生产级推理引擎的测试结果显示，这项优化将缓存 Token 的容量提升了 5 倍，相当于将缓存成本降低了 80%。若结合Hybrid model中多个Full Attention模块之间的“Cache Read Overlap”机制，实际成本还能进一步降低。

备注：在过去，当“SWA 架构”遇到“层级式缓存”时，主流推理引擎往往显得比较机械：即使某些 SWA 层在数学计算上只需要滑动窗口内那一小段数据，系统在 GPU、CPU 和 SSD 之间调度数据时，依然会傻傻地把包含全上下文的超大记忆包在多级存储间同步搬运。这就导致了极大的带宽资源浪费。而“SWA 架构的层级式 KV 缓存优化”，本质上是让多级存储管理系统能够精准识别 SWA 层的动态边界。系统在搬运数据时，只对“窗口尺寸内”的 KV 缓存进行换入和换出，将窗口之外的无效数据彻底阻断在搬运链路之外。

针对“输入（缓存未命中）”和“输出”环节，价格也下调了 60% 至 80%。这主要得益于该模型架构所带来的极致的 1:7“全注意力/SWA”稀疏度比例（具体而言，70 层的 MiMo-V2.5-Pro 模型在预填充阶段的计算量，大致仅相当于一个 10 层的 GQA 模型）。这一特性使得我们原有的推理成本远低于行业平均水平，自然在定价上预留了 2 到 3 倍的利润空间。此次价格调整，仅仅是我们决定将这些结构性的成本效率优势直接回馈给开发者的体现。即便在执行这些大幅下调后的 API 新定价时，我们的生产级推理引擎依然在接近满负荷的状态下运行，且我们仍能基本实现收支平衡。
我们此前曾建议大型语言模型（LLM）企业不要“盲目降价”，正是因为极少有模型架构或推理优化技术能够确保 API 服务在低价运营时仍不至于亏损。如果未来能涌现出更多有助于节省计算资源和 KV 缓存开销的模型架构，并辅以更优越的推理基础设施来进一步压低 API 成本，必将在行业内形成一个良性的正向循环。更关键的是，那些价格亲民且性能卓越的模型 API，将有力地激发真实、持续且规模化的推理需求。

后续，小米的大模型团队会发表一篇博客来介绍如何做到这些性能提升的。

编辑于 2026-05-27 · 著作权归作者所有

学习时，看PDF的效率是否不如看纸质书？如何克服？作为个人能合法飞行无人机吗？如何查找弹窗广告的源头？我国以前禁用过手机WIFI，为什么后来又允许了？如何看待内存条价格崩了？为什么光驱的发展停止了?如何正确使用知乎？亲测有效：笔记本电脑关闭这 7 个后台服务，续航更久、风扇更安静告别存储焦虑，我用10万张照片认真保存人生如何正确使用知乎？中年女人喜欢被撩吗？如何在知乎使用动态头像为什么现在的年轻人不喜欢使用电脑了？Everything史诗级更新，新功能绝了！为什么古代的一些失传技术，如今无法复原？如何正确使用知乎？为何windows自带的文件搜索这么慢，而Everything的这么快？如何看待00后多数人对电脑基础知识的缺失？为什么电脑用久了会变得越来越卡顿，其背后的计算机原理是什么？为什么知乎上很多人说 macOS 很好用，而实际其市场占有率只有大约17.7%？