如何评价小米mimo-V2.5 系列模型5月27日大降价？

5月27日小米MiMo降价99%，5月22日DeepSeek V4-Pro永久降价75%，一周之内两家把API价格打到地板。我看到很多文章都在算"比GPT-5.5便宜34倍"，但我觉得，真正值得聊的不是"便宜了多少"，而是这个便宜的价格，你到底能不能拿到。

0.025元的真相

DeepSeek V4-Pro现在的三档价格：缓存命中0.025元/百万tokens，缓存未命中3元，输出6元。小米MiMo-V2.5-Pro完全对齐了这个数字。

0.025元，这就是那个"比GPT便宜30多倍"的分子。但问题是——0.025元只对应一种情况：你发的内容，模型之前已经算过一遍了，存在缓存里，不用重新算。

而"缓存未命中"的输入价格是多少？3元。是缓存命中的120倍。

这个差距不是DeepSeek独有的。Anthropic的Claude、OpenAI的GPT，所有主流模型都在用类似的阶梯定价。但我觉得很多讨论把这个细节一笔带过了，仿佛0.025元就是实际使用价格，这不太对。

什么叫"缓存命中"？

简单说，大模型每次回答你，都要先把你说的话从头到尾"读"一遍。如果你每句话开头都有5000个token的系统提示词（工具说明、角色设定之类的），这5000个token每次都要重新算——除非模型把它缓存了。

缓存命中，就是"这段话我之前处理过，直接从缓存拿就行"。因为几乎不需要算力，所以价格极低。缓存未命中，就是"这段没见过，得重新算"，正常计价。

所以，0.025元的便宜你能不能拿到，取决于一个关键问题：你的任务里，有多少token是重复的？

什么场景能拿到便宜价？

能拿到0.025元的场景，说白了就是"反复问同样的事，换不同的尾巴"。典型例子：

代码助手：系统提示词+代码仓库背景每次都一样，只改最后的问题 → 缓存命中率很高

企业知识库问答：文档塞进去之后反复追问 → 命中率高

客服机器人：固定的产品说明+对话历史 → 命中率高

拿不到便宜价的场景：

一次性分析：每次发全新文档，让模型读完总结 → 命中率很低

创意写作：每次都是全新的prompt → 命中率很低

多样化查询：每次问题完全不同 → 命中率很低

小米官方公告里的Token Plan可用量估算，就是按"95%以上缓存命中率"来算的——39元Lite档在95%命中率下能跑5亿Token以上（据智东西/36氪对小米公告的解读）。95%的缓存命中率意味着什么？意味着你每次发100个token，只有5个是新的。客服机器人大概能做到，但大多数应用场景做不到。

所以这不是"降价99%"

我算一笔账。假设你每次输入100万token，其中50万命中缓存，50万没命中，输出10万token：

DeepSeek V4-Pro：50万×0.025 + 50万×3 + 10万×6 = 0.0125 + 1.5 + 0.6 = 2.11元

如果全是缓存命中：100万×0.025 + 10万×6 = 0.025 + 0.6 = 0.625元

2.11和0.625，差了3倍多。这还是在50%缓存命中率的情况。如果命中率只有20%呢？

80万×3 + 20万×0.025 + 10万×6 = 2.4 + 0.005 + 0.6 = 3.005元

3块钱对0.625块，差5倍。你看，同一个模型、同样的标价，不同的使用方式，实际成本能差好几倍。

所以"降价99%"这句话本身没错，但它只描述了价格表上最小那个数字的变化，不代表你每次调用都能享受到。

但这不意味着降价没意义——恰恰相反

我觉得真正有意思的，不是"便宜了多少钱"，而是这个定价结构本身在塑造使用行为。

当缓存命中价格极低的时候，用户天然会被引导去做那些缓存命中率高的任务——搭Agent、建知识库、做代码助手。而每次都是全新输入的场景，成本不会比之前低太多。

说白了就是——越用越便宜，越便宜越多人用。0.025元这个价格在挑用户：欢迎来做重复任务，别来做一次性活儿。做重复任务的人来了，缓存命中率撑高，服务端成本进一步下降，低价就能继续撑住。DeepSeek和小米都明确说了，降价的基础是推理效率优化带来的成本下降（据DeepSeek V4技术报告，V4-Pro在百万Token上下文场景下，相较于前代V3.2，单token推理FLOPs降至27%，KV缓存占用降至10%；小米公告称SGLang HiCache将数据搬运量降至1/7，缓存token数量提升5倍）。

行业在分化，不只是"涨vs降"

最近行业走势挺有意思的，不是所有模型都在降价。

据杭州网报道，智谱今年已经三次上调API价格，4月发布GLM-5.1时再涨10%。阿里云5月15日起上调百炼平台模型服务价格，腾讯云也在同月宣布AI算力相关产品涨价5%。36氪也有报道说字节豆包开始试水付费订阅。

一边是DeepSeek和小米往地板上打，一边是其他厂商在涨价或者开始收费。我觉得这不是简单的"谁对谁错"，而是两条路线的分化：

降价派（DeepSeek、小米）：推理效率够高，降价还能赚钱，目标是做基础设施

涨价派（智谱、阿里云等）：算力成本在涨，或者定位高端场景，选择维持或提高价格

但我觉得这里有个值得想的问题：如果DeepSeek和小米的0.025元缓存命中价已经被市场接受了，那其他厂商就需要回答一个问题——你贵出来的部分，是更强的能力、更稳的服务、更好的合规，还是仅仅是过去的定价惯性？观察者网的分析里也提到了这个点。

当然，这也不是说低价就一定赢。上观新闻的报道说得比较客观：如果业务场景高度动态、上下文频繁变化，或者服务在高峰期无法稳定承载，价格表上的低价未必能完全转化为生产环境里的低成本。

我的判断

我觉得现在下"AI暴利时代结束"这种结论还太早。

更准确的说法可能是：AI API的定价逻辑，正在从"按能力定价"转向"按成本定价" 。过去是你模型多强就收多少钱，现在是你推理一次到底花多少成本，决定了你能把价格压到多低。

这对开发者来说是好事，但不是"随便用"的好事。你需要想清楚自己的使用模式：你的任务缓存命中率有多高？你是那种0.025元的受益者，还是3元的承受者？这决定了你该选什么模型、怎么设计你的系统提示词、怎么管理上下文。

最后一点：据赛迪网报道，DeepSeek此前公开过V3/R1推理系统的理论成本利润率高达545%——但注意，这是按H800租赁成本2美元/小时计算的理论值（日成本8.7万美元 vs 日收入56.2万美元），不是实际运营利润率，实际运营还有带宽、运维、研发摊销等成本。不过它至少说明，API定价和推理成本之间确实有相当大的空间。同时，据彭博社5月22日报道，DeepSeek正在推进一轮约700亿元人民币的融资，投前估值约450亿美元，国家大基金拟出资约100亿元，腾讯、IDG资本等也在谈判参与中。我觉得这两个信息放在一起看，比单独看任何一个都更有意思。赚钱和融资不矛盾，但这也说明，0.025元的定价，至少目前还不是所有厂商都能承受的——你得先有那个技术底子和资本结构。

编辑于 2026-05-28 · 著作权归作者所有

我国以前禁用过手机WIFI，为什么后来又允许了？如何看待内存条价格崩了？为什么现在的年轻人不喜欢使用电脑了？为什么我的鼠标最多用半年按键就会失灵？为什么有些人不敢使用微信？2026年最新！下载安装Google Play商店保姆级教程（无需Root，全机型可用）2026年土耳其区Apple ID注册教程及避坑指南中年女人喜欢被撩吗？有没有用过跟everything一样好用的免费软件？告别手动打杂，我用绿联DH4300 Plus造了一个会自己干活的龙虾安娜的档案为什么用不了了？亲测有效：笔记本电脑关闭这 7 个后台服务，续航更久、风扇更安静 5个极品网站，都很刺激你被哪个后来知道很sb的BUG困扰过一周以上吗？父亲月收入5000，买台万元电脑，过分吗？为什么光驱的发展停止了?为什么知乎上很多人说 macOS 很好用，而实际其市场占有率只有大约17.7%？如何正确使用知乎？win11反应巨慢，对比win10感觉啥都慢半拍，有大佬知道咋解决吗？如何正确使用知乎？