如何评价小米mimo-V2.5 系列模型5月27日大降价?
5月27日小米MiMo降价99%,5月22日DeepSeek V4-Pro永久降价75%,一周之内两家把API价格打到地板。我看到很多文章都在算"比GPT-5.5便宜34倍",但我觉得,真正值得聊的不是"便宜了多少",而是这个便宜的价格,你到底能不能拿到。
0.025元的真相
DeepSeek V4-Pro现在的三档价格:缓存命中0.025元/百万tokens,缓存未命中3元,输出6元。小米MiMo-V2.5-Pro完全对齐了这个数字。
0.025元,这就是那个"比GPT便宜30多倍"的分子。但问题是——0.025元只对应一种情况:你发的内容,模型之前已经算过一遍了,存在缓存里,不用重新算。
而"缓存未命中"的输入价格是多少?3元。是缓存命中的120倍。
这个差距不是DeepSeek独有的。Anthropic的Claude、OpenAI的GPT,所有主流模型都在用类似的阶梯定价。但我觉得很多讨论把这个细节一笔带过了,仿佛0.025元就是实际使用价格,这不太对。
什么叫"缓存命中"?
简单说,大模型每次回答你,都要先把你说的话从头到尾"读"一遍。如果你每句话开头都有5000个token的系统提示词(工具说明、角色设定之类的),这5000个token每次都要重新算——除非模型把它缓存了。
缓存命中,就是"这段话我之前处理过,直接从缓存拿就行"。因为几乎不需要算力,所以价格极低。缓存未命中,就是"这段没见过,得重新算",正常计价。
所以,0.025元的便宜你能不能拿到,取决于一个关键问题:你的任务里,有多少token是重复的?
什么场景能拿到便宜价?
能拿到0.025元的场景,说白了就是"反复问同样的事,换不同的尾巴"。典型例子:
代码助手:系统提示词+代码仓库背景每次都一样,只改最后的问题 → 缓存命中率很高
企业知识库问答:文档塞进去之后反复追问 → 命中率高
客服机器人:固定的产品说明+对话历史 → 命中率高
拿不到便宜价的场景:
一次性分析:每次发全新文档,让模型读完总结 → 命中率很低
创意写作:每次都是全新的prompt → 命中率很低
多样化查询:每次问题完全不同 → 命中率很低
小米官方公告里的Token Plan可用量估算,就是按"95%以上缓存命中率"来算的——39元Lite档在95%命中率下能跑5亿Token以上(据智东西/36氪对小米公告的解读)。95%的缓存命中率意味着什么?意味着你每次发100个token,只有5个是新的。客服机器人大概能做到,但大多数应用场景做不到。
所以这不是"降价99%"
我算一笔账。假设你每次输入100万token,其中50万命中缓存,50万没命中,输出10万token:
DeepSeek V4-Pro:50万×0.025 + 50万×3 + 10万×6 = 0.0125 + 1.5 + 0.6 = 2.11元
如果全是缓存命中:100万×0.025 + 10万×6 = 0.025 + 0.6 = 0.625元
2.11和0.625,差了3倍多。这还是在50%缓存命中率的情况。如果命中率只有20%呢?
80万×3 + 20万×0.025 + 10万×6 = 2.4 + 0.005 + 0.6 = 3.005元
3块钱对0.625块,差5倍。你看,同一个模型、同样的标价,不同的使用方式,实际成本能差好几倍。
所以"降价99%"这句话本身没错,但它只描述了价格表上最小那个数字的变化,不代表你每次调用都能享受到。
但这不意味着降价没意义——恰恰相反
我觉得真正有意思的,不是"便宜了多少钱",而是这个定价结构本身在塑造使用行为。
当缓存命中价格极低的时候,用户天然会被引导去做那些缓存命中率高的任务——搭Agent、建知识库、做代码助手。而每次都是全新输入的场景,成本不会比之前低太多。
说白了就是——越用越便宜,越便宜越多人用。0.025元这个价格在挑用户:欢迎来做重复任务,别来做一次性活儿。做重复任务的人来了,缓存命中率撑高,服务端成本进一步下降,低价就能继续撑住。DeepSeek和小米都明确说了,降价的基础是推理效率优化带来的成本下降(据DeepSeek V4技术报告,V4-Pro在百万Token上下文场景下,相较于前代V3.2,单token推理FLOPs降至27%,KV缓存占用降至10%;小米公告称SGLang HiCache将数据搬运量降至1/7,缓存token数量提升5倍)。
行业在分化,不只是"涨vs降"
最近行业走势挺有意思的,不是所有模型都在降价。
据杭州网报道,智谱今年已经三次上调API价格,4月发布GLM-5.1时再涨10%。阿里云5月15日起上调百炼平台模型服务价格,腾讯云也在同月宣布AI算力相关产品涨价5%。36氪也有报道说字节豆包开始试水付费订阅。
一边是DeepSeek和小米往地板上打,一边是其他厂商在涨价或者开始收费。我觉得这不是简单的"谁对谁错",而是两条路线的分化:
降价派(DeepSeek、小米):推理效率够高,降价还能赚钱,目标是做基础设施
涨价派(智谱、阿里云等):算力成本在涨,或者定位高端场景,选择维持或提高价格
但我觉得这里有个值得想的问题:如果DeepSeek和小米的0.025元缓存命中价已经被市场接受了,那其他厂商就需要回答一个问题——你贵出来的部分,是更强的能力、更稳的服务、更好的合规,还是仅仅是过去的定价惯性? 观察者网的分析里也提到了这个点。
当然,这也不是说低价就一定赢。上观新闻的报道说得比较客观:如果业务场景高度动态、上下文频繁变化,或者服务在高峰期无法稳定承载,价格表上的低价未必能完全转化为生产环境里的低成本。
我的判断
我觉得现在下"AI暴利时代结束"这种结论还太早。
更准确的说法可能是:AI API的定价逻辑,正在从"按能力定价"转向"按成本定价" 。过去是你模型多强就收多少钱,现在是你推理一次到底花多少成本,决定了你能把价格压到多低。
这对开发者来说是好事,但不是"随便用"的好事。你需要想清楚自己的使用模式:你的任务缓存命中率有多高?你是那种0.025元的受益者,还是3元的承受者?这决定了你该选什么模型、怎么设计你的系统提示词、怎么管理上下文。
最后一点:据赛迪网报道,DeepSeek此前公开过V3/R1推理系统的理论成本利润率高达545%——但注意,这是按H800租赁成本2美元/小时计算的理论值(日成本8.7万美元 vs 日收入56.2万美元),不是实际运营利润率,实际运营还有带宽、运维、研发摊销等成本。不过它至少说明,API定价和推理成本之间确实有相当大的空间。同时,据彭博社5月22日报道,DeepSeek正在推进一轮约700亿元人民币的融资,投前估值约450亿美元,国家大基金拟出资约100亿元,腾讯、IDG资本等也在谈判参与中。我觉得这两个信息放在一起看,比单独看任何一个都更有意思。赚钱和融资不矛盾,但这也说明,0.025元的定价,至少目前还不是所有厂商都能承受的——你得先有那个技术底子和资本结构。