为啥Gemini背靠 Google,不缺人甚至不缺显卡,怎么模型越来越烂不好用了?

LLM和之前的移动互联网最大的区别是什么?

从经济角度看,我觉得是边际成本。

移动互联网随着用户规模增加,服务用户的边际成本其实是递减的(CAPEX投入相对固定,扩容压力不大);但是LLM不是,每一个请求都要用算力计算,每个Token需要的成本在一定程度上来说是固定的(满并发的情况下)。

这就导致传统移动互联网时代最经典的方法论——即通过用户扩张取得垄断地位,再利用网络效应或广告等变现手段,实现商业化与高额利润——不再成立。

现在看到的越来越明显的趋势是利用大模型能力交付高价值任务。模型定价不仅仅根据计算成本,也根据交付的任务价值。只有能够实现高任务交付的模型,才有机会在定价上取得更高的溢价。而如果只是聚焦于 C 端的使用,无论是通过广告还是订阅的方式实现变现,相比起高额的推理成本,收益率可能都没有那么可观。

反映在当前美国模型市场的竞争格局上,就是专注于 coding 能力和 B 端生产力交付的 Anthropic,相比于在 C 端更强势的 OpenAI 与谷歌,在收入增速、模型能力迭代乃至估值水平上,都实现了明显的反超。

对于谷歌来说,TPU 固然可以让公司在训练和推理成本上,相比使用英伟达的竞争对手有更大的优势。但是,庞大的 C 端消耗还是会占用很多公司的资源。

这种占用反映在两方面:

1. 公司为了控制成本,不得不使用量化或蒸馏的模型,导致用户体验不佳。

2. 在总算力供给相对线性增长的情况下,必须在训练用卡和推理用卡之间做好平衡。

尽管谷歌云内部的口径是优先满足训练使用,但在总量不变的情况下,终究还是会在用户体验和模型迭代上给谷歌带来一定的影响。

所以回到问题,谷歌模型越来越烂、不好用,不仅仅是训练的问题,也可能出现在推理上。为了控制成本而采用的量化、蒸馏等手段,可能会影响模型表现。另一方面,所谓的不缺显卡,以当前的市场需求来看,可能也并非一个真命题。

编辑于 2026-05-23 · 著作权归作者所有