为啥Gemini背靠 Google，不缺人甚至不缺显卡，怎么模型越来越烂不好用了？

LLM和之前的移动互联网最大的区别是什么？

从经济角度看，我觉得是边际成本。

移动互联网随着用户规模增加，服务用户的边际成本其实是递减的（CAPEX投入相对固定，扩容压力不大）；但是LLM不是，每一个请求都要用算力计算，每个Token需要的成本在一定程度上来说是固定的（满并发的情况下）。

这就导致传统移动互联网时代最经典的方法论——即通过用户扩张取得垄断地位，再利用网络效应或广告等变现手段，实现商业化与高额利润——不再成立。

现在看到的越来越明显的趋势是利用大模型能力交付高价值任务。模型定价不仅仅根据计算成本，也根据交付的任务价值。只有能够实现高任务交付的模型，才有机会在定价上取得更高的溢价。而如果只是聚焦于 C 端的使用，无论是通过广告还是订阅的方式实现变现，相比起高额的推理成本，收益率可能都没有那么可观。

反映在当前美国模型市场的竞争格局上，就是专注于 coding 能力和 B 端生产力交付的 Anthropic，相比于在 C 端更强势的 OpenAI 与谷歌，在收入增速、模型能力迭代乃至估值水平上，都实现了明显的反超。

对于谷歌来说，TPU 固然可以让公司在训练和推理成本上，相比使用英伟达的竞争对手有更大的优势。但是，庞大的 C 端消耗还是会占用很多公司的资源。

这种占用反映在两方面：

1. 公司为了控制成本，不得不使用量化或蒸馏的模型，导致用户体验不佳。

2. 在总算力供给相对线性增长的情况下，必须在训练用卡和推理用卡之间做好平衡。

尽管谷歌云内部的口径是优先满足训练使用，但在总量不变的情况下，终究还是会在用户体验和模型迭代上给谷歌带来一定的影响。

所以回到问题，谷歌模型越来越烂、不好用，不仅仅是训练的问题，也可能出现在推理上。为了控制成本而采用的量化、蒸馏等手段，可能会影响模型表现。另一方面，所谓的不缺显卡，以当前的市场需求来看，可能也并非一个真命题。

编辑于 2026-05-23 · 著作权归作者所有