梁文峰说英伟达的显卡在技术上毫无秘密可言,那为什么偏偏是黄仁勋取得了空前的成功?

2019年我在做一个深度学习项目(当然现在好多了),需要跑一个图像识别模型。当时手头有两张卡,一张N卡一张A卡。理论上A卡的算力参数还略微好看一点。

结果呢?

N卡那边:pip install torch,跑起来了,喝咖啡去。

A卡那边:装ROCm,编译PyTorch源码,发现某个算子没实现,自己写替代版本,跑起来速度慢得让人怀疑人生,最后放弃。

整整折腾了三天。

这件事让我深刻理解了一个道理:英伟达卖的从来不是显卡,而是”不折腾”这件事本身


梁文峰说得对吗?对。GPU的物理原理、架构设计、制造工艺,这些东西确实没什么不可告人的秘密。论文都是公开的,专利到期了谁都能用。但,技术先进和商业成功是两码事。黄仁勋赢的根本不是技术竞争本身。


再来换一个维度掰扯掰扯:工程积淀

所谓工程积淀,就是你在一条路上走了二十年,踩过几十万个坑,每个坑都不一样,每个坑都要单独填。填完之后,这条路变成了高速公路。

别人想走?可以。先把二十年的坑补齐。

CUDA就是这条路。

2006年,黄仁勋启动CUDA项目的时候,GPU还主要用来打游戏和渲染。当时没人觉得这玩意儿有商业前景,华尔街分析师觉得这是在烧钱。

他不管。他向全球超过100所顶尖高校捐赠GPU设备,免费培训开发者,建立开发者社区。十年时间,培养了超过400万CUDA开发者。

这些人用CUDA写了十年代码,他们的知识、经验、职业人脉全都绑在这个生态里了。当他们面对新的竞争产品时,即使性能更好,他们要付出的不仅是学习成本,而是放弃已有的职业积累。

这叫”职业沉没成本”,比任何硬件参数都坚固。


再说NVLink

单卡再快有什么用?大模型训练需要上万张卡协同工作。如果卡和卡之间的通信速度跟不上,整个集群的效率就会崩掉。

NVLink解决的就是这个问题。它让几千上万张GPU能够高效协作,数据传输延迟极低。

AMD单卡追得很快,参数表上有时候还能打平。但集群能力差距巨大。这不是靠堆钱能解决的,这需要无数次实际部署中踩坑、优化、再踩坑、再优化。


有人可能会说:既然技术没秘密,为什么AMD、Intel追不上?

答案很简单:他们在错误的方向上努力了太久

AMD有OpenCL,技术上并不差。但他们没有持续投入生态建设,开发者用起来痛苦,慢慢就流失了。

Intel坚信CPU中心论,觉得GPU只是辅助。等他们反应过来的时候,黄仁勋已经定义了下一个时代的游戏规则。

他们输的不是技术,是对时代方向的判断。


说回梁文峰。

有意思的是,他自己的成功路径其实验证了同样的逻辑。DeepSeek的技术也不是什么秘密,论文都能查到。但梁文峰早在2021年就开始囤积算力,储备了上万张卡。

当时很多人不理解:搞量化交易的,囤那么多卡干嘛?

现在大家都懂了。

他不是比别人聪明,是比别人早想清楚了”算力会成为瓶颈”这件事,然后持续投入。


所以回到这个问题:英伟达技术上毫无秘密,为什么黄仁勋取得了空前成功?

我的答案是:正因为技术没有秘密,所以谁能更早、更持续、更系统地积累”填坑的经验”,谁就能建立护城河

这个护城河不是专利,不是技术壁垒,而是时间本身

你可以花钱买人,买设备,买公司。但你买不到别人已经踩过的坑,买不到二十年的生态积累,买不到400万开发者的职业惯性。

时间不接受辩论,只接受发生过。


对于国产GPU厂商,我个人的看法是:不要幻想弯道超车。

该踩的坑一个都少不了。

唯一的问题是:你愿不愿意花十年时间老老实实走这条路?还是指望某个天才发明绕过去?

历史告诉我们,后者从来没成功过。

编辑于 2026-02-02 · 著作权归作者所有