梁文峰说英伟达的显卡在技术上毫无秘密可言，那为什么偏偏是黄仁勋取得了空前的成功？

2019年我在做一个深度学习项目（当然现在好多了），需要跑一个图像识别模型。当时手头有两张卡，一张N卡一张A卡。理论上A卡的算力参数还略微好看一点。

结果呢？

N卡那边：pip install torch，跑起来了，喝咖啡去。

A卡那边：装ROCm，编译PyTorch源码，发现某个算子没实现，自己写替代版本，跑起来速度慢得让人怀疑人生，最后放弃。

整整折腾了三天。

这件事让我深刻理解了一个道理：英伟达卖的从来不是显卡，而是”不折腾”这件事本身。

梁文峰说得对吗？对。GPU的物理原理、架构设计、制造工艺，这些东西确实没什么不可告人的秘密。论文都是公开的，专利到期了谁都能用。但，技术先进和商业成功是两码事。黄仁勋赢的根本不是技术竞争本身。

再来换一个维度掰扯掰扯：工程积淀。

所谓工程积淀，就是你在一条路上走了二十年，踩过几十万个坑，每个坑都不一样，每个坑都要单独填。填完之后，这条路变成了高速公路。

别人想走？可以。先把二十年的坑补齐。

CUDA就是这条路。

2006年，黄仁勋启动CUDA项目的时候，GPU还主要用来打游戏和渲染。当时没人觉得这玩意儿有商业前景，华尔街分析师觉得这是在烧钱。

他不管。他向全球超过100所顶尖高校捐赠GPU设备，免费培训开发者，建立开发者社区。十年时间，培养了超过400万CUDA开发者。

这些人用CUDA写了十年代码，他们的知识、经验、职业人脉全都绑在这个生态里了。当他们面对新的竞争产品时，即使性能更好，他们要付出的不仅是学习成本，而是放弃已有的职业积累。

这叫”职业沉没成本”，比任何硬件参数都坚固。

再说NVLink。

单卡再快有什么用？大模型训练需要上万张卡协同工作。如果卡和卡之间的通信速度跟不上，整个集群的效率就会崩掉。

NVLink解决的就是这个问题。它让几千上万张GPU能够高效协作，数据传输延迟极低。

AMD单卡追得很快，参数表上有时候还能打平。但集群能力差距巨大。这不是靠堆钱能解决的，这需要无数次实际部署中踩坑、优化、再踩坑、再优化。

有人可能会说：既然技术没秘密，为什么AMD、Intel追不上？

答案很简单：他们在错误的方向上努力了太久。

AMD有OpenCL，技术上并不差。但他们没有持续投入生态建设，开发者用起来痛苦，慢慢就流失了。

Intel坚信CPU中心论，觉得GPU只是辅助。等他们反应过来的时候，黄仁勋已经定义了下一个时代的游戏规则。

他们输的不是技术，是对时代方向的判断。

说回梁文峰。

有意思的是，他自己的成功路径其实验证了同样的逻辑。DeepSeek的技术也不是什么秘密，论文都能查到。但梁文峰早在2021年就开始囤积算力，储备了上万张卡。

当时很多人不理解：搞量化交易的，囤那么多卡干嘛？

现在大家都懂了。

他不是比别人聪明，是比别人早想清楚了”算力会成为瓶颈”这件事，然后持续投入。

所以回到这个问题：英伟达技术上毫无秘密，为什么黄仁勋取得了空前成功？

我的答案是：正因为技术没有秘密，所以谁能更早、更持续、更系统地积累”填坑的经验”，谁就能建立护城河。

这个护城河不是专利，不是技术壁垒，而是时间本身。

你可以花钱买人，买设备，买公司。但你买不到别人已经踩过的坑，买不到二十年的生态积累，买不到400万开发者的职业惯性。

时间不接受辩论，只接受发生过。

对于国产GPU厂商，我个人的看法是：不要幻想弯道超车。

该踩的坑一个都少不了。

唯一的问题是：你愿不愿意花十年时间老老实实走这条路？还是指望某个天才发明绕过去？

历史告诉我们，后者从来没成功过。

编辑于 2026-02-02 · 著作权归作者所有