AMD 和 NVIDIA 显卡现在差距还有多大,各自优势在哪里?
RDNA4是英伟达迈入AI超分辨率和光线追踪时代之后A卡N卡差距最小的一代。虽然依然没追上,但是确实在逐渐缩小。不过比较搞笑是,市场份额表现却是反过来的:

Turing对比RDNA1:
Turing支持完整的DX12 Ultimate特性,包括DXR光线追踪,RDNA1甚至连mesh shader都不支持,更别说光线追踪了。
DLSS从1.x的单帧AI夏姬八猜超分进化到2.x的复用历史帧和运动矢量信息的时域超分,从难堪大用变成高度可用,也是在Turing生命周期内出现的。而彼时的AMD甚至连FSR1这个非常简单的空间超分都还没推出。
Ampere对比RDNA2:
Ampere对比上一代的特性改进在我看来其实并不算大,RDNA2终于草草上马了光线追踪特性,补全了DX12U特性的最后几块特性,至少在这一代,A卡N卡暴露出的GPU特性已经基本趋于一致。然而这一代AMD虽然补全了光线追踪的支持,但是其计算效率极为低下,AMD舍不得塞入BVH遍历硬件加速单元,这部分工作依然交由shader去算。结果就是,虽然RDNA2支持光线追踪,但是如追,在非光线追踪游戏里能和3090一战的6900XT,一旦开启光线追踪,情况就变成了这个样子:

不过有一个好消息是,彼时的AMD在GPU上尝试了使用巨大的LLC来尽可能缓解显存带宽压力(的同时缩水位宽),虽然说在高分辨率场景下由于缓存命中下降造成性能折损大于隔壁N卡,但是A卡顺便砍一刀显存位宽这件事对位隔壁英伟达为了吹3090的“8K Gaming”大砍3080及以下型号显存容量反而造成了中高端产品的显存容量优势,彼时的3090零售价对比3080近乎翻倍,后者性能只比前者少了约10%的情况下显存容量却从24GB大幅缩水至10GB,而6800 6800XT 6900XT都有16GB显存。首发时主流的3070只给到8GB显存(数年前的GTX1070就已经是8GB显存了),6700XT在性能略弱的情况下显存给到了12GB。3060或许是老黄觉得再继续缩水到6GB也太恶心人了,桌面端索性用上了16Gb颗粒加到了12GB显存,只留隔壁只施舍了6GB显存的3060 laptop用户空骂街。
Ada Lovelace对比RDNA3:
Ada和Ampere大部分对外特性看似是近似的,甚至有一种“Ada就是大号Ampere”的说法。没错,如果你单看白皮书里的AD102示意图或者dieshot,你可能会发现Ada对比Ampere似乎就是L2缓存对比以前变得更加巨大了,SM结构看起来没啥区别:

不过如果仔细看架构白皮书,Ada的很多改进其实是在进一步强化光线追踪的能力,透明度引擎和微网格引擎可以加速部分场景下的计算效率,SER更是大幅降低了计算光线追踪时非常容易遇到的线程束发散对GPU效率带来的严重劣化。与此同时巨大的L2像AMD的infinity cache那样进一步缓解了访存压力,使得GPU规模可以进一步提升。
与此同时,隔壁的RDNA3对比RDNA2改进反而相对更有限,并且有部分特性始终无法落地。dual issue双发射带来的FP32理论吞吐量翻倍几乎无法反映在实际游戏上,于此相对的,Ampere和Ada引入的每SM内FP:INT=2:1的设计思路却能让增加的FP算力确实部分体现在了游戏性能上,且无需游戏过多对其进行适配。

AI Accelerator带来的WMMA加速并没有TensorCore那么底层化,并且长期缺乏杀手级应用比如AI超分辨率技术的落地,导致一直被人戏称为“RDNA3的大号电阻丝”。光线追踪单元如升,对比6900XT来说确实光线追踪游戏的帧数提升略大于非光线追踪游戏的提升,但是依然巨幅落后于N卡,非光追游戏里综合领先4080甚至偶尔可以与4090一战的7900XTX,在光线追踪游戏里沦落到还在试图肘击3090:

再回到超分辨率这一方面,2021年AMD推出FSR1匆匆应对DLSS,以开源、开放、不挑硬件的名义大肆宣传,但是实际上FSR1的效果谁用谁知道。2022年AMD终于落地时间性的FSR2,到了能用的阶段,但是相比于DLSS2依然差了太多。虽然说DLSS表面上讲是需要Tensor Core这种专有硬件的支持,但是从算力视角来看,正是Tensor Core提供了远强于CUDA本身的算力才能让DLSS落地。而彼时的AMD GPU长期缺少对应的加速单元,自然无法及时落地类似的技术,只能更多的占用shader算力进行FSR2超分辨率流程的计算。而之前Ada架构更新里可能会被很多人忽略的一件事就是新增了FP8加速,又为后面对比DLSS CNN模型更加强大的Transformer模型的落地埋下了伏笔。
更加让A卡(和20系30系N卡)难受的是,英伟达提出的路径追踪在这期间落地,让AMD本就孱弱的光线追踪性能继续雪上加霜:

Blackwell对比RDNA4:
如果说长期以来,AI超分辨率技术的缺失和光线追踪性能的孱弱一直是缭绕在A卡(和A饭)身边挥散不去的阴影,只能依靠“超分辨率技术终究不代表实力”和“买A卡不需要关心光线追踪”等话术安慰自己,那么孩子们,RDNA4终于来了,并且终于在A卡最大的两块软肋上进行了大幅加强。
缺少AI超分辨率技术?这次有了。随着RDNA4一同推出的FSR4终于引入了机器学习超采样,利用RDNA4新增的FP8加速支持落地全新的AI超分辨率技术,拳打FSR3脚踢XeSS,甚至在部分场景下超越CNN模型的DLSS,直接叫板英伟达彼时最新的Transformer模型。


光线追踪性能太烂?这次也大幅加强了。有向包围盒、乱序内存、更强的BVH8全给你安排上



经过这次的多种加强,我农在光线追踪游戏里终于成功吸到了N卡的尾气,9070XT在光栅性能弱于7900XTX的情况下,光追游戏反超XTX,摸到了5070Ti的屁股:

尽管在路径追踪游戏里依然明显落后于同级别N卡,但是对比7900XTX 25%上下的提升已经可以说不可谓不低

再回过头来看老黄的Blackwell,Blackwell对比Ada又是一次巨大的改进,SM结构完全重新设计,TensorCore进一步融合,第四代RT core引入了三角形簇求交引擎,SER2.0等。但是或许是因为大伙已经经历过3090到4090的巨大性能飞跃,4090到5090的提升反而平平无奇。新增的FP4加速还未落地到DLSS场景,neural shader和DLSS5属于过于前瞻的思想。横向对比blackwell和RDNA4,这一代同级别A卡真的已经补全了大部分短板,算是少有的值得买的一代。
那么回到我们最开始,为什么随着A卡技术上差距越来越小,A卡反倒落了个份额逐年缩减的落魄结局呢?

因为A卡对比N卡落后的远不止硬件设计能力那么简单。
在5060依旧只舍得施舍8GB显存的时候,AMD同样推出8GB的9060XT应对,甚至高管直接扬言8GB显存应付1080P游戏完全足够,直接硬接自己五年前嘲讽N卡显存扣扣搜搜的回旋镖。
标榜自己开源、开放的FSR超分辨率技术,却长期不重视在游戏厂商中的推广。弱如intel都知道对游戏厂商进行一个大撒币行为尽可能推广自己的XeSS,而AMD对比NV在这件事上似乎一直是一种摆烂的态度。FSR1到FSR3,游戏支持数量始终不如DLSS,FSR4更是支持的游戏寥寥无几,还需要用optiscalar这种第三方软件或者驱动内进行强制转换。
之前还忘记讲讲光线重构与帧生成了。对于光线重构来说,这玩意的本质工作原理其实是一个比传统降噪器更聪明的AI降噪器,并且主要用于给为了保证光线追踪游戏能跑到可用的帧数,游戏内光线投射精度通常做的比较低这一行为进一步擦屁股的。其实大部分情况下,光线重构对画面的影响到不算很明显,甚至有时候还有点负面作用(比如经典2077光追大道光线重构与Transformer模型超分一起开导致的灯箱颜色收敛错误),但是像红色沙漠这种SPP低到令人发指的0.06(每16像素1光线)的情况,传统降噪器与光线重构的画面差距就十分巨大了。AMD对光线重构的应对是FSR 赤石(划掉)红石,但是这个跟进程度与推广速度依然落后于英伟达。生化危机安魂曲以9070XT的性能还真能勉强玩一玩路径追踪,但是因为游戏的路径追踪强行绑定光线重构降噪器,A卡强开的后果就是满屏噪点,虽然有性能了但是没有可玩性。
至于帧生成这一块,前有英伟达大力发展帧生成,甚至在硬件上屡次下功夫;后有XeSS帧生成即使在非intel硬件上也能发挥比较良好的效果。而反观FSR帧生成,游戏厂商对其支持程度甚至比FSR超分都烂就不说了,关键是效果连后起之秀XeSS帧生成都差,帧时间不稳定、画面崩坏、延迟高等问题层出不穷,也不知道AMD怎么做成这个样子的。
FSR4初期宣传仅支持RDNA4引发众多RDNA2/RDNA3用户不满,泄露FSR4 INT8之后官方对旧型号何时可以下放的问题避而不谈进一步引爆舆论。如果你比较关注外网,可能会发现和国内天天高呼AMD YES不同,外网的A卡玩家真的在随时随地亲切问候AMD什么时候下放FSR4,甚至是在9850X3D评测视频下面问。而前FSR负责人Colin Riley暗示FSR4开发人员流失严重更是将这场持续了许久的质问推向高潮。在沉默了一年多以后,AMD终于正式承认FSR4.1即将下放至RDNA3,未来还将下放至RDNA2。可是观察这一年以来A卡N卡市场份额占比,这个消息是否太晚了点?
如果AMD未来再不重视这些,哪怕自己的技术已经追上了英伟达,那么还会有多少用户会选择继续支持AMD呢?