深度学习用什么卡比较给力？

翻了一下这个问题的已有回答，大部分是2023到2024年初写的。这两年显卡市场翻天覆地：4090停产，5090出了但中国禁售完整版，GDDR7全球缺货推高全系价格。

所以我写一版2026年5月的。不讲怎么配整机（那个我另写了一篇），这篇纯聊显卡本身。

我自己的情况：公司跑生产，用过4090 24G，4090魔改48G，RTX PRO 6000 96G。目前主力推理卡是4090魔改48G跑Qwen3.6-35B-A3B AWQ 4bit。我没有5090，所以5090的数据标注了来源。

▎ ⭐ 一个大原则：显存 > 带宽 > 算力

很多人选卡第一眼看TFLOPS。跑深度学习的话，这个顺序是错的。

大模型推理真正的瓶颈是显存容量和带宽。算力反而是最不重要的那个。举个具体例子：5090的FP16算力只比4090高27%，但带宽高了78%，显存多了33%。实际跑32B级模型AWQ量化，5090约1,100 tok/s，4090约650 tok/s。提升69%。（Spheron Network vLLM benchmark）

69% vs 27%，差距来自显存和带宽。4090的24GB跑32B模型KV cache塞不下，系统频繁做显存换页。5090的32GB刚好跨过这个坎。

所以判断一张卡能不能"给力"，先看显存放不放得下你的模型+上下文，再看带宽够不够喂饱计算单元，最后才看算力。

▎ ⭐ RTX 5090：推理甜点，但不是神卡

先给数据（NVIDIA官方规格）：32GB GDDR7，1,792 GB/s带宽，21,760 CUDA核心，575W TDP。MSRP $1,999，但那是美国价。中国市场完整版走灰色渠道，实际25,000-30,000元。

这卡的定位很微妙。32GB显存，比4090多8GB，比PRO 6000少64GB。刚好卡在"能跑30B级模型"的及格线上。1,792 GB/s带宽是目前消费卡里最高的，4090的1.78倍。

Spheron的benchmark显示，32B模型AWQ量化在5090上约1,100 tok/s，比4090的650快69%。但这不是因为5090算力多强，是4090的24GB塞不下KV cache在拖后腿。模型换成7B级别，差距缩小到37%（3,500 vs 2,550 tok/s）。

5090还有两个未来牌：FP4精度支持（Blackwell架构独有，理论上32GB等效64GB），以及更大的显存放在长上下文场景下优势更大。32K context在4090上很勉强，在5090上就从容了。

但5090不是没有槽点。575W TDP是消费卡里最高的，散热压力大。没有ECC内存。中国买不到正规渠道的完整版：NVIDIA在中国只合法卖5090D V2（24GB/384-bit，带宽砍了25%），实际性能未必比4090好多少，价格还要24,000-34,000元。（快科技/17173报道）

▎ 💡 PRO 6000 Blackwell 96GB：一张卡解决显存焦虑

这卡的核心卖点就一个：96GB GDDR7 ECC。（NVIDIA官方规格）

纯算力它不比5090强多少。GamersNexus评测显示模型能塞进32GB时只快0-25%。但模型一旦超过32GB，差距瞬间拉开：

Gemma 3 27B：PRO 6000 29 tok/s vs 5090 5 tok/s

Llama 3.3 70B Q4：PRO 6000 ~8 tok/s vs 5090 ~0.8 tok/s

（GamersNexus LM Studio实测，2025年评测）

5090跑70B Q4几乎不可用。显存爆了之后靠CPU offload，速度降到每秒不到一个token。PRO 6000虽然也只有8 tok/s，但至少能用。

PRO 6000的真正价值不在单模型速度，在能同时跑多个。96GB可以同时加载两个32B模型加一个rerank模型，再加几十GB做KV cache。这对生产环境多模型服务是刚需。

槽点是价格和散热。600W TDP（比5090还高25W），GamersNexus测核心82°C。更麻烦的是涨价：我们公司两周前79,800买的，现在渠道已经报10万了，就两周时间。（我们实际采购）

▎ ⚠️ 消费卡 vs 专业卡：场景决定选择

很多人纠结4090/5090还是A6000/A100。这是两个完全不同的赛道。

消费卡（4090/5090）的优势在性价比。推理性能基本追平专业卡（5090 vs H100在7B模型上只差11%，Spheron测试），价格便宜得多（5090 3万 vs H100 20万+）。缺点：没有ECC，没有NVLink，中国买完整版要靠灰市。

专业卡（A6000/A100/PRO 6000）的优势在可靠性。ECC内存防止静默数据错误，训练场景刚需。NVLink多卡互联，大规模训练必需的。缺点：贵，推理性价比不如消费卡。

RunPod的cost benchmark：每100美元月费能买到的token数，5090是24.8 tok/s，H100 PCIe是12.0 tok/s。5090单位成本的推理吞吐是H100的两倍。

一句话：做推理买消费卡，做训练买专业卡，又要推理又要训练买H100。

▎ ⚠️ 4090：停产了，但二手市场还在

4090 2024年10月就停产了（NVIDIA公告），现在市面上全是库存和二手。24GB GDDR6X，1,008 GB/s带宽。32B AWQ量化约650 tok/s。（Spheron）

二手价8,000-10,000元（闲鱼/淘宝均价），性价比仍然很高。但24GB显存在2026年已经是及格线边缘了。我们自己的经验：Qwen3.6-35B-A3B AWQ 4bit在魔改48G上跑32768上下文很稳，24G原版就跑不了。

4090还有个出路：魔改48G。中国工厂把显存颗粒换成更大容量的，约22,500元。我们在用两

张，跑了半年多。48GB能跑70B INT4（约40GB），或同时加载两个32B模型。缺点是没保修，散热压力大。（我们实测 + InfoQ中文站报道）

▎ ⚠️ 中国买卡的特殊情况

这个必须单独说，因为直接影响你买不买得到、花多少钱。

出口管制。美国限制高性能GPU出口中国。RTX 5090完整版不能在中国合法销售，市面上都是灰色渠道。京东曾短暂上架35,999元后当天就下架了。（WCCFTech、TweakTown报道）

5090D陷阱。NVIDIA在中国合法卖的叫RTX 5090D V2。名字很像，但显存24GB、位宽384-bit（完整版是32GB/512-bit）。带宽砍了25%，实际性能未必比4090好。价格还要24,000-34,000元。（快科技报道）

全系涨价。GDDR7全球缺货，美国5090渠道价已从$1,999涨到$3,000-4,200。中国灰市只会更贵。PRO 6000同样被管制，两周涨两万的速度前所未见。

结论：买卡之前先确认三件事。完整版还是D版？有没有保修？渠道靠不靠谱？

▎ 💡 快速参考（2026年5月）

4090 24G：1,008 GB/s，~650 tok/s，二手8,000-10,000元 → 性价比之选，但24GB已勉强

5090 32G：1,792 GB/s，~1,100 tok/s，25,000-30,000元 → 推理甜点，中国买不到正规渠道

4090魔改48G：1,008 GB/s，~650 tok/s，~22,500元 → 赌博，赢了很香

PRO 6000 96G：1,792 GB/s，~1,200 tok/s，79,800-100,000+元 → 显存焦虑终结者

A100 80G：2,039 GB/s，~1,400 tok/s，二手55,000-65,000元 → 训练+推理全能

H100 80G：3,350 GB/s，~4,600 tok/s(7B)，200,000-280,000元 → 企业训练集群

数据来源：NVIDIA官方 / Spheron / GamersNexus / RunPod / 我们实测

入门卡（3060 12G/5060Ti 16G）适合学生跑实验，但不在本文"给力"的讨论范围内。配整机方案我写在了另一篇回答里。

最后再说一遍那个原则：先搞清楚你主要跑什么模型，再决定买什么卡。跑7B模型的买5090是浪费，跑70B模型的买4090是折磨。显存放得下是第一优先级，其他都是次要的。

有什么问题评论区聊。我之前写过4090魔改48G的半年踩坑记录，有兴趣的可以去看。

编辑于 2026-05-27 · 著作权归作者所有

8G显卡能跑的模型精选（2026年更新）砺算科技 7g100 国产显卡开启预约，12GB 售 3299 元，其市场竞争力如何？2026-04-17 AI扫盲系列——3080 20G魔改卡本地大模型的“甜点”之选砺算科技 7g100 国产显卡开启预约，12GB 售 3299 元，其市场竞争力如何？本地跑AI大模型，显卡显存怎么选？一张表搞定，别再买错了如何评价50系显卡?26年4月，什么CPU值得买？（含天梯图）AMD显卡为什么越来越拉了?为什么现在配电脑重点是显卡，而不是CPU？有没有便宜点的AI算力显卡?明明可以做小非得把显卡做那么大是为何？《007：初露锋芒》RTX50系显卡实测，想当王牌特工到底需要什么配置？梁文峰称英伟达「技术没有秘密」，从技术角度看该说法合理吗？真正懂显卡的人，都选了什么显卡？如果黄仁勋愿意，凭借英伟达目前造算力卡的技术，最高可以造出什么水平的游戏显卡？史上最全各级别电脑主机配置单（从270元到25W主机，共153套）【2026年6月10日更新】固态硬盘坏了不识别？别扔！我用这套全系列开卡量产工具救活了3块SSD，省下好几千有哪些二手显卡值得玩?为什么大家对i5 12400的评价那么好?梁文峰称英伟达「技术没有秘密」，从技术角度看该说法合理吗？