GPU 选型指南：A10 / A100 / L20 / H20 各适合什么场景

一、硬件参数全对比

参数	A10	A100 80G SXM	L20	H20
架构	Ampere	Ampere	Ada Lovelace	Hopper
制程	8nm	7nm	5nm	4nm
CUDA 核心	9,216	6,912	10,240	14,592
Tensor 核心	288	432	320	456
显存	24GB GDDR6	80GB HBM2e	48GB GDDR6	96GB HBM3
显存带宽	600 GB/s	2,039 GB/s	864 GB/s	4,000 GB/s
FP32 算力	31.2 TFLOPS	19.5 TFLOPS	59.8 TFLOPS	44 TFLOPS
FP16 算力	125 TFLOPS	312 TFLOPS	119.5 TFLOPS	148 TFLOPS
INT8 算力	250 TOPS	624 TOPS	239 TOPS	296 TOPS
FP8 算力	—	—	239 TOPS	296 TOPS
NVLink	❌ 无	✅ 600GB/s	❌ 无	✅ 900GB/s
TDP 功耗	150W	400W	275W	400W
接口	PCIe Gen4	SXM4	PCIe Gen4	SXM5
中国可买	✅	⚠️ 库存	✅	✅
单卡参考价	¥1-1.5万	¥8-12万	¥5-8万	¥8-12万

二、一张图看定位

显存带宽（决定推理速度）
                         ↑
                    4000 │              ★ H20
                         │              (推理之王)
                         │
                    2000 │    ★ A100
                         │    (全能选手)
                         │
                    1000 │         ★ L20
                         │
                     600 │  ★ A10
                         │  (入门级)
                         └──────────────────────────→
                         24GB    48GB    80GB    96GB
                                 显存容量（决定能跑多大模型）

三、核心差异解读

3.1 为什么显存带宽比算力更重要？

大模型推理的瓶颈 = 访存瓶颈（Memory-Bound），不是算力瓶颈

推理过程：从显存读取模型权重 → 计算 → 输出 token
  → 读取速度（带宽）决定了推理速度的上限

实际推理性能排名（同模型 FP16）：
  H20  (4000 GB/s) >>>>  最快
  A100 (2039 GB/s) >>>   第二
  L20  (864 GB/s)  >>    第三
  A10  (600 GB/s)  >     最慢

这就是为什么 H20 表观算力只有 A100 的一半，
但推理速度反而更快——因为带宽是 A100 的 2 倍！

3.2 NVLink 的价值

有 NVLink（A100/H20）：
  多卡张量并行（TP）效率 > 90%
  4 卡跑 72B 模型，接近线性加速

无 NVLink（A10/L20）：
  只能走 PCIe，TP 效率仅 50-70%
  多卡协同推理性能大打折扣
  → 更适合"每卡跑一个模型"的方式

四、场景化选型

4.1 A10（24GB）— 入门级 / 轻量推理

┌─────────────────────────────────────────────────┐
│  A10: 24GB | 600GB/s | 150W | PCIe | ~¥1-1.5万  │
├─────────────────────────────────────────────────┤
│                                                 │
│  ✅ 适合场景：                                   │
│    • 7B 模型推理（FP16 单卡可跑）                │
│    • 14B 模型推理（INT4 量化）                   │
│    • Embedding / Reranker 模型                  │
│    • 图像生成（SDXL/FLUX FP16）                  │
│    • 开发测试 / PoC 验证                        │
│    • 小规模在线推理服务                          │
│                                                 │
│  ❌ 不适合：                                     │
│    • 32B+ 模型（显存不够）                       │
│    • 大模型训练                                  │
│    • 高并发推理                                  │
│                                                 │
│  💡 性价比之选，适合起步和轻量场景               │
└─────────────────────────────────────────────────┘

可跑的模型：
  Qwen2.5-7B (FP16)    ✅ 单卡
  Qwen2.5-14B (INT4)   ✅ 单卡
  Qwen2.5-32B          ❌ 显存不够
  FLUX.1-dev (FP16)    ✅ 单卡（勉强）

4.2 A100 80G（80GB）— 全能型 / 训推一体

┌──────────────────────────────────────────────────┐
│  A100: 80GB | 2TB/s | 400W | NVLink | ~¥8-12万   │
├──────────────────────────────────────────────────┤
│                                                  │
│  ✅ 适合场景：                                    │
│    • 70B 模型推理（FP16 需 2 卡）                 │
│    • 大模型微调 / LoRA / QLoRA                    │
│    • 中等规模预训练（8 卡 DDP）                   │
│    • 多模态模型（VLM）推理                        │
│    • 科学计算 / HPC                              │
│    • 需要训练+推理混合使用                        │
│                                                  │
│  ❌ 不适合：                                      │
│    • 纯推理场景（性价比不如 H20）                 │
│    • 中国新采购（供应受限）                       │
│                                                  │
│  💡 最全面的"万金油"，训练推理都能干               │
└──────────────────────────────────────────────────┘

可跑的模型：
  Qwen2.5-7B (FP16)    ✅ 单卡
  Qwen2.5-32B (FP16)   ✅ 单卡
  Qwen2.5-72B (FP16)   ✅ 2卡 TP（NVLink 效率高）
  Qwen2.5-72B (INT4)   ✅ 单卡
  Llama-405B (FP16)    ✅ 8卡 TP

4.3 L20（48GB）— 中国特供 / 多实例推理

┌──────────────────────────────────────────────────┐
│  L20: 48GB | 864GB/s | 275W | PCIe | ~¥5-8万     │
├──────────────────────────────────────────────────┤
│                                                  │
│  ✅ 适合场景：                                    │
│    • 32B 模型推理（FP16 单卡可跑）                │
│    • 72B 模型推理（INT4 单卡 / FP16 双卡）        │
│    • 多模型并行部署（每卡一个模型）               │
│    • RAG 全链路（Embedding+Reranker+LLM 分卡）   │
│    • 图像/视频生成（显存充裕）                    │
│    • LoRA 微调（7B-32B）                         │
│                                                  │
│  ❌ 不适合：                                      │
│    • 需要多卡高效 TP（无 NVLink）                 │
│    • 大规模训练                                   │
│    • 对推理延迟极敏感（带宽不如 H20）             │
│                                                  │
│  💡 显存大 + 中国可买 + 适合"一卡一模型"部署      │
└──────────────────────────────────────────────────┘

可跑的模型：
  Qwen2.5-7B (FP16)    ✅ 单卡
  Qwen2.5-32B (FP16)   ✅ 单卡
  Qwen2.5-72B (INT4)   ✅ 单卡
  Qwen2.5-72B (FP16)   ⚠️ 2卡可跑但 PCIe 瓶颈
  FLUX.1-dev (FP16)    ✅ 单卡（舒适）

4.4 H20（96GB）— 推理之王 / 大模型首选

┌──────────────────────────────────────────────────┐
│  H20: 96GB | 4TB/s | 400W | NVLink | ~¥8-12万    │
├──────────────────────────────────────────────────┤
│                                                  │
│  ✅ 适合场景：                                    │
│    • 72B 模型推理（FP16 单卡！）                  │
│    • 大规模推理服务（吞吐最高）                   │
│    • 长上下文推理（128K+，KV Cache 大）           │
│    • MoE 模型推理（专家参数大）                   │
│    • 多卡 TP 推理（NVLink 高效协同）              │
│    • Agent/RAG 高并发服务                        │
│                                                  │
│  ❌ 不适合：                                      │
│    • 大模型训练（FP16 算力太低，仅 148 TFLOPS）   │
│    • 对 FP32 计算精度要求高的科学计算             │
│                                                  │
│  💡 为推理而生，带宽 4TB/s 碾压一切              │
│     中国合规可买的最强推理卡                      │
└──────────────────────────────────────────────────┘

可跑的模型：
  Qwen2.5-72B (FP16)    ✅ 单卡！（96GB 够）
  Qwen2.5-72B (INT4)    ✅ 单卡（极快）
  DeepSeek-V3 (INT4)    ✅ 4卡 TP（NVLink 高效）
  Llama-405B (INT4)     ✅ 4卡 TP
  Llama-405B (FP16)     ✅ 8卡 TP

五、推理性能实测对比

5.1 单卡吞吐量（Qwen2.5-72B-Instruct，INT4 量化）

┌───────────────────────────────────────────────────────┐
│  单卡吞吐量 (tokens/s) - Qwen2.5-72B INT4            │
│                                                       │
│  H20   ██████████████████████████████████████  ~55    │
│  A100  ████████████████████████████  ~38              │
│  L20   ██████████████████  ~25                        │
│  A10   ❌ 显存不够                                     │
│                                                       │
│  H20 比 A100 快 ~45%，比 L20 快 ~120%                 │
└───────────────────────────────────────────────────────┘

5.2 Qwen2.5-7B FP16 单卡推理

┌───────────────────────────────────────────────────────┐
│  单卡吞吐量 (tokens/s) - Qwen2.5-7B FP16             │
│                                                       │
│  H20   ██████████████████████████████████████  ~180   │
│  A100  ████████████████████████████  ~120             │
│  L20   ████████████████████  ~85                      │
│  A10   ████████████████  ~65                          │
└───────────────────────────────────────────────────────┘

5.3 4 卡 TP 推理对比（72B FP16）

┌───────────────────────────────────────────────────────┐
│  4卡 TP 吞吐量 (tokens/s) - 72B FP16                  │
│                                                       │
│  4×H20  (NVLink) █████████████████████████████  ~150  │
│  4×A100 (NVLink) ████████████████████  ~100           │
│  4×L20  (PCIe)   ██████████████  ~65                  │
│                                                       │
│  有 NVLink 的 H20/A100 多卡扩展效率远超 L20           │
└───────────────────────────────────────────────────────┘

六、成本效益分析

6.1 单位推理成本对比

GPU	单卡价格	72B INT4 吞吐	每百万 token 成本	性价比排名
H20	~¥10万	~55 tok/s	~¥0.58	🥇 第一
A100 80G	~¥10万	~38 tok/s	~¥0.84	🥉 第三
L20	~¥6万	~25 tok/s	~¥0.77	🥈 第二
A10	~¥1.2万	❌ 跑不了 72B	—	—

💡 H20 的推理性价比最高，得益于 4TB/s 显存带宽

6.2 不同模型规模的最优 GPU

模型规模	最佳选择	次选	理由
1.5B-7B	A10	L20	A10 最便宜，显存够用
7B-14B	A10 / L20	A100	A10 性价比好，L20 余量更足
14B-32B	L20	H20	L20 单卡 48GB 刚好够 FP16
32B-72B	H20	A100	H20 单卡 96GB + 4TB/s 带宽
72B-200B	H20 多卡	A100 多卡	NVLink + 大显存 + 高带宽
训练 7B-70B	A100	H20 不推荐	A100 FP16 算力 312 TFLOPS

七、采购决策矩阵

7.1 按业务场景

业务场景	推荐 GPU	推荐配置	月成本参考
PoC / 开发测试	A10	1-2 卡	¥2,000-5,000
小型 AI 客服	L20	2-4 卡	¥8,000-15,000
中型 RAG 系统	L20	4-8 卡	¥15,000-30,000
大型推理服务	H20	4-8 卡	¥30,000-60,000
模型微调	A100	4-8 卡	¥30,000-60,000
预训练	A100	16+ 卡	¥120,000+
Agent/多模型	L20	8 卡	¥25,000-40,000
长文本推理	H20	4 卡	¥30,000-50,000

7.2 按预算

预算有限（月 ¥5000 以内）：
  → 1-2 × A10，跑 7B 模型
  → 适合 PoC、开发、轻量服务

预算中等（月 ¥1-3 万）：
  → 4 × L20，跑 32B 模型 或 多个 7B 模型
  → 适合中小企业 AI 应用

预算充足（月 ¥3-6 万）：
  → 4 × H20，单卡跑 72B
  → 适合大型推理服务、核心 AI 产品

预算土豪（月 ¥10 万+）：
  → 8 × H20 + 4 × A100（推理+训练分离）
  → 适合全链路 AI 平台

八、中国市场特殊考量

⚠️ 出口管制影响（2023.10 起）

H100/A100：受限，新机难采购
  → 库存价格持续上涨
  → A100 80G 二手市场价 ¥8-12万

H20：专为中国市场设计
  ✅ 合规可买
  ✅ 96GB 显存 + 4TB/s 带宽
  ✅ 推理性能优秀
  ❌ 训练算力被大幅削弱

L20：专为中国市场设计
  ✅ 合规可买
  ✅ 48GB 大显存
  ✅ 价格适中
  ❌ 无 NVLink，多卡效率低

A10：不受限
  ✅ 随时可买
  ✅ 价格最低
  ❌ 显存仅 24GB

结论：
  中国新采购推理卡 → H20 首选
  中国新采购性价比 → L20
  如果有 A100 库存 → 继续用（训练+推理全能）
  轻量/入门 → A10

九、组合方案推荐

方案一：中小企业 AI 客服

配置: 4 × L20（总 192GB 显存）
部署:
  卡 1: Embedding 模型 (Qwen3-Embedding)
  卡 2: Reranker 模型 (Qwen3-Reranker-4B)
  卡 3-4: LLM 推理 (Qwen2.5-32B FP16，单卡)
         或 Qwen2.5-72B INT4（单卡）
月成本: ~¥15,000-25,000
日处理: ~1-3 万次对话

方案二：大型推理平台

配置: 8 × H20（总 768GB 显存）
部署:
  4 卡一组 TP: Qwen2.5-72B FP16 × 2 组
  → 双实例负载均衡
月成本: ~¥50,000-80,000
日处理: ~10-30 万次对话

方案三：训推一体

配置: 4 × A100 80G + 4 × L20
部署:
  A100 集群: 模型微调 / LoRA 训练
  L20 集群:  在线推理服务
月成本: ~¥60,000-100,000
适合: 需要持续迭代模型的 AI 产品团队

十、总结

┌──────────────────────────────────────────────────────┐
│                  GPU 选型速查                          │
├──────────────────────────────────────────────────────┤
│                                                      │
│  🟢 A10  (24GB, ¥1.2万)                              │
│     "入门之选"                                       │
│     7B 模型 / 开发测试 / Embedding                   │
│                                                      │
│  🔵 L20  (48GB, ¥6万)                                │
│     "性价比之王"                                     │
│     32B 模型 / 多模型并行 / 中国可买                  │
│                                                      │
│  🟡 A100 (80GB, ¥10万)                               │
│     "全能选手"                                       │
│     训练 + 推理 / 微调 / 科学计算                     │
│                                                      │
│  🔴 H20  (96GB, ¥10万)                               │
│     "推理之王"                                       │
│     72B 单卡 / 最高吞吐 / 长上下文 / 中国可买         │
│                                                      │
│  📌 一句话：                                          │
│  推理选 H20，训练选 A100，性价比选 L20，入门选 A10    │
└──────────────────────────────────────────────────────┘

编辑于 2026-06-05 · 著作权归作者所有

从夯到垃，500元内显卡全盘点（避坑必看）英特尔酷睿Ultra 5 338H 简测如果黄仁勋愿意，凭借英伟达目前造算力卡的技术，最高可以造出什么水平的游戏显卡？畅想下一代内存技术LPDDR6：杀死GDDR的开始！《007：初露锋芒》RTX50系显卡实测，想当王牌特工到底需要什么配置？26年3月，什么CPU值得买？（含天梯图）英特尔第三代 Ultra 核显性能堪比 RTX3060，将对笔记本市场带来哪些影响？8G显卡能跑的模型精选（2026年更新）26年4月，什么CPU值得买？（含天梯图）真心建议：所有硕博都去试一下Gemini 3 如果黄仁勋愿意，凭借英伟达目前造算力卡的技术，最高可以造出什么水平的游戏显卡？26年3月，什么显卡值得买？（含天梯图）被英伟达的价格逼上梁山！用350元的国产芯跑YOLO，效果让我惊了一图看懂 CPU、GPU、内存和显存的关系 26年2月，什么显卡值得买？（含天梯图）【装机帮扶站】第1289期：内存大涨，这个准新平台依旧很便宜！TCA 51%，MFU 不足 8%——GPU 的隐藏性能损耗 MacBook Air M5 深度评测：大龙虾时代，这台轻薄本凭什么成为AI最佳载体？Intel 核显编年史：从Gen 6到Xe3的破茧之路，量变引起的质变【2026年4月】Gemma 4 显存配置完整指南：E4B、26B、31B 到底需要多少显存？