GPU 选型指南:A10 / A100 / L20 / H20 各适合什么场景

GPU 选型指南:A10 / A100 / L20 / H20 各适合什么场景

一、硬件参数全对比

参数A10A100 80G SXML20H20
架构AmpereAmpereAda LovelaceHopper
制程8nm7nm5nm4nm
CUDA 核心9,2166,91210,24014,592
Tensor 核心288432320456
显存24GB GDDR680GB HBM2e48GB GDDR696GB HBM3
显存带宽600 GB/s2,039 GB/s864 GB/s4,000 GB/s
FP32 算力31.2 TFLOPS19.5 TFLOPS59.8 TFLOPS44 TFLOPS
FP16 算力125 TFLOPS312 TFLOPS119.5 TFLOPS148 TFLOPS
INT8 算力250 TOPS624 TOPS239 TOPS296 TOPS
FP8 算力239 TOPS296 TOPS
NVLink❌ 无✅ 600GB/s❌ 无✅ 900GB/s
TDP 功耗150W400W275W400W
接口PCIe Gen4SXM4PCIe Gen4SXM5
中国可买⚠️ 库存
单卡参考价¥1-1.5万¥8-12万¥5-8万¥8-12万

二、一张图看定位

显存带宽(决定推理速度)
                         ↑
                    4000 │              ★ H20
                         │              (推理之王)
                         │
                    2000 │    ★ A100
                         │    (全能选手)
                         │
                    1000 │         ★ L20
                         │
                     600 │  ★ A10
                         │  (入门级)
                         └──────────────────────────→
                         24GB    48GB    80GB    96GB
                                 显存容量(决定能跑多大模型)

三、核心差异解读

3.1 为什么显存带宽比算力更重要?

大模型推理的瓶颈 = 访存瓶颈(Memory-Bound),不是算力瓶颈

推理过程:从显存读取模型权重 → 计算 → 输出 token
  → 读取速度(带宽)决定了推理速度的上限

实际推理性能排名(同模型 FP16):
  H20  (4000 GB/s) >>>>  最快
  A100 (2039 GB/s) >>>   第二
  L20  (864 GB/s)  >>    第三
  A10  (600 GB/s)  >     最慢

这就是为什么 H20 表观算力只有 A100 的一半,
但推理速度反而更快——因为带宽是 A100 的 2 倍!

3.2 NVLink 的价值

有 NVLink(A100/H20):
  多卡张量并行(TP)效率 > 90%
  4 卡跑 72B 模型,接近线性加速

无 NVLink(A10/L20):
  只能走 PCIe,TP 效率仅 50-70%
  多卡协同推理性能大打折扣
  → 更适合"每卡跑一个模型"的方式

四、场景化选型

4.1 A10(24GB)— 入门级 / 轻量推理

┌─────────────────────────────────────────────────┐
│  A10: 24GB | 600GB/s | 150W | PCIe | ~¥1-1.5万  │
├─────────────────────────────────────────────────┤
│                                                 │
│  ✅ 适合场景:                                   │
│    • 7B 模型推理(FP16 单卡可跑)                │
│    • 14B 模型推理(INT4 量化)                   │
│    • Embedding / Reranker 模型                  │
│    • 图像生成(SDXL/FLUX FP16)                  │
│    • 开发测试 / PoC 验证                        │
│    • 小规模在线推理服务                          │
│                                                 │
│  ❌ 不适合:                                     │
│    • 32B+ 模型(显存不够)                       │
│    • 大模型训练                                  │
│    • 高并发推理                                  │
│                                                 │
│  💡 性价比之选,适合起步和轻量场景               │
└─────────────────────────────────────────────────┘

可跑的模型:
  Qwen2.5-7B (FP16)    ✅ 单卡
  Qwen2.5-14B (INT4)   ✅ 单卡
  Qwen2.5-32B          ❌ 显存不够
  FLUX.1-dev (FP16)    ✅ 单卡(勉强)

4.2 A100 80G(80GB)— 全能型 / 训推一体

┌──────────────────────────────────────────────────┐
│  A100: 80GB | 2TB/s | 400W | NVLink | ~¥8-12万   │
├──────────────────────────────────────────────────┤
│                                                  │
│  ✅ 适合场景:                                    │
│    • 70B 模型推理(FP16 需 2 卡)                 │
│    • 大模型微调 / LoRA / QLoRA                    │
│    • 中等规模预训练(8 卡 DDP)                   │
│    • 多模态模型(VLM)推理                        │
│    • 科学计算 / HPC                              │
│    • 需要训练+推理混合使用                        │
│                                                  │
│  ❌ 不适合:                                      │
│    • 纯推理场景(性价比不如 H20)                 │
│    • 中国新采购(供应受限)                       │
│                                                  │
│  💡 最全面的"万金油",训练推理都能干               │
└──────────────────────────────────────────────────┘

可跑的模型:
  Qwen2.5-7B (FP16)    ✅ 单卡
  Qwen2.5-32B (FP16)   ✅ 单卡
  Qwen2.5-72B (FP16)   ✅ 2卡 TP(NVLink 效率高)
  Qwen2.5-72B (INT4)   ✅ 单卡
  Llama-405B (FP16)    ✅ 8卡 TP

4.3 L20(48GB)— 中国特供 / 多实例推理

┌──────────────────────────────────────────────────┐
│  L20: 48GB | 864GB/s | 275W | PCIe | ~¥5-8万     │
├──────────────────────────────────────────────────┤
│                                                  │
│  ✅ 适合场景:                                    │
│    • 32B 模型推理(FP16 单卡可跑)                │
│    • 72B 模型推理(INT4 单卡 / FP16 双卡)        │
│    • 多模型并行部署(每卡一个模型)               │
│    • RAG 全链路(Embedding+Reranker+LLM 分卡)   │
│    • 图像/视频生成(显存充裕)                    │
│    • LoRA 微调(7B-32B)                         │
│                                                  │
│  ❌ 不适合:                                      │
│    • 需要多卡高效 TP(无 NVLink)                 │
│    • 大规模训练                                   │
│    • 对推理延迟极敏感(带宽不如 H20)             │
│                                                  │
│  💡 显存大 + 中国可买 + 适合"一卡一模型"部署      │
└──────────────────────────────────────────────────┘

可跑的模型:
  Qwen2.5-7B (FP16)    ✅ 单卡
  Qwen2.5-32B (FP16)   ✅ 单卡
  Qwen2.5-72B (INT4)   ✅ 单卡
  Qwen2.5-72B (FP16)   ⚠️ 2卡可跑但 PCIe 瓶颈
  FLUX.1-dev (FP16)    ✅ 单卡(舒适)

4.4 H20(96GB)— 推理之王 / 大模型首选

┌──────────────────────────────────────────────────┐
│  H20: 96GB | 4TB/s | 400W | NVLink | ~¥8-12万    │
├──────────────────────────────────────────────────┤
│                                                  │
│  ✅ 适合场景:                                    │
│    • 72B 模型推理(FP16 单卡!)                  │
│    • 大规模推理服务(吞吐最高)                   │
│    • 长上下文推理(128K+,KV Cache 大)           │
│    • MoE 模型推理(专家参数大)                   │
│    • 多卡 TP 推理(NVLink 高效协同)              │
│    • Agent/RAG 高并发服务                        │
│                                                  │
│  ❌ 不适合:                                      │
│    • 大模型训练(FP16 算力太低,仅 148 TFLOPS)   │
│    • 对 FP32 计算精度要求高的科学计算             │
│                                                  │
│  💡 为推理而生,带宽 4TB/s 碾压一切              │
│     中国合规可买的最强推理卡                      │
└──────────────────────────────────────────────────┘

可跑的模型:
  Qwen2.5-72B (FP16)    ✅ 单卡!(96GB 够)
  Qwen2.5-72B (INT4)    ✅ 单卡(极快)
  DeepSeek-V3 (INT4)    ✅ 4卡 TP(NVLink 高效)
  Llama-405B (INT4)     ✅ 4卡 TP
  Llama-405B (FP16)     ✅ 8卡 TP

五、推理性能实测对比

5.1 单卡吞吐量(Qwen2.5-72B-Instruct,INT4 量化)

┌───────────────────────────────────────────────────────┐
│  单卡吞吐量 (tokens/s) - Qwen2.5-72B INT4            │
│                                                       │
│  H20   ██████████████████████████████████████  ~55    │
│  A100  ████████████████████████████  ~38              │
│  L20   ██████████████████  ~25                        │
│  A10   ❌ 显存不够                                     │
│                                                       │
│  H20 比 A100 快 ~45%,比 L20 快 ~120%                 │
└───────────────────────────────────────────────────────┘

5.2 Qwen2.5-7B FP16 单卡推理

┌───────────────────────────────────────────────────────┐
│  单卡吞吐量 (tokens/s) - Qwen2.5-7B FP16             │
│                                                       │
│  H20   ██████████████████████████████████████  ~180   │
│  A100  ████████████████████████████  ~120             │
│  L20   ████████████████████  ~85                      │
│  A10   ████████████████  ~65                          │
└───────────────────────────────────────────────────────┘

5.3 4 卡 TP 推理对比(72B FP16)

┌───────────────────────────────────────────────────────┐
│  4卡 TP 吞吐量 (tokens/s) - 72B FP16                  │
│                                                       │
│  4×H20  (NVLink) █████████████████████████████  ~150  │
│  4×A100 (NVLink) ████████████████████  ~100           │
│  4×L20  (PCIe)   ██████████████  ~65                  │
│                                                       │
│  有 NVLink 的 H20/A100 多卡扩展效率远超 L20           │
└───────────────────────────────────────────────────────┘

六、成本效益分析

6.1 单位推理成本对比

GPU单卡价格72B INT4 吞吐每百万 token 成本性价比排名
H20~¥10万~55 tok/s~¥0.58🥇 第一
A100 80G~¥10万~38 tok/s~¥0.84🥉 第三
L20~¥6万~25 tok/s~¥0.77🥈 第二
A10~¥1.2万❌ 跑不了 72B
💡 H20 的推理性价比最高,得益于 4TB/s 显存带宽

6.2 不同模型规模的最优 GPU

模型规模最佳选择次选理由
1.5B-7BA10L20A10 最便宜,显存够用
7B-14BA10 / L20A100A10 性价比好,L20 余量更足
14B-32BL20H20L20 单卡 48GB 刚好够 FP16
32B-72BH20A100H20 单卡 96GB + 4TB/s 带宽
72B-200BH20 多卡A100 多卡NVLink + 大显存 + 高带宽
训练 7B-70BA100H20 不推荐A100 FP16 算力 312 TFLOPS

七、采购决策矩阵

7.1 按业务场景

业务场景推荐 GPU推荐配置月成本参考
PoC / 开发测试A101-2 卡¥2,000-5,000
小型 AI 客服L202-4 卡¥8,000-15,000
中型 RAG 系统L204-8 卡¥15,000-30,000
大型推理服务H204-8 卡¥30,000-60,000
模型微调A1004-8 卡¥30,000-60,000
预训练A10016+ 卡¥120,000+
Agent/多模型L208 卡¥25,000-40,000
长文本推理H204 卡¥30,000-50,000

7.2 按预算

预算有限(月 ¥5000 以内):
  → 1-2 × A10,跑 7B 模型
  → 适合 PoC、开发、轻量服务

预算中等(月 ¥1-3 万):
  → 4 × L20,跑 32B 模型 或 多个 7B 模型
  → 适合中小企业 AI 应用

预算充足(月 ¥3-6 万):
  → 4 × H20,单卡跑 72B
  → 适合大型推理服务、核心 AI 产品

预算土豪(月 ¥10 万+):
  → 8 × H20 + 4 × A100(推理+训练分离)
  → 适合全链路 AI 平台

八、中国市场特殊考量

⚠️ 出口管制影响(2023.10 起)

H100/A100:受限,新机难采购
  → 库存价格持续上涨
  → A100 80G 二手市场价 ¥8-12万

H20:专为中国市场设计
  ✅ 合规可买
  ✅ 96GB 显存 + 4TB/s 带宽
  ✅ 推理性能优秀
  ❌ 训练算力被大幅削弱

L20:专为中国市场设计
  ✅ 合规可买
  ✅ 48GB 大显存
  ✅ 价格适中
  ❌ 无 NVLink,多卡效率低

A10:不受限
  ✅ 随时可买
  ✅ 价格最低
  ❌ 显存仅 24GB

结论:
  中国新采购推理卡 → H20 首选
  中国新采购性价比 → L20
  如果有 A100 库存 → 继续用(训练+推理全能)
  轻量/入门 → A10

九、组合方案推荐

方案一:中小企业 AI 客服

配置: 4 × L20(总 192GB 显存)
部署:
  卡 1: Embedding 模型 (Qwen3-Embedding)
  卡 2: Reranker 模型 (Qwen3-Reranker-4B)
  卡 3-4: LLM 推理 (Qwen2.5-32B FP16,单卡)
         或 Qwen2.5-72B INT4(单卡)
月成本: ~¥15,000-25,000
日处理: ~1-3 万次对话

方案二:大型推理平台

配置: 8 × H20(总 768GB 显存)
部署:
  4 卡一组 TP: Qwen2.5-72B FP16 × 2 组
  → 双实例负载均衡
月成本: ~¥50,000-80,000
日处理: ~10-30 万次对话

方案三:训推一体

配置: 4 × A100 80G + 4 × L20
部署:
  A100 集群: 模型微调 / LoRA 训练
  L20 集群:  在线推理服务
月成本: ~¥60,000-100,000
适合: 需要持续迭代模型的 AI 产品团队

十、总结

┌──────────────────────────────────────────────────────┐
│                  GPU 选型速查                          │
├──────────────────────────────────────────────────────┤
│                                                      │
│  🟢 A10  (24GB, ¥1.2万)                              │
│     "入门之选"                                       │
│     7B 模型 / 开发测试 / Embedding                   │
│                                                      │
│  🔵 L20  (48GB, ¥6万)                                │
│     "性价比之王"                                     │
│     32B 模型 / 多模型并行 / 中国可买                  │
│                                                      │
│  🟡 A100 (80GB, ¥10万)                               │
│     "全能选手"                                       │
│     训练 + 推理 / 微调 / 科学计算                     │
│                                                      │
│  🔴 H20  (96GB, ¥10万)                               │
│     "推理之王"                                       │
│     72B 单卡 / 最高吞吐 / 长上下文 / 中国可买         │
│                                                      │
│  📌 一句话:                                          │
│  推理选 H20,训练选 A100,性价比选 L20,入门选 A10    │
└──────────────────────────────────────────────────────┘
编辑于 2026-06-05 · 著作权归作者所有