一、硬件参数全对比
| 参数 | A10 | A100 80G SXM | L20 | H20 |
|---|
| 架构 | Ampere | Ampere | Ada Lovelace | Hopper |
| 制程 | 8nm | 7nm | 5nm | 4nm |
| CUDA 核心 | 9,216 | 6,912 | 10,240 | 14,592 |
| Tensor 核心 | 288 | 432 | 320 | 456 |
| 显存 | 24GB GDDR6 | 80GB HBM2e | 48GB GDDR6 | 96GB HBM3 |
| 显存带宽 | 600 GB/s | 2,039 GB/s | 864 GB/s | 4,000 GB/s |
| FP32 算力 | 31.2 TFLOPS | 19.5 TFLOPS | 59.8 TFLOPS | 44 TFLOPS |
| FP16 算力 | 125 TFLOPS | 312 TFLOPS | 119.5 TFLOPS | 148 TFLOPS |
| INT8 算力 | 250 TOPS | 624 TOPS | 239 TOPS | 296 TOPS |
| FP8 算力 | — | — | 239 TOPS | 296 TOPS |
| NVLink | ❌ 无 | ✅ 600GB/s | ❌ 无 | ✅ 900GB/s |
| TDP 功耗 | 150W | 400W | 275W | 400W |
| 接口 | PCIe Gen4 | SXM4 | PCIe Gen4 | SXM5 |
| 中国可买 | ✅ | ⚠️ 库存 | ✅ | ✅ |
| 单卡参考价 | ¥1-1.5万 | ¥8-12万 | ¥5-8万 | ¥8-12万 |
二、一张图看定位
显存带宽(决定推理速度)
↑
4000 │ ★ H20
│ (推理之王)
│
2000 │ ★ A100
│ (全能选手)
│
1000 │ ★ L20
│
600 │ ★ A10
│ (入门级)
└──────────────────────────→
24GB 48GB 80GB 96GB
显存容量(决定能跑多大模型)
三、核心差异解读
3.1 为什么显存带宽比算力更重要?
大模型推理的瓶颈 = 访存瓶颈(Memory-Bound),不是算力瓶颈
推理过程:从显存读取模型权重 → 计算 → 输出 token
→ 读取速度(带宽)决定了推理速度的上限
实际推理性能排名(同模型 FP16):
H20 (4000 GB/s) >>>> 最快
A100 (2039 GB/s) >>> 第二
L20 (864 GB/s) >> 第三
A10 (600 GB/s) > 最慢
这就是为什么 H20 表观算力只有 A100 的一半,
但推理速度反而更快——因为带宽是 A100 的 2 倍!
3.2 NVLink 的价值
有 NVLink(A100/H20):
多卡张量并行(TP)效率 > 90%
4 卡跑 72B 模型,接近线性加速
无 NVLink(A10/L20):
只能走 PCIe,TP 效率仅 50-70%
多卡协同推理性能大打折扣
→ 更适合"每卡跑一个模型"的方式
四、场景化选型
4.1 A10(24GB)— 入门级 / 轻量推理
┌─────────────────────────────────────────────────┐
│ A10: 24GB | 600GB/s | 150W | PCIe | ~¥1-1.5万 │
├─────────────────────────────────────────────────┤
│ │
│ ✅ 适合场景: │
│ • 7B 模型推理(FP16 单卡可跑) │
│ • 14B 模型推理(INT4 量化) │
│ • Embedding / Reranker 模型 │
│ • 图像生成(SDXL/FLUX FP16) │
│ • 开发测试 / PoC 验证 │
│ • 小规模在线推理服务 │
│ │
│ ❌ 不适合: │
│ • 32B+ 模型(显存不够) │
│ • 大模型训练 │
│ • 高并发推理 │
│ │
│ 💡 性价比之选,适合起步和轻量场景 │
└─────────────────────────────────────────────────┘
可跑的模型:
Qwen2.5-7B (FP16) ✅ 单卡
Qwen2.5-14B (INT4) ✅ 单卡
Qwen2.5-32B ❌ 显存不够
FLUX.1-dev (FP16) ✅ 单卡(勉强)
4.2 A100 80G(80GB)— 全能型 / 训推一体
┌──────────────────────────────────────────────────┐
│ A100: 80GB | 2TB/s | 400W | NVLink | ~¥8-12万 │
├──────────────────────────────────────────────────┤
│ │
│ ✅ 适合场景: │
│ • 70B 模型推理(FP16 需 2 卡) │
│ • 大模型微调 / LoRA / QLoRA │
│ • 中等规模预训练(8 卡 DDP) │
│ • 多模态模型(VLM)推理 │
│ • 科学计算 / HPC │
│ • 需要训练+推理混合使用 │
│ │
│ ❌ 不适合: │
│ • 纯推理场景(性价比不如 H20) │
│ • 中国新采购(供应受限) │
│ │
│ 💡 最全面的"万金油",训练推理都能干 │
└──────────────────────────────────────────────────┘
可跑的模型:
Qwen2.5-7B (FP16) ✅ 单卡
Qwen2.5-32B (FP16) ✅ 单卡
Qwen2.5-72B (FP16) ✅ 2卡 TP(NVLink 效率高)
Qwen2.5-72B (INT4) ✅ 单卡
Llama-405B (FP16) ✅ 8卡 TP
4.3 L20(48GB)— 中国特供 / 多实例推理
┌──────────────────────────────────────────────────┐
│ L20: 48GB | 864GB/s | 275W | PCIe | ~¥5-8万 │
├──────────────────────────────────────────────────┤
│ │
│ ✅ 适合场景: │
│ • 32B 模型推理(FP16 单卡可跑) │
│ • 72B 模型推理(INT4 单卡 / FP16 双卡) │
│ • 多模型并行部署(每卡一个模型) │
│ • RAG 全链路(Embedding+Reranker+LLM 分卡) │
│ • 图像/视频生成(显存充裕) │
│ • LoRA 微调(7B-32B) │
│ │
│ ❌ 不适合: │
│ • 需要多卡高效 TP(无 NVLink) │
│ • 大规模训练 │
│ • 对推理延迟极敏感(带宽不如 H20) │
│ │
│ 💡 显存大 + 中国可买 + 适合"一卡一模型"部署 │
└──────────────────────────────────────────────────┘
可跑的模型:
Qwen2.5-7B (FP16) ✅ 单卡
Qwen2.5-32B (FP16) ✅ 单卡
Qwen2.5-72B (INT4) ✅ 单卡
Qwen2.5-72B (FP16) ⚠️ 2卡可跑但 PCIe 瓶颈
FLUX.1-dev (FP16) ✅ 单卡(舒适)
4.4 H20(96GB)— 推理之王 / 大模型首选
┌──────────────────────────────────────────────────┐
│ H20: 96GB | 4TB/s | 400W | NVLink | ~¥8-12万 │
├──────────────────────────────────────────────────┤
│ │
│ ✅ 适合场景: │
│ • 72B 模型推理(FP16 单卡!) │
│ • 大规模推理服务(吞吐最高) │
│ • 长上下文推理(128K+,KV Cache 大) │
│ • MoE 模型推理(专家参数大) │
│ • 多卡 TP 推理(NVLink 高效协同) │
│ • Agent/RAG 高并发服务 │
│ │
│ ❌ 不适合: │
│ • 大模型训练(FP16 算力太低,仅 148 TFLOPS) │
│ • 对 FP32 计算精度要求高的科学计算 │
│ │
│ 💡 为推理而生,带宽 4TB/s 碾压一切 │
│ 中国合规可买的最强推理卡 │
└──────────────────────────────────────────────────┘
可跑的模型:
Qwen2.5-72B (FP16) ✅ 单卡!(96GB 够)
Qwen2.5-72B (INT4) ✅ 单卡(极快)
DeepSeek-V3 (INT4) ✅ 4卡 TP(NVLink 高效)
Llama-405B (INT4) ✅ 4卡 TP
Llama-405B (FP16) ✅ 8卡 TP
五、推理性能实测对比
5.1 单卡吞吐量(Qwen2.5-72B-Instruct,INT4 量化)
┌───────────────────────────────────────────────────────┐
│ 单卡吞吐量 (tokens/s) - Qwen2.5-72B INT4 │
│ │
│ H20 ██████████████████████████████████████ ~55 │
│ A100 ████████████████████████████ ~38 │
│ L20 ██████████████████ ~25 │
│ A10 ❌ 显存不够 │
│ │
│ H20 比 A100 快 ~45%,比 L20 快 ~120% │
└───────────────────────────────────────────────────────┘
5.2 Qwen2.5-7B FP16 单卡推理
┌───────────────────────────────────────────────────────┐
│ 单卡吞吐量 (tokens/s) - Qwen2.5-7B FP16 │
│ │
│ H20 ██████████████████████████████████████ ~180 │
│ A100 ████████████████████████████ ~120 │
│ L20 ████████████████████ ~85 │
│ A10 ████████████████ ~65 │
└───────────────────────────────────────────────────────┘
5.3 4 卡 TP 推理对比(72B FP16)
┌───────────────────────────────────────────────────────┐
│ 4卡 TP 吞吐量 (tokens/s) - 72B FP16 │
│ │
│ 4×H20 (NVLink) █████████████████████████████ ~150 │
│ 4×A100 (NVLink) ████████████████████ ~100 │
│ 4×L20 (PCIe) ██████████████ ~65 │
│ │
│ 有 NVLink 的 H20/A100 多卡扩展效率远超 L20 │
└───────────────────────────────────────────────────────┘
六、成本效益分析
6.1 单位推理成本对比
| GPU | 单卡价格 | 72B INT4 吞吐 | 每百万 token 成本 | 性价比排名 |
|---|
| H20 | ~¥10万 | ~55 tok/s | ~¥0.58 | 🥇 第一 |
| A100 80G | ~¥10万 | ~38 tok/s | ~¥0.84 | 🥉 第三 |
| L20 | ~¥6万 | ~25 tok/s | ~¥0.77 | 🥈 第二 |
| A10 | ~¥1.2万 | ❌ 跑不了 72B | — | — |
💡 H20 的推理性价比最高,得益于 4TB/s 显存带宽
6.2 不同模型规模的最优 GPU
| 模型规模 | 最佳选择 | 次选 | 理由 |
|---|
| 1.5B-7B | A10 | L20 | A10 最便宜,显存够用 |
| 7B-14B | A10 / L20 | A100 | A10 性价比好,L20 余量更足 |
| 14B-32B | L20 | H20 | L20 单卡 48GB 刚好够 FP16 |
| 32B-72B | H20 | A100 | H20 单卡 96GB + 4TB/s 带宽 |
| 72B-200B | H20 多卡 | A100 多卡 | NVLink + 大显存 + 高带宽 |
| 训练 7B-70B | A100 | H20 不推荐 | A100 FP16 算力 312 TFLOPS |
七、采购决策矩阵
7.1 按业务场景
| 业务场景 | 推荐 GPU | 推荐配置 | 月成本参考 |
|---|
| PoC / 开发测试 | A10 | 1-2 卡 | ¥2,000-5,000 |
| 小型 AI 客服 | L20 | 2-4 卡 | ¥8,000-15,000 |
| 中型 RAG 系统 | L20 | 4-8 卡 | ¥15,000-30,000 |
| 大型推理服务 | H20 | 4-8 卡 | ¥30,000-60,000 |
| 模型微调 | A100 | 4-8 卡 | ¥30,000-60,000 |
| 预训练 | A100 | 16+ 卡 | ¥120,000+ |
| Agent/多模型 | L20 | 8 卡 | ¥25,000-40,000 |
| 长文本推理 | H20 | 4 卡 | ¥30,000-50,000 |
7.2 按预算
预算有限(月 ¥5000 以内):
→ 1-2 × A10,跑 7B 模型
→ 适合 PoC、开发、轻量服务
预算中等(月 ¥1-3 万):
→ 4 × L20,跑 32B 模型 或 多个 7B 模型
→ 适合中小企业 AI 应用
预算充足(月 ¥3-6 万):
→ 4 × H20,单卡跑 72B
→ 适合大型推理服务、核心 AI 产品
预算土豪(月 ¥10 万+):
→ 8 × H20 + 4 × A100(推理+训练分离)
→ 适合全链路 AI 平台
八、中国市场特殊考量
⚠️ 出口管制影响(2023.10 起)
H100/A100:受限,新机难采购
→ 库存价格持续上涨
→ A100 80G 二手市场价 ¥8-12万
H20:专为中国市场设计
✅ 合规可买
✅ 96GB 显存 + 4TB/s 带宽
✅ 推理性能优秀
❌ 训练算力被大幅削弱
L20:专为中国市场设计
✅ 合规可买
✅ 48GB 大显存
✅ 价格适中
❌ 无 NVLink,多卡效率低
A10:不受限
✅ 随时可买
✅ 价格最低
❌ 显存仅 24GB
结论:
中国新采购推理卡 → H20 首选
中国新采购性价比 → L20
如果有 A100 库存 → 继续用(训练+推理全能)
轻量/入门 → A10
九、组合方案推荐
方案一:中小企业 AI 客服
配置: 4 × L20(总 192GB 显存)
部署:
卡 1: Embedding 模型 (Qwen3-Embedding)
卡 2: Reranker 模型 (Qwen3-Reranker-4B)
卡 3-4: LLM 推理 (Qwen2.5-32B FP16,单卡)
或 Qwen2.5-72B INT4(单卡)
月成本: ~¥15,000-25,000
日处理: ~1-3 万次对话
方案二:大型推理平台
配置: 8 × H20(总 768GB 显存)
部署:
4 卡一组 TP: Qwen2.5-72B FP16 × 2 组
→ 双实例负载均衡
月成本: ~¥50,000-80,000
日处理: ~10-30 万次对话
方案三:训推一体
配置: 4 × A100 80G + 4 × L20
部署:
A100 集群: 模型微调 / LoRA 训练
L20 集群: 在线推理服务
月成本: ~¥60,000-100,000
适合: 需要持续迭代模型的 AI 产品团队
十、总结
┌──────────────────────────────────────────────────────┐
│ GPU 选型速查 │
├──────────────────────────────────────────────────────┤
│ │
│ 🟢 A10 (24GB, ¥1.2万) │
│ "入门之选" │
│ 7B 模型 / 开发测试 / Embedding │
│ │
│ 🔵 L20 (48GB, ¥6万) │
│ "性价比之王" │
│ 32B 模型 / 多模型并行 / 中国可买 │
│ │
│ 🟡 A100 (80GB, ¥10万) │
│ "全能选手" │
│ 训练 + 推理 / 微调 / 科学计算 │
│ │
│ 🔴 H20 (96GB, ¥10万) │
│ "推理之王" │
│ 72B 单卡 / 最高吞吐 / 长上下文 / 中国可买 │
│ │
│ 📌 一句话: │
│ 推理选 H20,训练选 A100,性价比选 L20,入门选 A10 │
└──────────────────────────────────────────────────────┘