如何看待RTX Pro 6000显卡被炒到10万?

先说结论:PRO 6000的产品定位更高、显存余量更大,6000D也不是只能做低负载任务。两者谁更合适,取决于项目更看重显存余量、实际负载表现,还是首期预算。

比较之前要统一SKU。这里讨论的是RTX PRO 6000 Blackwell Server Edition 96GB和RTX PRO 6000D Blackwell Server Edition 84GB,不是工作站版。两款都是PCIe 5.0 ×16、双槽服务器卡,可以用于2卡、4卡或8卡整机。

显存方面,96GB和84GB相差12GB,带宽约为1597GB/s和1398GB/s,这个差距并不算特别大。至于低精度Tensor计算,现有公开资料的统计口径并不完全一致,因此不适合直接用一组峰值数字判断实际性能差距。

问题在于,理论算力不会直接按比例变成Tokens/s。长Prompt和长文档的Prefill更吃计算,Decode阶段逐Token生成则更受显存带宽、KV Cache和调度影响。没有统一模型、量化、输入输出长度、并发和功率设置,网上不同测试不能直接拼在一起比较。

显存的12GB差距,很多时候体现在余量。32B BF16权重约64GB,两款都能评估单卡运行,但96GB能容纳更多KV Cache和批处理。70B 4bit量化模型两款都可评估,8bit模型对84GB比较紧张,70B BF16则需要多卡。

多卡同样要分情况。多个独立模型副本更容易把新增GPU转化为总并发,6000D可能在同一预算下配置更多副本。单个大模型跨卡则要承担PCIe和NCCL通信,更多卡不一定比更强的单卡更划算。

因此,高并发、长上下文、频繁微调、多模型常驻和共享算力平台,更适合优先评估PRO 6000。

预算敏感、处于试点阶段、以RAG、企业知识库、AI助手和量化模型为主,可以重点评估6000D。

真正稳妥的做法,是先给出模型、精度、上下文、并发和时延目标,再做同环境压测,最后确定2卡、4卡或8卡。GPU只是起点,CPU、内存、NVMe、网络、供电、散热和软件栈会一起决定最终效果。

补充说明:赋创可提供两款GPU的服务器整机、多卡拓扑、推理框架部署和性能调优。选型建议应建立在业务指标和测试环境上,而不是只依据一张规格表。

补充几个常见问题FAQ

Q1:RTX 6000D可以理解成RTX PRO 6000的简单缩水版吗?

不建议这样理解。两者面向的市场与投入边界不同,部署价值要放到模型、并发、上下文、微调频率和整机配置中判断。

Q2:为什么不直接给出两款卡的大模型性能差距百分比?

因为公开资料的峰值统计口径并不完全一致,而实际Tokens/s还会受到模型、量化、框架、输入输出长度、并发和功率设置影响。没有同环境测试,给出固定百分比反而容易误导。

Q3:84GB和96GB的差距在什么情况下最明显?

长上下文、高并发、多模型同时常驻或微调时,额外12GB会提供更多KV Cache、批处理和运行时余量;模型权重和负载较轻时,差距可能没有参数表看起来那么直接。

Q4:多卡部署时最先确认什么?

先确认是单个模型跨卡,还是多个独立副本。前者重点看PCIe、NUMA、NCCL和模型切分,后者重点看调度、总吞吐和故障隔离。

编辑于 2026-06-23 · 著作权归作者所有