官方说235B要A100起步,我用4张魔改4090硬跑起来了

官方说235B要A100起步,我用4张魔改4090硬跑起来了

第一次尝试:当场跪了

FP16加载模型。

进度条走到47%,OOM。

235B的模型FP16大概470G。我4张卡加起来才192G。这数学不是我说的,是GPU说的。

行,量化吧。

第二次:能跑了,但慢到怀疑人生

下了个AWQ量化版,模型90G,塞进去了。

发了个测试请求,等了半天出结果。一看监控:TPOT 200ms

200毫秒一个token。生成100个token要20秒。这速度用户早关页面了好吗。

问题在哪?

哦,我两张卡在150服务器,两张卡在161服务器,中间走万兆网。235B有100多层,每层的forward都要跨节点同步。延迟叠起来能不慢吗。

万兆理论带宽10Gbps,听起来够用。但那是理论。实际跑起来,TCP的开销、vLLM的调度、Ray的通信协议,一层层吃掉性能。200ms的TPOT,80%的时间都在等网络。

第三次:上100G网卡

我去淘宝看了看100G Mellanox网卡的价格,倒吸一口凉气。

然后发现有种东西叫拆机卡,二手的,一半价格。又发现有种东西叫DAC线,不用光纤,两台机器直连,再省一笔。

最后2张网卡+1根DAC线,5000块搞定。

换上之后,TPOT从200ms干到了42ms。

4.7倍。就换了张网卡。

跑起来之后长这样





GPU利用率67-71%,显存46.6G/48G,温度60-65度。显存占用率96.7%,走得是钢丝,但钢丝上走了一周没掉下来。

实测数据

不整那些虚的,直接上数据:

基准测试(4K上下文)

并发吞吐量TPOT
141 tok/s23ms
8183 tok/s42ms
64488 tok/s123ms

峰值488 tok/s,64并发。单请求23ms一个token,生成500字大概10秒出头。能用了。

32K长上下文8并发压测

连续跑了72小时,80000+次请求,成功率100%,0报警。

这是真实的业务场景——用户扔进来一篇30K的文档问问题,系统3秒内给出第一个字,然后每秒40多个字蹦出来。体验还行。

算笔账

硬件我花了多少:

  • 4张魔改48G 4090:10万
  • 2张100G网卡+DAC线:5000
  • 服务器两台:利旧的,0

总共10.5万。

云上租同样的算力(4×A100 80G):

  • AutoDL大概60块一小时
  • 一天用8小时=480块
  • 一个月=1.4万
  • 一年=17万

自己买硬件,7个月回本。

当然,运维是隐形的。Ray集群、vLLM版本兼容、网络调优、监控告警,这些都是我兼职干的。好处是自己的东西,出问题我知道怎么修。

几个踩过的坑

坑1:万兆真的不够

跨节点TP,100G是起步价。我试过万兆,TPOT 200ms起步,用户体验就是”这AI是不是卡死了”。

没有100G网卡就别折腾跨节点TP了,单机4卡或者老老实实租云。

坑2:PCIe悄悄降级了

这个坑最隐形。我三台服务器之前PCIe全部降级到1.0x,排查了一周才发现是BIOS设置问题。

一个命令自查:`lspci -vvv | grep LnkSta`,看到2.5GT/s就是降级了。正常应该是16GT/s。

坑3:显存95%是极限

刚开始设90%,长上下文偶尔OOM。改成95%反而稳了。

96.7%满载确实是在走钢丝,但走了一周没掉下来,说明钢丝还挺结实的。


235B在消费级显卡上能跑,但不是无痛:

  • 必须量化(AWQ是目前最稳的)
  • 跨节点必须有100G网络
  • 部署前记得查PCIe状态
  • 显存吃到95%没问题

如果你有条件上单机4卡或8卡,别折腾跨节点。我就是没条件硬上的。

有问题评论区问。


踩坑系列

编辑于 2026-04-05 · 著作权归作者所有