
官方说235B要A100起步,我用4张魔改4090硬跑起来了
第一次尝试:当场跪了
FP16加载模型。
进度条走到47%,OOM。
235B的模型FP16大概470G。我4张卡加起来才192G。这数学不是我说的,是GPU说的。
行,量化吧。
第二次:能跑了,但慢到怀疑人生
下了个AWQ量化版,模型90G,塞进去了。
发了个测试请求,等了半天出结果。一看监控:TPOT 200ms。
200毫秒一个token。生成100个token要20秒。这速度用户早关页面了好吗。
问题在哪?
哦,我两张卡在150服务器,两张卡在161服务器,中间走万兆网。235B有100多层,每层的forward都要跨节点同步。延迟叠起来能不慢吗。
万兆理论带宽10Gbps,听起来够用。但那是理论。实际跑起来,TCP的开销、vLLM的调度、Ray的通信协议,一层层吃掉性能。200ms的TPOT,80%的时间都在等网络。
第三次:上100G网卡
我去淘宝看了看100G Mellanox网卡的价格,倒吸一口凉气。
然后发现有种东西叫拆机卡,二手的,一半价格。又发现有种东西叫DAC线,不用光纤,两台机器直连,再省一笔。
最后2张网卡+1根DAC线,5000块搞定。
换上之后,TPOT从200ms干到了42ms。
4.7倍。就换了张网卡。
跑起来之后长这样

GPU利用率67-71%,显存46.6G/48G,温度60-65度。显存占用率96.7%,走得是钢丝,但钢丝上走了一周没掉下来。
实测数据
不整那些虚的,直接上数据:
基准测试(4K上下文):
| 并发 | 吞吐量 | TPOT |
|---|---|---|
| 1 | 41 tok/s | 23ms |
| 8 | 183 tok/s | 42ms |
| 64 | 488 tok/s | 123ms |
峰值488 tok/s,64并发。单请求23ms一个token,生成500字大概10秒出头。能用了。
32K长上下文8并发压测:
连续跑了72小时,80000+次请求,成功率100%,0报警。
这是真实的业务场景——用户扔进来一篇30K的文档问问题,系统3秒内给出第一个字,然后每秒40多个字蹦出来。体验还行。
算笔账
硬件我花了多少:
- 4张魔改48G 4090:10万
- 2张100G网卡+DAC线:5000
- 服务器两台:利旧的,0
总共10.5万。
云上租同样的算力(4×A100 80G):
- AutoDL大概60块一小时
- 一天用8小时=480块
- 一个月=1.4万
- 一年=17万
自己买硬件,7个月回本。
当然,运维是隐形的。Ray集群、vLLM版本兼容、网络调优、监控告警,这些都是我兼职干的。好处是自己的东西,出问题我知道怎么修。
几个踩过的坑
坑1:万兆真的不够
跨节点TP,100G是起步价。我试过万兆,TPOT 200ms起步,用户体验就是”这AI是不是卡死了”。
没有100G网卡就别折腾跨节点TP了,单机4卡或者老老实实租云。
坑2:PCIe悄悄降级了
这个坑最隐形。我三台服务器之前PCIe全部降级到1.0x,排查了一周才发现是BIOS设置问题。
一个命令自查:`lspci -vvv | grep LnkSta`,看到2.5GT/s就是降级了。正常应该是16GT/s。
坑3:显存95%是极限
刚开始设90%,长上下文偶尔OOM。改成95%反而稳了。
96.7%满载确实是在走钢丝,但走了一周没掉下来,说明钢丝还挺结实的。
235B在消费级显卡上能跑,但不是无痛:
- 必须量化(AWQ是目前最稳的)
- 跨节点必须有100G网络
- 部署前记得查PCIe状态
- 显存吃到95%没问题
如果你有条件上单机4卡或8卡,别折腾跨节点。我就是没条件硬上的。
有问题评论区问。
踩坑系列:
- 4090魔改48G半年体验:矿卡靠谱吗?
- PCIe悄悄降级到1.0:三台服务器全中招
- 万兆换100G踩坑记:换了网卡还是慢?
- 一个参数TPOT减半:kv-cache-dtype fp8真香