官方说235B要A100起步，我用4张魔改4090硬跑起来了

第一次尝试：当场跪了

FP16加载模型。

进度条走到47%，OOM。

235B的模型FP16大概470G。我4张卡加起来才192G。这数学不是我说的，是GPU说的。

行，量化吧。

第二次：能跑了，但慢到怀疑人生

下了个AWQ量化版，模型90G，塞进去了。

发了个测试请求，等了半天出结果。一看监控：TPOT 200ms。

200毫秒一个token。生成100个token要20秒。这速度用户早关页面了好吗。

问题在哪？

哦，我两张卡在150服务器，两张卡在161服务器，中间走万兆网。235B有100多层，每层的forward都要跨节点同步。延迟叠起来能不慢吗。

万兆理论带宽10Gbps，听起来够用。但那是理论。实际跑起来，TCP的开销、vLLM的调度、Ray的通信协议，一层层吃掉性能。200ms的TPOT，80%的时间都在等网络。

第三次：上100G网卡

我去淘宝看了看100G Mellanox网卡的价格，倒吸一口凉气。

然后发现有种东西叫拆机卡，二手的，一半价格。又发现有种东西叫DAC线，不用光纤，两台机器直连，再省一笔。

最后2张网卡+1根DAC线，5000块搞定。

换上之后，TPOT从200ms干到了42ms。

4.7倍。就换了张网卡。

跑起来之后长这样

GPU利用率67-71%，显存46.6G/48G，温度60-65度。显存占用率96.7%，走得是钢丝，但钢丝上走了一周没掉下来。

实测数据

不整那些虚的，直接上数据：

基准测试（4K上下文）：

并发	吞吐量	TPOT
1	41 tok/s	23ms
8	183 tok/s	42ms
64	488 tok/s	123ms

峰值488 tok/s，64并发。单请求23ms一个token，生成500字大概10秒出头。能用了。

32K长上下文8并发压测：

连续跑了72小时，80000+次请求，成功率100%，0报警。

这是真实的业务场景——用户扔进来一篇30K的文档问问题，系统3秒内给出第一个字，然后每秒40多个字蹦出来。体验还行。

算笔账

硬件我花了多少：

4张魔改48G 4090：10万
2张100G网卡+DAC线：5000
服务器两台：利旧的，0

总共10.5万。

云上租同样的算力（4×A100 80G）：

AutoDL大概60块一小时
一天用8小时=480块
一个月=1.4万
一年=17万

自己买硬件，7个月回本。

当然，运维是隐形的。Ray集群、vLLM版本兼容、网络调优、监控告警，这些都是我兼职干的。好处是自己的东西，出问题我知道怎么修。

几个踩过的坑

坑1：万兆真的不够

跨节点TP，100G是起步价。我试过万兆，TPOT 200ms起步，用户体验就是”这AI是不是卡死了”。

没有100G网卡就别折腾跨节点TP了，单机4卡或者老老实实租云。

坑2：PCIe悄悄降级了

这个坑最隐形。我三台服务器之前PCIe全部降级到1.0x，排查了一周才发现是BIOS设置问题。

一个命令自查：`lspci -vvv | grep LnkSta`，看到2.5GT/s就是降级了。正常应该是16GT/s。

坑3：显存95%是极限

刚开始设90%，长上下文偶尔OOM。改成95%反而稳了。

96.7%满载确实是在走钢丝，但走了一周没掉下来，说明钢丝还挺结实的。

235B在消费级显卡上能跑，但不是无痛：

必须量化（AWQ是目前最稳的）
跨节点必须有100G网络
部署前记得查PCIe状态
显存吃到95%没问题

如果你有条件上单机4卡或8卡，别折腾跨节点。我就是没条件硬上的。

有问题评论区问。

踩坑系列：

4090魔改48G半年体验：矿卡靠谱吗？
PCIe悄悄降级到1.0：三台服务器全中招
万兆换100G踩坑记：换了网卡还是慢？
一个参数TPOT减半：kv-cache-dtype fp8真香

编辑于 2026-04-05 · 著作权归作者所有

英特尔酷睿Ultra 7 270K Plus/Ultra 5 250K Plus首发评测：一年蛰伏终翻身，游戏与生产力双双进化英特尔酷睿Ultra 5 338H 简测一图看懂 CPU、GPU、内存和显存的关系老黄的担心是对的如果黄仁勋愿意，凭借英伟达目前造算力卡的技术，最高可以造出什么水平的游戏显卡？🥣 喂到嘴！RTX 4060 本地部署 Qwen3.5-9B 新手教程（GPU加速版）MacBook Air M5 深度评测：大龙虾时代，这台轻薄本凭什么成为AI最佳载体？2026年5月该买什么CPU（AMD篇）Qwen3.6 35B A3B 各量化版本消费级显卡上哪个更好？NVIDIA RTX PRO™ 5000 Blackwell 深度测评：48GB vs 72GB，AI 推理怎么选？明明可以做小非得把显卡做那么大是为何？如果黄仁勋愿意，凭借英伟达目前造算力卡的技术，最高可以造出什么水平的游戏显卡？蓝戟 Intel Arc Pro B70 TF评测：32 GB大显存，推理神卡？2026-04-17 AI扫盲系列——3080 20G魔改卡本地大模型的“甜点”之选【装机帮扶站】第1294-1295期：低预算PC用户福音？支持DDR3内存的配置如何组？长鑫存储产能暴涨：比三星海力士加起来都多｜显卡日报6月26日 26年4月，什么CPU值得买？（含天梯图）TCA 51%，MFU 不足 8%——GPU 的隐藏性能损耗畅想下一代内存技术LPDDR6：杀死GDDR的开始！生产力小钢炮：英特尔® 酷睿™ Ultra 7 270K Plus上手体验