想在家部署AI服务器,希望可以跑中等大小模型(32b),预算5万左右,想知道怎么配置硬件?
5万即使在内存涨价的现在(20260110,参考价格来自闲鱼),也够跑671b的q4量化版,或者minimax2.1的满血版了,32b的模型甚至不用考虑内存价格,因为根本用不到内存,随便插一根就行了,我不明白前面的回答为什么都会扯到内存价格上,果然当别人装逼装到你擅长的领域时......
正经回答,如果题主的“跑”,是指推理,不包含微调,那32b q4量化的模型大概20g,8k上下文下大概24g显存,跑着玩一张3090就够了,显卡5000,随便组一台pc插上就行。要加上下文,32k上下文占30g显存,3090换成4080 32g魔改版(10000左右),不喜欢魔改卡可以用rtx pro 4500 32g (15000左右),128k上下文占约65g显存,两张32g的卡即可(125k上下文,或者用调优手段),不会超过3万,对平台的要求就只有两条x16的插槽,cpu内存用最低配就行。
而不量化的32b模型,128k上下文需要约110g显存,这个需求用4×2080ti 22g比较合适,2080魔改卡的缺点是没有malin算子,但是你跑全精度用不上。
不过在推理上,能用量化模型尽量用量化模型,众所周知,量化带来的精度损失远小于模型规模带来的性能提升,简单来说,全精度32b的性能不如q4 120b模型,提升模型规模远比提高模型精度更能有效提升性能。
综上所述,题主的预算下达成需求绰绰有余,而且完全可以满足更高的要求,其他几个答主的方案我也点评下:
1. v100方案,性价比确实不错,但是v100不支持bf16、int4精度,只能跑int8量化,16g的便宜但是没几个场景能用,32g的性价比不如2080ti 22g,训练我不懂就不点评了。
2. Mac Stadio以及dgx spark或者Amd那个max的,这三者都是统一内存方案,适合没有技术背景的小白入手,学习成本非常低,而且省电、静音,不占空间,这些都是他的优点。但是缺点很简单:性能差。全gpu方案的吞吐量是能达到这种统一内存方案的好几倍的,单路输出来看起来差距不大,但是你如果是多人用,或者是用agent类的应用,并发性能就很重要。总之这块就见仁见智吧。
3. 建议放弃,建议上云,建议用api的这些“方案”,首先不符合题主的需求,题主说了是想本地跑,要么是数据隐私问题,要么合规性问题,不解决问题提什么建议?当然,如果不存在上述问题,那本地跑这个模型确实没什么意义,因为肯定没有api好用...