如何配置一台适用于深度学习的工作站?

刚买两块Titan Z GPU准备搞搞深度学习,结果原来的工作站功率不够,带不动,所以准备组装一台新工作站。求大神们给点意见,最好给个完整的list,我好照着买,谢谢。(本人新手,也不怎么会组装,最好是半成品机器,然后我组装一下就好的那种)
关注者
2936
被浏览
295697

40 个回答

学习机器学习相关的算法和演练流行的平台或框架,不需要特别强大的设备。 所以对深度学习而言,基本的需求则是:

内存大于:8G

一片以上带CUDA单元的显卡。

操作系统:ubuntu 16.04

这对大多数人来说都不难,简单的升级一下自己手上的电脑即可:一般就三步:

1.加显卡: 1060 6G<省钱,入门>,1080ti<性价比最高>。勿买3G显存版本,好多CNN的sample 都跑不起来。

2.加内存: 买来插上即可

3.换电源:单显卡>400W,双显卡>700W。


基本来说这样就足够了。

自打amd的ryzen出来,各大框架现在已经做了/正在做AMD的兼容性修改。就现在这个时间点上来说,对于1-2卡的应用,AMD平台的价格和性能优势是杠杠的。

对于3-8卡的场景,大多不缺钱,价格似乎也不要紧。所以以前捡垃圾的内容不再适用了。就此删除掉。


软件部分:

TensorFlow/PyTorch一类的系统需要Ubuntu作为运行环境,这对大多数习惯了windows编辑器的同学来说,直接使用vi可能是最大的障碍。所以有一个WinSSHFS会极大的方便实际的开发工作。最近TensorFlow也支持了windows的GPU加速。似乎这个障碍也不存在了。

对Windows端的py编辑,比较推荐pycharm或则是VS Code.

PyTorch用到了S3的存储,因此有一个能出墙的小工具也是必要的。


破除几个误区:

1.所谓深度学习机器:没有这种特殊的机器,有带CUDA显卡的机器就是可以拿来学深度学习的,在售的多数所谓的科学计算机只是CPU和显卡比较多而已(超算机不在讨论之列)。

2.为了深度学习组专用平台: 没有这个必要,只是学习的话,随便找个电脑加一片显卡即可。

3.深度学习是不是要特别高的配置:我见过有个兄弟用笔记本(MBP)玩RCNN也玩得很high。

4.跑时间长了会不会烧掉? 完全没有烧掉机器的可能,最多是你散热不行机器停机或是死机就是极限了,遇到所谓烧板子的情况与你的负载关系不大,多半是板子本身就坏掉了。

2路GPU配置单:

四路GPU配置单:

(1080ti换成Titan也没问题)
ps:某东这是要给推广费了吧

GPU的选择是重点

GPU的选择:

GTX

下面给出1080、1070、1060、Titan X、Titan X 2016的几项指标的对比:

TFLOPS(teraFLOPS FLoating-point Operations Per Second每秒浮点运算次数)

1080ti 真是牛B,11.5TFLOPS,11GB显存

VRAM (显存)

CUDA Cores

以上几幅图转自:GTX Titan X comparison

一般消费级主板虽然有四个x16规格的插槽,但是当你插上四路GPU时,事实上每路只有x8,所以这其实没有最大化四路GPU的性能。 CPU和主板: 其中一个制约因素:单U的max PCI-E lanes。单U最大40lanes(即使服务器的CPU),也就是即使有4个规格的x16,只能最多达到2路x16加一路x8。不过,芯片组其实也可以扩充一部分lanes。(x99可以扩宽2.0的8lanes,z170可以扩充3.0的20lanes) 有些主板上会搭载PLX chips,这个芯片是相当于是“交换机”的功能,并没有增加额外的lanes。明确提出搭载PLX的是华擎X99 WS-E/10G。

内存、电源、硬盘、机箱等: 至于,内存、电源、硬盘什么的,就比较容易了,根据自己预算,自行权衡,内存建议DDR4 64G,CPU不可太差不然会是瓶颈,机箱的话海盗船的都还不错。电源其实还是要买个比较稳定的,因为会有“无休止”的training。








新旧Titan对比:


为什么?