如何配置一台高效的GPU深度学习服务器

蜗牛美国服务器 2023-06-29 37 0

目前GPU深度学习服务器在AI、视频处理、科学计算等领域都有广泛应用。随着NVIDIA推出更多的GPU硬件和工具软件，如何配置一台属于自己的GPU服务器，在开发者的工作中成为了重中之重。

现今，日益完善的深度学习技术和-AI-服务愈加受到市场青睐。与此同时，数据集不断扩大，计算模型和网络也变得越来越复杂，这对于硬件设备也提出了更为严苛的需求。如何利用有限的预算，最大限度升级系统整体的计算性能和数据传输能力成为了最为重要的问题。

GPU的重要性在于：

DL中的大多数计算是矩阵运算，如矩阵乘法。如果在CPU上完成，它们可能很慢。

由于我们在一个典型的神经网络中进行了数千次这样的操作，因此慢速度真的加起来就更慢了。

GPU相当方便地能够并行运行所有这些操作。它们有大量的内核，可以运行更多的线程。

GPU还具有更高的内存带宽，使其能够一次对一堆数据执行这些并行操作。

GPU-的选择

熟悉深度学习的人都知道，深度学习是需要训练的，所谓的训练就是在成千上万个变量中寻找最佳值的计算。这需要通过不断的尝试识别，而最终获得的数值并非是人工确定的数字，而是一种常态的公式。通过这种像素级的学习，不断总结规律，计算机就可以实现像人一样思考。因而，更擅长并行计算和高带宽的-GPU，则成了大家关注的重点。

GPU-一个比较重要的优势就是他的内存结构。首先是共享内存。在-NVIDIA-披露的性能参数中，每个流处理器集群末端设有共享内存。相比于-CPU-每次操作数据都要返回内存再进行调用，GPU-线程之间的数据通讯不需要访问全局内存，而在共享内存中就可以直接访问。这种设置的带来最大的好处就是线程间通讯速度的提高（速度：共享内存>>全局内存）。

而在传统的CPU构架中，尽管有高速缓存（Cache）的存在，但是由于其容量较小，大量的数据只能存放在内存（RAM）中。进行数据处理时，数据要从内存中读取然后在-CPU-中运算最后返回内存中。由于构架的原因，二者之间的通信带宽通常在-60GB/s-左右徘徊。与之相比，大显存带宽的-GPU-具有更大的数据吞吐量。在大规模深度神经网络的训练中，必然带来更大的优势。

另一方面，如果要充分利用-GPU-资源处理海量数据，需要不断向-GPU-注入大量数据。目前，PCIe-的数据传输速度还无法跟上这一速度，如果想避免此类“交通拥堵”，提高数据传输速度可以选择应用-NVlink-技术的--GPU-卡片。

NVLink-是目前最快的-GPU-高速互联技术，借助这种技术，GPU-和-CPU-彼此之间的数据交换速度要比使用PCIe 时快-5-到-12-倍，应用程序的运行速度可加快两倍。通过-NVLink 连接两个-GPU-可使其通信速度提高至-80-GB/s，比之前快了-5-倍。

其中-Nvidia-的-Volta-架构计算卡使用的-NVLink-2.0-技术速度更快（20-25Gbps），单通道可提供-50-GB/S-的显存带宽。

而且就目前而言，越来越多的深度学习标准库支持基于-GPU-的深度学习加速，通俗点描述就是深度学习的编程框架会自动根据-GPU-所具有的线程/Core-数，去自动分配数据的处理策略，从而达到优化深度学习的时间。而这些软件上的全面支持也是其它计算结构所欠缺的。

简单来看，选择-GPU-有四个重要参数：浮点运算能力、显存、数据传输与价格。

对于很多科学计算而言，服务器性能主要决定于-GPU-的浮点运算能力。特别是对深度学习任务来说，单精浮点运算以及更低的半精浮点运算性能则更为重要。如果资金充足的情况下，可以选择应用-NVLink-技术单精计算性能高、显存大的-GPU-卡片。如果资金有限的话，则要仔细考量核心需求，选择性价比更高的-GPU-卡片。

内存大小的选择

心理学家告诉我们，专注力这种资源会随着时间的推移而逐渐耗尽。内存就是为数不多的，让你保存注意力资源，以解决更困难编程问题的硬件之一。与其在内存瓶颈上兜转，浪费时间，不如把注意力放在更加紧迫的问题上。如果你有更多的内存，有了这一前提条件，你可以避免那些瓶颈，节约时间，在更紧迫问题上投入更多的生产力。

所以，如果资金充足而且需要做很多预处理工作，应该选择至少和-GPU-内存大小相同的内存。虽然更小的内存也可以运行，但是这样就需要一步步转移数据，整体效率上则大打则扣。总的来说内存越大，工作起来越舒服。

强大的性能

R4220-8GX 是一款基于Intel® Xeon® 可扩展处理器的高性能计算平台，支持8个NVLINK GPU加速器和6TB的内存，单精度浮点计算224TFLOPS、双精度浮点计算112TFLOPS, 让用户体验强大的计算性能。

灵活的配置

为更加贴切的满足各种应用需求，客户可根据需求选择支持16个2.5寸SATA/SAS硬盘，网络选择多样化，可选择支持双千兆、四千兆、双千兆+双万兆搭配，所有网络支持管理复用，满足各种不同的网络应用场景。

优化的散热

整机结构布局充分考虑优化散热和节约功耗，支持高温环境。关键部件根据发热量采用特殊设计，在保持性能的同时可以降低风扇转速，从而减低功耗和噪音。

合理的扩展

在支持4-8块NVLINK的同时，还可有1个PCI-E插槽可用，可扩展100Gb infiniband HCA、Nvme SSD等、具有非常好的灵活性和兼容性。

便捷的管理