人工智能如火如荼,如何选择GPU服务器?
经常有朋友在咨询如何选择GPU来配置用于深度学习或计算加速的GPU服务器,今天就与大家来分享一下如何选择GPU服务器?我们在选择GPU服务器之前,先来跟大家介绍下常见的用于深度学习专业的计算加速卡-NVIDIA Tesla 系列 GPU和 GPU 服务器。
一、NVIDIA Tesla 系列的GPU,按总线接口类型,可以分为 NV-Link接口、传统PCI-e 总线接口 两种。
1、NV-Link接口类型的 GPU
典型代表是NVIDIA V100,采用 SXM2接口。在DGX-2上有SXM3的接口。NV-Link总线标准的GPU服务器可以分为两类,一类是NVIDIA公司设计的DGX超级计算机,另一类是合作伙伴设计的NV-Link接口的服务器。DGX超级计算机不仅仅提供硬件,还有相关的软件和服务。
2、传统PCI-e总线接口的 GPU
目前NVIDIA专门用于专业计算加速的Tesla GPU 主要有:Tesla P4/P40、P100、V100以及最新的图灵架构 Tesla T4 这几款。其中比较薄和只占一个槽位的P4和T4,通常用于Inference,目前也已经有成熟的模型进行推理和识别。
二、传统PCI-e总线的GPU服务器也分为两类:
一类是OEM服务器,经过NVIDIA官方测试认证的比如H3C、DELL、Lenovo、曙光、浪潮、华为等其他国际品牌;
另一类是非OEM的服务器,也包括很多种类。
选择服务器时除了分类,还要考虑性能指标,比如精度、显存类型、显存容量以及功耗等,同时也会有一些服务器是需要水冷、降噪或者对温度、移动性等等方面有特殊的要求,就需要特殊的服务器。
三、如何选择GPU服务器?
选择GPU服务器时首先要考虑业务需求来选择适合的GPU型号。在HPC高性能计算中还需要根据精度来选择,比如有的高性能计算需要双精度,这时如果使用P40或者P4就不合适,只能使用V100或者P100;同时也会对显存容量有要求,比如石油或石化勘探类的计算应用对显存要求比较高;还有些对总线标准有要求,因此选择GPU型号要先看业务需求。
GPU服务器人工智能领域的应用也比较多。在教学场景中,对GPU虚拟化的要求比较高。根据课堂人数,一个老师可能需要将GPU服务器虚拟出30甚至60个虚拟GPU,因此批量Training对GPU要求比较高,通常用V100做GPU的训练。模型训练完之后需要进行推理,因此推理一般会使用P4或者T4,少部分情况也会用V100。
当GPU型号选定后,再考虑用什么样GPU的服务器。这时我们需要考虑以下几种情况:
第一、 在边缘服务器上需要根据量来选择T4或者P4等相应的服务器,同时也要考虑服务器的使用场景,比如火车站卡口、机场卡口或者公安卡口等;在中心端做Inference时可能需要V100的服务器,需要考虑吞吐量以及使用场景、数量等。
第二、 需要考虑客户本身使用人群和IT运维能力,对于BAT这类大公司来说,他们自己的运营能力比较强,这时会选择通用的PCI-e服务器;而对于一些IT运维能力不那么强的客户,他们更关注数字以及数据标注等,我们称这类人为数据科学家,选择GPU服务器的标准也会有所不同。
第三、 需要考虑配套软件和服务的价值。
第四、 要考虑整体GPU集群系统的成熟程度以及工程效率,比如像DGX这种GPU一体化的超级计算机,它有非常成熟的从底端的操作系统驱动Docker到其他部分都是固定且优化过的,这时效率就比较高。
下面为大家介绍一款DELL GPU服务器:适合企业中小型深度学习应用环境!
PowerEdge R740机架式服务器
针对工作负载加速进行了优化的通用服务器
PowerEdge R740服务器在一个2U双路平台中出色平衡了加速器卡、存储和计算资源,可帮助您最大限度地提高应用程序性能。R740提供多达3个300 W或6个150 W加速器卡,具有多样性功能,可适应几乎任何应用程序并为VDI部署提供优异的平台。R740提供多达16个2.5"或8个3.5"驱动器以及iDRAC9,因此您可以根据需求进行扩展并简化整个IT生命周期。
合适的工作负载:
VDI
专用云
人工智能
机器学习
借助Dell EMC PowerEdge产品组合实现IT转型
R740是一款针对工作负载加速进行了优化的通用服务器。凭借其多功能性,R740可帮助您实现数据中心转型,顺应VDI、人工智能和软件定义存储(SDS)的发展趋势。
借助经过验证、预捆绑的定制就绪节点,简化并加快VMware vSAN™部署。
利用英特尔®至强®可扩展处理器扩展计算资源,与前一代至强处理器相比,处理核心数量增加27 %,带宽提高50 %。*
利用3个双宽GPU扩展VDI部署,支持比R730高出50 %的用户数量。*
使用针对启动进行了优化的内置M.2固态硬盘,释放存储空间。
利用智能嵌入式管理实现自动化,提高工作效率
Dell EMC自动化和智能管理意味着您可以减少花费在日常维护上的时间,专注于更重要的优先事项。
通过主动诊断和自动修复,最大限度地延长正常运行时间并将工作效率提高多达90 %。*
借助适用于VMware® vSphere®、Microsoft® System Center和Nagios®的轻松集成,利用现有的管理控制台。
使用免代理Dell EMC iDRAC9进行自动、高效的管理,帮助提高工作效率。
使用OpenManage下一代控制台和服务器配置文件简化部署,快速、可扩展地配置和准备服务器。
借助全面保护增强数据中心
Dell EMC提供具有网络弹性的全面架构,在每台服务器中嵌入安全性,确保您的数据安全无虞。
使用全新配置锁定功能,防止服务器配置和固件被恶意更改。
本地存储具备系统擦除功能,在您调整用途或淘汰服务器时,帮助您保护数据隐私。
自动化更新会在检查文件依赖项和正确的更新顺序之后,再独立于操作系统/虚拟机管理程序部署更新。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:niceseo99@gmail.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
评论