人工智能、机器学习和深度学习的数据中心实践

对人工智能、机器学习和深度学习应用程序的强烈需求对数据中心的性能、可靠性和可伸缩性提出了挑战,特别是当架构师模仿公共云的设计以简化向混合云和内部部署的转换时。


GPU( 图形处理单元)服务器现在很普遍,GPU 计算周围的生态系统正在迅速增长,以提高 GPU 工作负载的效率和可扩展性。然而,在避免存储和网络中的潜在瓶颈的同时,也有一些技术可以大大提高 GPU 的利用率。


人工智能、机器学习和深度学习的数据中心实践


Excelero 首席技术官 SvenBreuner 和首席建筑师 KirillShoikhet 提供九种更好的实践,为人工智能、机器学习和深度学习做准备。


数据点 1:了解目标系统性能、投资回报和可伸缩性计划。


通过这种方式,它们可以与数据中心的目标相匹配。随着人工智能成为核心业务的重要组成部分,大多数组织从最初的小预算和少量培训数据集开始,为系统在基础设施方面的无缝和快速增长做好准备。需要建立选定的硬件和软件基础设施,以实现灵活的横向扩展,以避免在每一个新的增长阶段发生破坏性变化。数据科学家和系统管理员之间的密切合作对于理解性能需求至关重要,基础设施可能需要随着时间的推移而发展。


数据点 2:评估集群中的多个 GPU 系统。


在具有多个 GPU 的服务器上,系统内可以实现高效的数据共享和通信,并且具有成本效益,而参考设计假定将来将在集群中使用它,并且可以在一台服务器中支持多达 16 个 GPU。多 GPU 服务器需要准备好以非常高的速率读取传入的数据,以保持 GPU 的满载,这意味着它需要超高速的网络连接,直到它训练数据库的存储系统。但在某种程度上,单台服务器不足以在合理的时间内通过不断增长的培训数据库工作,因此在设计中建立共享存储基础设施将使增加 GPU 服务器变得更容易,因为人工智能、机器学习和深度学习应用程序将扩展。


数据点 3:评估人工智能工作流各个阶段的瓶颈。


数据中心基础设施需要能够同时处理人工智能工作流的各个阶段。对于成本效益高的数据中心来说,拥有可靠的资源调度和共享概念至关重要,因此,当一群数据科学家获得需要摄入和准备的新数据时,其他人将培训他们可用的数据,而在其他地方,以前生成的模型将被用于生产。Kubernetes 已经成为解决这一问题的主要解决方案,使得云计算技术很容易用于内部部署,并使混合部署成为可行。


数据点 4:查看用于优化 GPU 利用率和性能的策略。


许多人工智能、机器学习和深度学习应用程序的计算密集型特性使得基于 GPU 的服务器成为一种常见的选择。然而,尽管 GPU 能够有效地从内存中加载数据,但培训数据集通常远远超过内存容量,大量涉及的文件变得更加难以摄取。在 GPU 服务器和存储基础设施之间,在 GPU 数量和可用 CPU 功率、内存和网络带宽之间实现最佳平衡至关重要。



数据点 5:支持培训和推理阶段的要求。


在一个典型的训练系统中,"观察猫" 电脑执行数字游戏(或者更确切地说,GPU) 需要看到许多不同颜色的猫。由于包含大量并行文件读取的访问特性,NVMe 闪存通过提供超低访问延迟和每秒大量读取操作来满足这些要求。在推理阶段,挑战是相似的,因为对象识别通常是实时完成的,这是 NVMe 闪存也具有延迟优势的另一个用例。


数据点 6:考虑并行文件系统和替代方案。


并行文件系统,如 IBM 的谱规模或 BeeGFS,可以帮助有效地处理大量小文件的元数据,并通过在网络上每秒交付数万个小文件来提高机器学习数据集的分析速度。鉴于训练数据的只读性质,通过向 GPU 服务器直接提供数据和通过 Kubernetes 等框架共享数据,也可以完全避免并行文件系统。


数据点 7:选择正确的网络骨干。


人工智能、机器学习和深度学习通常是一种新的工作负载,重新安装到现有的网络基础设施中,往往无法支持复杂计算和快速高效数据传输所需的低延迟、高带宽、高消息速率和智能卸载。基于 RDMA 的网络传输 ROCE(RDMA Over Ethernet) 和 Infiniband 已成为满足这些新需求的标准。


数据点 8:考虑四种存储系统的性能 - 价格比杠杆。


(1) 高读取吞吐量和低延迟的结合并不限制混合部署,可以在云平台或内部部署资源上运行。

为人工智能、机器学习和深度学习做好准备的数据中心实践

(2) 数据保护。人工智能、机器学习和深度学习存储系统通常比数据中心的其他系统快得多,因此在完全故障后从备份中恢复可能需要很长时间并中断正在进行的操作。深度学习和培训的只读特性使得它非常适合分布式擦除编码。在这种存储中,最大的容错能力已经内置到主存储系统中,原始容量和可用容量之间的差别很小。


(3) 容量弹性可以适应任何尺寸或类型的驱动器,因此随着闪存介质的发展和闪存驱动特性的扩展,数据中心在最重要的情况下可以实现大规模的性能与价格比。


(4) 属性弹性。由于人工智能数据集需要随着时间的推移而增长,以进一步提高模型的准确性,存储基础设施应该达到一个近乎线性的缩放因子,在这种情况下,每增加一次存储都会带来相同的增量性能。这使得企业能够从小规模开始,并根据业务需求不间断地增长。


数据点 9:设置基准和性能指标以帮助实现可伸缩性。


例如,对于深度学习存储,衡量标准可能是每一 GPU 每秒处理 X 文件(通常为数千或数万),其中每个文件的平均大小为 Y(从几十到数千 KB)。预先建立适当的度量有助于从一开始就确定体系结构方法和解决方案,并指导后续扩展。




分享到:
0
【慎重声明】凡本站未注明来源为"每日资讯网"的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行!