Top
首页 > 网络和信息安全 > 重磅推荐 > 正文

Mellanox HDR 200G InfiniBand 深度学习加速引擎结合NVIDIA 技术实现对人工智能 (AI) 平台应用两倍加速

将最先进的 NVIDIA GPU、Mellanox 的 InfiniBand网络、GPUDirect RDMA技术 和NCCL通信库相结合以训练神经网络,已成为扩展深度学习框架(如 Caffe、Caffe2、Chainer、MXNet、TensorFlow 和 PyTorch)的事实标准。借助Mellanox SHARP 技术和 HDR InfiniBand网络,可以卸载并加速深度学习训练的数据聚合操作,从而将性能提高至两倍。
发布时间:2019-03-19 18:03        来源:赛迪网        作者:

【赛迪网讯】2019 年 3 月 19 日, MellanoxTechnologies, Ltd.是面向数据中心服务器和存储系统的高性能、端到端互连解决方案的领先供应商,该公司今天宣布,其采用“可扩展分层聚合和归约协议”(SHARP)™技术的 HDR 200G InfiniBand 创造了新的性能记录,使深度学习操作性能提高了一倍。Mellanox 网络计算 SHARP技术与 NVIDIA® V100 Tensor Core GPU 技术以及聚合通信函数库 (NCCL) 的结合,为深度学习和人工智能应用带来了领先的效率和可扩展性。

将最先进的 NVIDIA GPU、Mellanox 的 InfiniBand网络、GPUDirect RDMA技术 和NCCL通信库相结合以训练神经网络,已成为扩展深度学习框架(如 Caffe、Caffe2、Chainer、MXNet、TensorFlow 和 PyTorch)的事实标准。借助Mellanox SHARP 技术和 HDR InfiniBand网络,可以卸载并加速深度学习训练的数据聚合操作,从而将性能提高至两倍。

通过与 NVIDIA 合作,并在 Mellanox 的性能实验室进行测试验证,使用 Mellanox HDRInfiniBand Quantum 交换机连接 4 台系统主机,每台主机使用 8 个采用 NVLink 互连技术的 NVIDIA V100 TensorCore GPU 和一片ConnectX-6 HDR 网卡,并通过将 SHARP 的本地流聚合功能与 NVIDIA 最新的 NCCL 2.4 通信库(该库现在可以充分利用Mellanox网络提供的双向带宽)集成,实现了 19.6Gb/s 的有效归约带宽。在使用相同硬件配置的情况下,与NVIDIA当前基于树型通信结构的实现相比,SHARP实现了两倍的带宽性能。

在更常见的系统配置中,如果每个主机系统中有4 个HCA卡用于各种工作的负载均衡,其中 SHARP 和 NCCL 的初始计算将会产生70.3GB/s的流量。对于更高密度的GPU系统

,如 NVIDIA DGX-2,其每个系统节点中有 16 个采用 NVLink 技术的 NVIDIA V100 Tensor Core GPU,Mellanox的网络计算功能和全双向带宽更将被用的淋漓尽致。

MellanoxTechnologies 市场副总裁 Gilad Shainer 表示:“我们与 NVIDIA 的长期合作为我们带来了强大的解决方案,这些方案充分利用 Mellanox InfiniBand网络的卓越性能,包括 GPUDirectRDMA技术,以及集成在NCCL中的网络计算技术,为人工智能应用提供了两倍于以往的性能。HDR InfiniBand网络计算加速引擎(包括SHARP 技术)为 HPC 和人工智能工作负载提供了优异的性能和可扩展性。”

NVIDIA 副总裁兼加速计算总经理 Ian Buck 表示:“Mellanox 的解决方案和我们的开源聚合通信函数库 NCCL的整合,极大地增强了 NVIDIA 无与伦比的 CUDA-X 加速库的性能。我们携手合作,共同提供完整解决方案,确保数据中心内要求最为苛刻的人工智能应用能够从尖端性能和扩展效率中受益。”

专题访谈

合作站点
stat