除了GPU，云端训练还有什么选择_TMT圈_互联网

除了GPU，云端训练还有什么选择

前不久，亚马逊科技宣布全面推出Amazon Elastic Compute Cloud(Amazon EC2)DL1实例，该实例由英特尔于2019年收购的Habana Labs的Gaudi加速器提供支持。

发布时间：2021-12-07 14:56 来源：作者：中文资讯网

前不久，亚马逊科技宣布全面推出Amazon Elastic Compute Cloud(Amazon EC2)DL1实例，该实例由英特尔于2019年收购的Habana Labs的Gaudi加速器提供支持。

Habana与亚马逊之间的这项合作其实从去年开始就已经展开了，在去年的Invent大会上，Gaudi就已经打入了亚马逊的EC2。到了今年10月，采用了Gaudi的AWS EC2实例正式被投入应用，并被命名为DL1实例。这也标志这亚马逊首个不基于GPU的AI训练实例正式被投入使用。

Habana Labs为Amazon EC2 DL1实例搭载Gaudi AI加速器并提供强劲动力,新的实例专为深度训练模型而设计。（来源：英特尔）

不基于GPU的AI训练

目前，AI云端训练大多是由GPU所支持的，GPU能够支持更大规模的数据模型，让AI开发者能够在更短时间内实现更多AI突破。

而由海量数据构成的AI时代所促生的大量新兴应用场景，他们往往更需要针对特定场景所设计的芯片，因此，AI训练芯片也成为了除GPU以外的选择。需要注意的是，AI训练是基于大量数据来构建的，而为了提高模型的预测准确性，数据科学家和机器学习工程师正在构建越来越大、越来越复杂的模型。为了保持模型的预测准确性和高质量，这些工程师需要经常调整和重新训练他们的模型。而这需要大量的高性能计算资源，也导致了基础设施成本增加。

从实际情况中看，据Habana介绍，市场上对云端和本地部署数据中心的AI训练有大量需求。根据AI/机器学习基础设施的用户的反馈中显示，56%的AI/机器学习客户表示成本是最大的问题。而Gaudi正是为了解决这个问题而设计的。

“Gaudi是为优化AI训练而定制的处理器，而GPU是以AI工作量为导向的图形处理器”，Habana Labs中国区总经理于明扬介绍：“Gaudi专为高效和低成本的人工智能效能而设计，也为人工智能和可编程的Tensor Core Processors(张量核心处理器)而定制。”

亚马逊方面也同样公布了一些关于张量核心处理器的描述，其首席布道师Jeff Barr表示：“这些是专为ML训练而设计的VLIW SIMD（超长指令字/单指令多数据）处理单元，TPC是C可编程的，尽管大多数用户会使用更高级别的工具和框架。”

根据英特尔官方资料显示，定制化的AI训练芯片与通用GPU相比，新的DL1实例使用专门构建的Gaudi加速器，通过以更低的成本提供更高的计算效率来加速机器学习模型训练。DL1实例配备多达8个Gaudi加速器、256 GB高带宽内存、768 GB系统内存、第二代亚马逊自定义英特尔至强可扩展（Cascade Lake）处理器、400 Gbps网络吞吐量和多达4TB的本地NVMe贮存。

采用了这种设计的芯片，使得Gaudi在性能表现上不输GPU。所以，当Habana将这些功能进行叠加后，这些创新转化为比用于训练常见机器学习模型的最新GPU驱动的Amazon EC2实例高40%的性价比。从而，解决了云端和数据中心市场在布局AI训练时对成本的顾虑。

Gaudi如何实现高性价比

Gaudi的架构采用了全新的设计以提高效率，实现了更高的资源利用率并且包含更少的系统组件，降低了AI训练成本。

首先从成绩上看，Habana在其新闻稿中称，Habana认识到MLPerf性能基准测试的重要性，用户可以查找在6月份发布的针对8个基于Gaudi的系统进行基准测试的1.0提交结果，与DL1.24xlarge非常类似。

这里所提到的MLPerf HPC 1.0是用于衡量高性能计算中 AI 性能的行业基准测试，该测试作为业内最权威的AI基准测试，吸引了很多国际厂商、研究机构参与其中，在数据中心推理、边缘推理、集群训练和单机训练各类AI场景下，不断突破AI系统性能。

但在此次MLPerf提交结果中，Habana并没有应用数据封装或层融合等额外的软件优化功能来提高性能。对此，于明扬表示：“Habana这样做的原因是公司将重心放在了客户需求以及 AWS的合作上面。新闻稿中的表格体现了性价比指标，客户可以了解即使没有这些优化，客户也可以进行更多培训并减少支出。对客户而言，重要的是：客户可以做多少AI训练，以及花费是多少。”

在这次评估中，我们考虑了两种流行的模型：ResNet-50 和 BERT-Large。

于明扬补充道：“我们必须积极提升我们的软件能力。我们现在支持24种流行的AI模型，并且能够通过我们的Gaudi解决方案集有效地为业界最大的CSP AWS提供服务。”

Gaudi的价值主张立足于性价比和易用性。Habana提供的架构选项旨在提升效率，不会让终端用户迁移到Gaudi的工作产生困难。根据Habana官方介绍，客户可以使用随附的 Habana SynapseAI SDK 快速轻松地开始使用 DL1 实例，该 SDK 与领先的机器学习框架（例如 TensorFlow 和 PyTorch）集成，帮助客户将他们当前在基于 GPU 或基于 CPU 的实例上运行的现有机器学习模型无缝迁移到 DL1 实例，只需更改最少的代码。

除此之外，Habana还建立了开发者社区和开源来支持用户在“易用性”方面的需求。在这些方面的提高，使得采用Gaudi的AI训练可以实现较高的性价比。

Gaudi还能做什么

Gaudi所具有的性价比优势，也让很多厂商愿意去尝试采用AI芯片来完成AI训练。从应用场景上看，Gaudi新实例支持自然语言处理和计算机视觉应用程序，包括对象检测和图像分类。

Gaudi正在处理的一些应用程序和类别，应用案例具体还包括：

1.对象检测和分割:缺陷检测（工业领域）、错误检测和工业管理（零售领域）、医学扫描和影像（医疗领域）

2.图像分类:自动驾驶汽车细分（交通领域）、照片和视频识别（网站和客户端领域）

3.自然语言处理：主题查询、问答处理、情感分析

据了解，Gaudi参考模型存储库包含 20 个高需求模型。而从Habana所规划的路线图来看，Habana还将继续对其进行扩展，包括其软件功能。

（Habana Gaudi优化路线图）

另外，据Habana团队透露，他们正在开发下一代Gaudi2 AI处理器，新处理器会将Gaudi架构从16nm提升到7nm。同时，公司方面也表示：“为了我们的最终客户的利益，进一步提高性价比，同时保持相同的架构和完全利用我们与Gaudi构建的相同SynapseAI软件和生态系统。”

Gaudi2 AI处理器将于2022年推出，它可以提供7纳米处理器的效率，同时，使用Gaudi优化软件的用户还将能够在Gaudi2上使用相同的软件，最大化用户已付出的投资。

从Habana与亚马逊联手合作，到现在他们之间的合作项目开始逐渐落地，并得以应用，便可以预见云端AI训练的一股新势力正在崛起。

关键词阅读:

云计算

除了GPU，云端训练还有什么选择

关键词阅读:

延伸阅读

每日必读

专题 访谈