Top
首页 > 正文

新华三智算中心解决方案铸就AIGC算网基石

发布时间:2023-02-22 16:34        来源:        作者:中文资讯网

AIGC与ChatGPT简介

随着人工智能技术的不断发展,分析式AI技术持续迭代积累,带来了生成式AI的突破,生成式人工智能技术(AIGC)在原本数据分析的基础上,通过学习数据的产生模式,可以创造出新的样本数据。在此背景下,2022年11月底,OpenAI发布了集代码创作、文本撰写、翻译等功能于一体的ChatGPT模型。ChatGPT是在GPT-3大模型基础之上演化而来,但由于GPT-3存在偏见歧视及安全性风险以及生成内容不符合人类的偏好的问题,所以ChatGPT利用了RLHF方法(人类反馈强化学习)来提升效果,使得对话更符合人类偏好。因此,它被广泛应用于各种场景,包括程序生成、数据分析、内容创作等,而且有较高的认可度和关注度。

AIGC对基础设施的挑战

基础模型(基于大规模数据集和大规模算力训练的大型预训练模型)具备通用性和性能方面优势,已成为AI能力基座。以ChatGPT为例,其根基还是在通用基础大模型底座GPT-3上。训练超大基础模型需要多方面的关键技术作为支撑,算法、算力和数据是AI发展的三驾马车,算法依赖大模型参数的提升以及模型本身的优化,而算力和数据则需要依赖传统的GPU服务器、存储以及网络来实现相互交融并正反馈于算法本身。

首先,我们来看大模型训练对AI算力的需求。伴随大模型的不断升级,模型训练对算力需求也不断增加,约每过3个月就会翻一倍。GPT-3模型(1750亿参数、45TB训练语料、消耗算力3640PFlops/s-Days),PaLM模型(5400亿参数、2.5亿个数据集、消耗算力29600 PFlops/s-Days)。ChatGPT按照1300万/天的访问量,估算需要3万+ GPU。

其次,大模型训练对数据存储也提出了严苛要求。训练过程中会面临显存墙问题(模型是否能跑起来)以及计算/通信墙问题(能否在合理时间内完成训练)。单从显存占用角度来看,单卡80G显存理论支持25亿参数的模型训练(不做ZeRO极端优化),但考虑实际训练时间、数据规模和迭代轮次,需要在数据并行、模型并行和流水线并行之间进行权衡,需要投入更多的GPU卡来满足训练对显存的占用。与此同时,需要对数据集进行本地缓存来加速数据访问(尤其是图像),对存储的性能提出了更高的要求。

最后就是高性能网络方面。大模型训练集群往往采用混合并行(模型并行+数据并行+流水并行)的方式进行训练,GPU集群从存储集群拉去样本数据、GPU节点之间的参数交互,这两个数据传输的流程都需要高性能、低延时的网络作为基础。

新华三智算中心全栈解决方案能力

新华三基于对AIGC全流程技术需求的深刻理解,推出了智算中心全栈解决方案,依靠MLOps、数据管理、版本化管理以及弹性架构等优势,可为广大互联网用户提供业界最全最细致的AI支撑能力。

一、基于绿洲数据平台可以提供数据全流水线管理能力,配合傲飞智算平台可以支持从训练到推理的全生命周期流水线,提供精细化的自动化数据处理以及精细化的模型性能监控调优。

整个AI集群的运转过程可以大致用上图概括:①数据采集→②数据治理→③数据目录→④数据标注→⑤算法开发→⑥模型训练→⑦模型管理→⑧模型推理。其中①②③是由数据平台提供相应能力,后续的一系列流程则需要智算平台进行支撑。值得一提的是,傲飞智算平台可以通过相关性能指标(模型准确率/GPU内存占用/模型大小/吞吐量/延时)进行模型量化:解释在模型调优过程中,数据的变化以及算法的变化,从而使得AI任务端到端可视化。

二、算力基础设施层作为整个AI集群的执行点,需要GPU计算、网络以及存储等产品的全方位支撑,结合AI集群的运转流程,其整体架构如下所示:

该架构整体上分为3个区域:数据资源区、智算训练区以及智算推理区。从数据采集到数据标注均在数据资源完成,而模型训练、模型管理以及模型推理则在另外两个区域完成。数据资源区与智算训练区需要用高性能网络作FullMesh互联,智算训练区的不同GPU节点同样需要FullMesh互联。接下来我们依次看下新华三全面的基础设施能力:

智算训练集群

组建训练集群的服务器大多使用搭载专用GPU模组的标准机,如H3C UniServer R5500 G5。H3C UniServer R5500 G5支持Intel Whitley平台和AMD Milan双平台,最多可以提供128个CPU核心,可最大程度满足训练集群的CPU算力需求。

训练集群将预训练数据集拉取到本地后需要先存储到NVMe SSD里,基于GDS(GDS, GPU Direct Storage),可以通过PCIe Switch将NVMe SSD里的数据直接读取到GPU显存里。

GPU在训练过程中会进行频繁通信,包括P2P通信(1对1)和Collective通信(1对多或多对多)。在节点内,GPU之间的通信互联带宽可达400GB/s。在节点之间,GPU通信使用RDMA网络,通过GDR(GDR, GPU Direct RDMA)技术支持, RDMA网卡可以绕过CPU、内存,直接从远端节点读取数据到GPU显存。

1.png

根据数据集、模型大小的不同,会产生多种训练方式,比如数据并行、模型并行、流水线并行、混合并行等。根据训练方式的不同,训练集群的GPU节点也会进行对应的拆分、组合。为了最大程度复用训练集群资源,在选型时需要保证拓扑均衡的服务器系统架构,一般NVMe硬盘:PCIe Switch:RDMA网卡需要满足4:4:4或8:4:8的配比关系;此外,在集群组网时,推荐使用FullMesh的网络架构。

1.png

H3C UniServer R5500 G5最大支持12个U.2 NVMe SSD(8个支持GDS)、10个X16网卡(8个支持GDR),可灵活支持4张NVMe SSD/网卡或8张NVMe SSD/网卡的配置,当前均有方案在客户侧落地。

一些大型互联网公司还会使用自研GPU Box搭配计算节点的方式组建训练集群,GPU Box里面会搭载专用GPU模组或其他厂商的OAM模组。OAM(OAM, OCP Accelerator Module)是开源的GPU模块,由OCP社区服务器项目组下的OAI(OAI, Open Accelerator Infrastructure)小组开发并制定标准。

OAM包括GPU和UBB,UBB(UBB, Universal Baseboard)是承载GPU的基板,可以在服务器整机中兼容不同厂家的GPU。新华三是OAI 2.0规范制定的重要参与者,并计划后续在R5500 G6上开发可支持不同厂家GPU的OAM模组。

在2023年初,新华三发布了新一代GPU机型R5500 G6,支持Intel Eagle Stream和AMD Genoa平台,PCIe 5.0及400GE网络的加持,相信会给客户带来更高的算力提升。

智算推理集群

GPU推理集群的规模主要取决于业务预期的并发请求,一般会多机多卡多实例部署。针对大规模推理场景,H3C UniServer R5300 G5支持多种类型的GPU方案,包括4 PCIe GPU方案、8 PCIe GPU方案和16 PCIe GPU方案,以应对不同客户不同算力的推理集群搭建需求。

在2022年11月份,新华三发布了基于AMD Genoa平台的GPU服务器R5350 G6,可实现90%的CPU性能提升和50%的内核数量提升;多种类型人工智能加速卡的支持,可应对人工智能不同场景下对异构算力的需求。此外,在2023年上半年,新华三还会发布基于Intel Eagle Stream平台的GPU服务器R5300 G6,请大家拭目以待。

高性能存储

高性能存储一般采用分布式并行文件存储,如新华三CX系列存储。新华三 CX系列存储采用全对称分布式架构,结合IBM Spectrum Scale(原名GPFS, General Parallel File System),可提供高带宽、低延时的存储服务。

高性能网络

新华三提供了多种可选的高性能网络方案,以供各用户不同业务场景应用。

1.2级Clos TH4+TD4组网方案,最大提供1024个200G端口接入能力

2.2级Clos TH4+TH4组网方案,最大提供4096个200G端口接入能力

以上两种方案均采用了以太网交换机RoCE组网方案,可以配合新华三自主研发的AI-ECN调优手段进行快速和精确部署。AI-ECN调优算法模型具有效率高、计算量小的特点,同时支持控制器集中式调优和网络设备分布式本地调优两种模式。例如,在集中式调优模式下,不需要专用的AI芯片,使用搭载Intel XEON-SP服务器的管控析集群,就可在较大规模网络管理下,开启ECN水线调优;在本地模式下,搭载Intel XEON-D 和 ATOM的新华三网络交换机,仅以较小的CPU开销就可以完成调优。

RoCE方案是业界常用的AI高性能组网方案,除此之外,有些用户还会考虑采用集中式框式设备实现小规模的AI组网:

这种组网的优势在于无需部署复杂的无损以太网(PFC/ECN)功能,仅通过一台设备便可以实现1536个200G端口接入能力。新华三S125R/CR系列采用正交CLOS无中板设计,业务板与交换板之间采用信元转发,完美得解决了拥塞问题。实际应用场景中,在吞吐和时延等方面表现良好。但是这种组网由于单机框槽位问题,组网规模受限。

为了优化这个问题,新华三继而推出了DDC(Distributed Disaggregated Chassis,分布式分解结构)解决方案。

简单介绍DDC其实就是将框式交换机拆分形成盒式组网,但是盒式交换机之间依旧采用信元交换,采用JR2C+双芯片方案最大可支持3456个200G端口接入能力。DDC对比RoCE在网络性能和网络收敛方面提升明显:ALL2ALL测试场景中,DDC完成时间可提高20-30%;无论UP/DOWN还是手工插拔测试方式,DDC的收敛时间缩短了几百到上千倍。

随着大模型训练所需网络带宽的不断提升,网络主芯片性能也会迅速增加,当800G/1.6T时代来临时,CPO/NPO交换机将会登上互联网舞台,而新华三也早已有所布局:

S9825-32D32DO交换机,4U高度内可同时支持32个400G光模块接口和32个400G光引擎接口,后续可以平滑升级至51.2T平台。

结语

以ChatGPT为代表的AIGC已经成为当下互联网行业的风口,历史经验表明,善于抓住风口的企业最终都会站上时代之巅。在AIGC领域新华三已经与诸多头部互联网客户达成深度合作,新华三希望成为互联网客户紧密的合作伙伴,通过全栈的智算中心解决方案能力助力广大用户的AIGC相关研发和推进!

每日必读

合作站点