在今天开幕的GTC 2024上,NVIDIA展示了最新的GPU技术和AI应用案例,并将介绍与高性能存储相关的技术和解决方案。
以大模型为代表的AI技术快速发展,对存储也提出了更高要求,尤其是在深度学习领域,大规模的训练数据和复杂的模型结构使得存储要求更加苛刻,需要具备更高的读写速度和更大的存储容量。基于当前市场对高效存储的迫切需求,优刻得推出了自主研发的UPFS并行文件存储产品,能够以更高的吞吐量和更低的延迟,提升AI模型训练效率。
UPFS全面支持IB/RoCE网络,能够提供数据百微秒级的访问速度,同时实现最高TB/s的读写吞吐,显著提升了数据传输和通信的效率,为企业带来了更加流畅、高效的数据处理体验。
随着新场景、新应用不断涌现,数据量急剧增长,数据类型也日益多样化,这为底层存储技术带来了前所未有的机遇和挑战:1.数据爆发性增长:预计到2025年,全球数据将达到180ZB,其中非结构化数据占据超过80%的比重,并逐渐成为决策的重要依据。2.多云部署成为常态:有89%的上云企业选择了多云战略,以实现数据的集中共享存储,多云环境下的应用部署将成为未来最优的IT架构之一。3.全闪存储正逐渐普及:在主流存储市场中,全闪存储的占比已突破50%,全球正加速进入闪存普惠时代,为数据存储带来更高的性能和更低的延迟。4.数据统一管理:随着AI应用的深入发展,存储智能化程度不断提升,大数据、AI等新兴多样化数据应用蓬勃兴起,对数据的统一管理提出了更高的要求。和传统文件存储对比,优刻得提供更高性能的UPFS并行文件存储产品,支持软硬一体化交付,部署流程简单高效,同时也可结合客户实际业务场景做到更深层次的定制处理。1.交付模式:优刻得提供软硬一体化交付,同时也支持拆分交付。硬件兼容上基于X86/国产服务器/云主机均可搭建的高性能分布式文件系统。2.成本优化:数据无损压缩,存储成本可直降50%。采用软硬协同设计,基于Smart-SSD,可以在0性能影响的情况下,实现数据的压缩功能。同时元数据存储也可以灵活的选择和数据集群进行混合部署,集群支持最小至3个物理节点,降低整体的TCO。
3.网络兼容:支持10Gb/25Gb/100Gb/200Gb的以太网、RoCE和IB网络。4.集群扩展:UPFS以模块的方式进行部署和扩展,单个模块最小包含3台物理机,可以在线进行性能和容量扩展。元数据模块和数据模块可以进行混合部署,也可以单独部署。元数据模块最高可以扩展到256台,数据模块最高可以扩展到4096台。5.高可用:采用多副本架构保证系统可用性,其中元数据部分采用独立的分布式元数据架构,所有元数据节点均可承接元数据访问请求,防止元数据热点,提高整体集群的元数据OPS,分散开之后的元数据请求能够充分发挥每一个元数据节点的性能。
(UPFS高性能接入)
6.高性能:支持POSIX协议的自研客户端,能够发挥底层资源的极限性能,例如数据路由算法采用高效的一致性哈希算法,数据直接在客户端和CHUNK之间进行交互,规避了MDS的介入,缩短了IO路径;同时还借助NVIDIA GPU Direct Storage(GDS)技术,减少访问时延、提升数据带宽,单节点的存储读性能接近80GB/s。
(UPFS-GDS技术支持)
7.易用性:支持冷热数据流动,通过数据流动任务,实现UPFS与OSS之间的数据导入和导出,同时元数据自动更新,确保UPFS与OSS上的数据保持最终一致,从而节省运维开销。存储的读写性能是上层应用性能和用户体验的关键所在,企业的长期发展需要稳定的数据存储平台做支撑。然而,传统的文件存储架构在应对日益增长的数据需求时略显乏力,因此,在客户体验层面,对于存储提出了更为高效、可靠的要求。优刻得UPFS作为一款软件定义存储产品,可广泛适用于AIGC、自动驾驶、CG渲染、EDA仿真等业务场景。AIGC:大模型训练的各个阶段对存储有低时延、高吞吐的需求
阶段1-数据打散:遍历样本数据,进行文件Shuffle,一般NLP/大模型处理的文件较大(MB以上文本)、人脸识别/OCR处理的文件较小(平均百K级别图片)。阶段2-数据加载:Reader以128K/256K定长单位读取文件,线程数固定,单线程加载一个文件完成后(下载+Decode+标准化)后才会加载下一个文件,对存储有低时延的需求。阶段3-CheckPoint存储:包括模型的CheckPoint和单个GPU状态的CheckPoint,大块顺序写对时间敏感,在执行CheckPoint时GPU工作暂停,对存储有大吞吐的需求。自动驾驶车辆通过各种传感器(如雷达、摄像头、激光雷达)和GPS等设备采集大量的数据,包括路况、车辆行为、交通状况等信息,并将这些数据存储到分布式文件存储中。这些数据往往高达PB级,通过大规模的数据集可以提供更全面和准确的训练样本,从而提高自动驾驶算法的精度和可靠性。在渲染行业中,文件存储的需求通常涉及许多大文件的处理,以及上百甚至上千个计算节点同时访问文件。这些大型媒体文件可能在几GB到几十GB甚至更大。因此,文件存储系统需要能够支持大量的并发访问,并具备负载均衡和优化性能的能力。EDA行业涉及大量的电子设计文件,包括原理图、电路布局、仿真数据等等,这些文件数量庞大,需要有效的存储和管理系统来处理和访问这些文件。最重要的是由于电子设计领域工作的复杂性和重要性,对于文件的备份和版本控制是必不可少的。EDA行业需要能够进行文件备份,以确保数据的安全性和可靠性,并支持版本控制功能,方便设计团队协同工作和追溯设计历史。客户诉求:在进行大规模的AI模型训练时,需要快速访问和处理海量的特征文件和模型参数,大量数据输入和输出操作要求存储具备高IOPS、高带宽、低延时的读写特性,以确保GPU服务器能够充分利用数据进行训练,从而提高训练效率和模型精度。
实现价值:UPFS实现了小文件顺序读、大文件随机读性能的大幅提升,从而将单个训练任务的时间缩短至几天甚至几小时,效率提升了100%以上。
客户诉求:芯片设计阶段,需要频繁进行大规模仿真和数据处理,因此对存储的读写性能要求非常高,需要保证高IOPS、高带宽、低延时的读写特性。此外,还存在版本备份需求,这是为了确保在设计过程中发生意外情况时能够及时恢复到之前的版本,保证设计的连续性和稳定性。
实现价值:UPFS保证了高IOPS、高带宽、低延时的读写特性,大大提高了仿真效率;版本备份需求的实现可以保证设计过程的连续性和稳定性,避免不必要的风险和损失;成本降低40%的优势,让该芯片客户能够以更具竞争力的成本获得与国际知名存储品牌相媲美的服务和效果。
客户诉求:面临着海量数据存储和访问的挑战,现有的存储设备性能低下,无法满足高速数据读写和扩展需求,因此需要PB级别以上的并行文件存储系统来支持高效的数据访问和存储。
实现价值:通过部署PB级别的并行文件存储集群,该客户可以实现数百GB/s的带宽支持,能够在AI训练过程中实现高速、稳定的数据读写操作,极大地提高了训练效率和模型性能,缩短了训练时间,加快了客户的模型迭代速度。