Top
首页 > 正文

AI领强算力时代 GPU开拓新场景

AI 运算指以“深度学习” 为代表的神经网络算法,需要系统能够高效处理大量非结构化数据(文本、视频、图像、语音等)。需要硬件具有高效的线性代数运算能力,计算任务具有单位计算任务简单,逻辑控制难度要求低,但并行运算量大、参数多的特点。对于芯片的多核并行运算、片上存储、带宽、低延时的访存等提出了较高的需求。
发布时间:2022-07-25 14:35        来源:数字经济杂志        作者:张岐

AI 运算指以“深度学习” 为代表的神经网络算法,需要系统能够高效处理大量非结构化数据(文本、视频、图像、语音等)。需要硬件具有高效的线性代数运算能力,计算任务具有单位计算任务简单,逻辑控制难度要求低,但并行运算量大、参数多的特点。对于芯片的多核并行运算、片上存储、带宽、低延时的访存等提出了较高的需求。

算力时代,GPU 开启新场景落地

GPU(图形处理器)是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。2022 年 GPU 市场规模为 254.1 亿美元,预计到 2027年将达到 1853.1 亿美元。

GPU 市场分为独立、集成和混合市场。2021 年集成占据了 GPU 市场份额的主导地位,但由于混合处理器同时具有集成和独立 GPU 的能力,因此未来混合细分市场预计将实现最高的复合年增长率。

GPU 的应用市场分为计算机、平板电脑、智能手机、游戏机、电视等。2021 年, 智能手机市场占据了全球 GPU 市场份额的主导地位。但是,医疗设备及其他设备中对小型 GPU 的需求不断增长,预计未来在其他领域的复合年增长率会逐渐增高。

同时,GPU 在设计和工程应用领域广泛使用, 预计汽车应用细分市场将在预测期内以最高的复合年增长率增长。

随着计算性能需求的提高,Hopper 架构应运而生

GPU 的 微 架 构(Micr o Architecture) — 一种给定的指令集和图形函数集合在处理器中执行的方法。图形函数主要用于绘制各种图形所需要的运算,当前和像素、光影处理、3D 坐标变换等相关运算,由 GPU 硬件加速来实现。

相同的指令集和图形函数集合可以在不同的微架构中执行,但实施的目的和效果可能不同。优秀的微架构对 GPU 性能和效能的提升发挥着至关重要的作用。以目前最新的英伟达安培微架构为例,GPU 微架构的运算部分由流处理器(Stream Processor,SP)、 纹 理 单 元

(Texture mapping unit,TMU)、张量单元(Tensor Core)、光线追踪单元(RT Cores)、光栅化处理单元(ROPs)组成。在 2022 年 NVIDIA GTC 上, 黄仁勋介绍了基于全新 Hopper 架构的 GPU H100。Hopper 架构以计算科学的先驱 Grace Hopper 的姓氏命名。H100 具有 800 亿个晶体管,在性能上堪称 NVIDIA 的新核弹。

Hopper 架构是英伟达第一款基于多芯片模块(MCM)设计的 GPU。基于Hopper 架构的首款 GPU H100 采用台积电目前最先进的 4nm 工艺,CoWoS 2.5D 晶圆级封 装,单芯片设 计,集成 800 亿 个 晶 体 管 和 一 个 名 为 Transformer Engine 的组件, 因此 GPU H100 号称世界上最先进的芯片。Hopper 架构相较于之前的 Ampere 架构,是一个巨大的飞跃。

1

单位:亿元来源:Verified Market Research

‖ 图 1 2020-2027 年全球 GPU 市场规模

首 先 H100 具 有 强 大 的 性 能,H100 的Transformer Engine 组件利用了英伟达的第四代张量核心(Tensor Core) 来应用混合的 FP8 和 FP16 格式,可让计算以“启发式” 方法自动在两者之间进行选择,这将有助于改善浮点数精度, 同时加速 AI 模型训练。在 AI 处理方面, Hopper H100 FP8 的 4PetaFLOPS 性 能是 Ampere A100 FP16 的 6 倍。

该款GPU H100 还具有机密计算功能。通常敏感数据处于静止状态以及在网络中传输时会进行加密, 但在使用期间却不受保护。而 Hopper 机密计算是处理器架构和软件的结合, 能够保护正在使用的数据和应用。Hopper 实现了首个 GPU 的机密计算,同时 Hopper 机密计算能够保护所有者的 AI 模型和算法的机密性和完整性。每个 Hopper 实例都支持在受信任执行环境中进行机密计算,并可隔离加密安全区中的数据。软件开发者和服务提供商可在共享和远程基础架构上分发和部署宝贵的、专有的 AI 模型,保护其知识产权并扩展业务。

除上述已列举的优势外,H100 还是第一款具有动态编程指令(DPX)功能的 GPU。动态编程能够将复杂问题分解为可递归式解决的、更简单的子问题, 从而将复杂性和计算时间缩短至多项式计算的级别。Hopper DPX 指令集会使这些算法的速度加快多达 40 倍。与基于Ampere 架构的 GPU 相比,H100 可将动态编程速度提升 7 倍之多。此外,H100 也是“首款支持 PCIe5.0 和采用 HBM3 的GPU”,并具有每秒近 5TB 的外部连接和每秒 3TB 的内部存储带宽。单个 H100 可支 持 40Tb/s 的 IO 宽 带, 换 言 之 20 块H100 GPU 便可承托相当于全球互联网的流量。

GPU 未来制造升级和性能升级趋势

GPU 制造升级趋势为以先进制程为导向和 Chiplet 化两方面。GPU 性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由GPU 的制程决定的。制程在过去通常表示晶体管或栅极长度等特征尺寸,不过出于营销的需要,现在的制程已经偏离了本意, 因此单纯比较纳米数没有意义。按英特尔的观点, 每平方毫米内的晶体管数( 百万) 更能衡量制程。

据此,台积电和三星的 7nm 工艺更接近英特尔的 10nm 工艺。先进的制程可以降低每一个晶体管的成本,提升晶体管密度,在 GPU Die 体积不变下实现更高的性能;先进制程可以提升处理器的效能,在性能不变的情况下,减少发热或在发热不变的情况下,通过提升主频来拉高性能。先进制程的主要目的是降低平面结构带来的漏电率问题, 提升方案可以通过改变工艺,如采用 FinFET(鳍式场效应晶体管)或 GAA(环绕式栅极); 或采用特殊材料, 如 FD-SOI( 基于 SOI 的超薄绝缘层上硅体技术 )。

Chiplet 化: 高 位 宽 内 存(HBM) 是小芯片(Chiplet) 在 GPU 中的常见应用。HBM 是一种高速计算机存储器 3D 堆 栈 SDRAM 接 口。HBM 通 过 3D 堆 叠 4 个 DRAM Die 和 1 片逻辑 Die 组成一个Chiplet, 其中每片 DRAM 具有 2 个 128 位通道,通过 TSV(硅通孔)相连。所以, 一片 Chiplet 总共 8 个 128 位通道, 总位宽 1024 比特。每片 Chiplet 又与 GPU 封装在同一中介层(Interposer) 连接GPU 芯片。

GPU 性能升级趋势为高性能图形处理和高性能计算两方面。

高性能图形处理:图显是 GPU 芯片最初的功能, 随着视觉科技和虚拟现实技术的发展, 更加真实的图形显现效果会对 GPU 的并行计算能力提出更高的要求,图形显现是 GPU 芯片未来重要的发展方向。图形处理器所采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素 256 位渲染引擎等。

高性能计算:人工智能计算是高性能计算, 不同于传统的基于流处理器的GPU,用于 Al 计算的 GPU 大多数情况下浮点计算精度要求较低,对计算吞吐量要求较高。(文︱ 张岐 华西证券)

合作站点
stat