Top
首页 > 正文

AI领强算力时代,GPU开拓新场景

GPU(图形处理器)是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。2022年GPU市场规模为254.1亿美元,预计到2027年将达到1853.1亿美元。GPU市场分为独立,集成和混合市场。2021年集成占据了GPU市场份额的主导地位,但由于混合处理器同时具有集成和独立GPU的能力,因此未来混合细分市场预计将实现最高复合年增长率。
发布时间:2022-06-22 15:59        来源:赛迪网        作者:赛迪网

一、算力时代,GPU开启新场景落地

GPU(图形处理器)是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。2022年GPU市场规模为254.1亿美元,预计到2027年将达到1853.1亿美元。GPU市场分为独立,集成和混合市场。2021年集成占据了GPU市场份额的主导地位,但由于混合处理器同时具有集成和独立GPU的能力,因此未来混合细分市场预计将实现最高复合年增长率。

图1 2020-2027年全球GPU市场规模

数据来源:Verified Market Research

GPU的应用市场分为计算机,平板电脑,智能手机,游戏机,电视等。在2021年,智能手机市场占据了全球GPU市场份额的主导地位。但是,由于对医疗设备等其他设备中对小型GPU的需求不断增长,预计其他领域在未来的复合年增长率最高。由于在设计和工程应用中图形处理器的广泛使用,预计汽车应用细分市场将在预测期内以最高的复合年增长率增长

二、随着计算性能需求的提高,Hopper架构应运而生

GPU的微架构(Micro Architecture)一种给定的指令集和图形函数集合在处理器中执行的方法。图形函数主要用于绘制各种图形所需要的运算。当前和像素、光影处理、3D坐标变换等相关运算由GPU硬件加速来实现。相同的指令集和图形函数集合可以在不同的微架构中执行,但实施的目的和效果可能不同。优秀的微架构对GPU性能和效能的提升发挥着至关重要的作用。以目前最新的英伟达安培微架构为例,GPU微架构的运算部份由流处理器(Stream Processor,SP)、纹理单元(Texture mapping unit,TMU)、张量单元(Tensor Core)、光线追踪单元(RT Cores)、光栅化处理单元(ROPs)组成。在2022年NVIDIA GTC上,NVIDIA 黄仁勋介绍了基于全新Hopper架构的GPU H100。Hopper架构以计算科学的先驱Grace Hopper的姓氏命名。H100具有800亿个晶体管,在性能上堪称NVIDIA的新核弹。

Hopper架构是英伟达第一款基于多芯片模块设计(MCM)的GPU,它以计算科学的先驱Grace Hopper的姓氏命名。基于Hopper架构的首款GPUH100采用台积电目前最先进的4nm工艺,CoWoS 2.5D晶圆级封装,单芯片设计,集成800亿个晶体管和一个名为Transformer Engine的组件,因此GPU H100号称世界上最先进的芯片。Hopper架构相较于之前的Ampere架构,是一个巨大的飞跃。首先H100具有强大的性能,H100的Transformer Engine组件利用了英伟达的第四代张量核心(Tensor Core)来应用混合的FP8和FP16格式,可让计算以“启发式”方法自动在两者之间进行选择,这将有助于改善浮点数精度,同时加速AI模型训练。在AI处理方面,Hopper H100 FP8的4PetaFLOPS性能是Ampere A100 FP16的6倍。

图2 Hopper架构基本结构

该款GPU H100还具有机密计算功能。通常敏感数据处于静止状态以及在网络中传输时会进行加密,但在使用期间却不受保护。而Hopper机密计算是处理器架构和软件的结合,能够保护正在使用的数据和应用。Hopper实现了首个GPU的机密计算,同时Hopper机密计算能够保护所有者的AI模型和算法的机密性和完整性。每个Hopper实例都支持在受信任执行环境中进行机密计算,并可隔离加密安全区中的数据。软件开发者和服务提供商可在共享和远程基础架构上分发和部署宝贵的、专有的AI模型,保护其知识产权并扩展业务。

除上述已列举的优势外,H100还是第一款具有动态编程指令(DPX)功能的GPU。动态编程能够将复杂问题分解为可递归式解决的、更简单的子问题,从而将复杂性和计算时间缩短至多项式计算的级别。Hopper DPX指令集会使这些算法的速度加快多达40倍。与基于Ampere架构的GPU相比,H100可将动态编程速度提升7倍之多。此外,H100也是“首款支持PCIe5.0和采用HBM3的GPU”,并具有每秒近5TB的外部连接和每秒3TB的内部存储带宽。单个H100可支持40Tb/s的IO宽带,换言之20块H100GPU便可承托相当于全球互联网的流量。

三、GPU未来制造升级和性能升级趋势

GPU制造升级趋势为以先进制程为导向和Chiplet化两方面。

以先进制程为导向:GPU性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由GPU的制程决定的。制程在过去通常表示晶体管或栅极长度等特征尺寸,不过出于营销的需要,现在的制程已经偏离了本意,因此单纯比较纳米数没有意义。按英特尔的观点,每平方毫米内的晶体管数(百万)更能衡量制程。据此,台积电和三星的7nm工艺更接近英特尔的10nm工艺。先进的制程可以降低每一个晶体管的成本,提升晶体管密度,在GPU Die体积不变下实现更高的性能;先进制程可以提升处理器的效能,在性能不变的情况下,减少发热或在发热不变的情况下,通过提升主频来拉高性能。先进制程的主要目的是降低平面结构带来的漏电率问题,提升方案可以通过改变工艺,如采用FinFET(鳍式场效应晶体管)或GAA(环绕式栅极);或采用特殊材料,如FD-SOI(基于SOI的超薄绝缘层上硅体技术)。

Chiplet化:高位宽内存(HBM)是小芯片(Chiplet)在GPU中的常见应用。HBM是一种高速计算机存储器3D堆栈SDRAM接口。HBM通过3D堆叠4个DRAM Die和1片逻辑Die组成一个Chiplet,其中每片DRAM具有2个128位通道,通过TSV(硅通孔)相连。所以,一片Chiplet总共8个128位通道,总位宽1024比特。每片Chiplet又与GPU封装在同一中介层(Interposer)连接GPU芯片。

GPU性能升级趋势为高性能图形处理和高性能计算两方面。

高性能图形处理:图显是GPU芯片最初的功能,随着视觉科技和虚拟现实技术的发展,更加真实的图形显现效果会对GPU的并行计算能力提出更高的要求,图形显现是GPU芯片未来重要的发展方向。图形处理器所采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等。

高性能计算:人工智能计算是高性能计算,不同于传统的基于流处理器的GPU,用于Al计算的GPU大多数情况下浮点计算精度要求较低,对计算吞吐量要求较高。

每日必读

专题访谈

合作站点