英特尔最强AI芯片来了:Gaudi 3深度解读

今天上午,$英特尔(INTC)$将开启其Vision 2024 会议的第二天,这是该公司的年度闭门业务和以客户为中心的聚会。虽然 Vision 通常不是英特尔发布新芯片的.场合(这更多的是秋季的创新活动),但今年展会的与会者不会空手而归。随着整个行业对人工智能的高度关注,英特尔利用今年的活动正式推出了 Gaudi 3 加速器,这是英特尔子公司 Habana Labs 的下一代 Gaudi 高性能人工智能加速器。

Gaudi 的最新版本将于 2024 年第三季度推出,英特尔现已向客户提供样品。硬件本身在某些方面是一个大杂烩(稍后会详细介绍),但凭借 1835 TFLOPS 的 FP8 计算吞吐量,英特尔相信它足以在广阔的(且昂贵的)领域中分得一杯羹。)自己的人工智能市场。根据内部基准测试,该公司预计至少在一些关键的大型语言模型中能够击败 NVIDIA 的旗舰 Hx00 Hopper 架构加速器,这将为英特尔在人工智能加速器市场的关键时刻抢占更大份额打开大门。整个行业,以及一个根本没有足够的 NVIDIA 硬件可供使用的时刻。

为数学而生的Gaudi芯片

与其他包含矩阵数学单元和张量核心(一种特殊的矩阵数学单元)的 AI 加速器一样,最初的 Gaudi 1 加速器理论上可用于加速其他类型的工作负载,包括 HPC 模拟和建模甚至数据分析。只需为其创建软件堆栈即可。但在这种情况下,与其他混合精度人工智能加速器的情况一样,混合(重要的是低精度)浮点和整数数学的可用性最适合人工智能训练和推理。

Habana Labs 整合的 Gaudi 1 加速器和软件堆栈迫使英特尔收购该公司,尽管英特尔此前曾于2016 年 8 月以 3.5 亿美元收购了人工智能加速器制造商 Nervana Systems。(英特尔直到 2019 年 11 月才将 Nervana NNP 产品化,一个月后它收购了 Habana Labs。想想看。)

这是 Gaudi 1 的框图:

该架构包括一个通用 GEMM Engine 矩阵数学引擎,以及八个带有自己的本地内存的张量处理核心 (TPC)。GEMM 引擎以 16 位精度对全连接层、卷积和批量 GEMM 处理进行数学运算,而 TPC 是一种特殊的 SIMD 处理器,用于处理其他机器学习操作。TPC 处理 FP32、BF16、INT32、INT16、INT8、UINT32、UINT16 和 UINT8 格式的数据。

TPC(可能还有 GEMM 单元)共享的 SRAM 内存容量为 24 MB,带宽为 1 TB/秒;据我们所知,TPC 上本地存储器的大小和带宽从未被泄露。

Gaudi 2 采用$台积电(TSM)$ 16 纳米工艺蚀刻,并使用 2.5D CoWoS 封装来链接四个 HBM2 内存堆栈,每个堆栈 8 GB,总共 32 GB 内存,聚合带宽为 1 TB/秒。该芯片还具有 10 个 100 Gb/秒以太网 RoCE 端口,用于在服务器节点内以及集群中的服务器节点之间互连 Gaudi 处理器,最多有 128 个完全连接的节点。该设备还有一个 PCI-Express 4.0 x16 控制器来连接主机 CPU。

Gaudi 2 于2022 年 5 月推出,并于 2023 年 6 月在英特尔开发者云上开始批量发货,英特尔内部的 Habana 团队全力以赴,这在很大程度上要归功于转向台积电的 7 纳米蚀刻。

共享 SRAM 内存从 24 MB 增加到 48 MB。TPC 的数量增加了 3 倍,达到 24 个单元,GEMM 单元(现在称为矩阵数学引擎)的数量也增加了一倍。以太网端口数量增加了 2.4 倍,达到 24 个端口,这从根本上提高了 Gaudi 集群的可扩展性,并添加了媒体解码器来为 AI 视觉应用程序进行预处理。TPC 支持 FP32、TF32、BF16、FP16 和 FP8(E4M3 和 E5M2 变体)数据格式。根据文档,MME 单元进行矩阵数学运算并累加为 FP32 格式。(尚不清楚 GEMM 是否与 MME 相同。但如果是,它会对 16 位整数进行矩阵数学计算并累加到 32 位浮点数。)Gaudi 2 具有相同的 PCI-Express 4.0 x16 链路输出到主机,但具有六个 HBM2E 内存控制器和六个 HBM2E 内存堆栈,每个堆栈为 16 GB,这六个堆栈的总容量为 96 GB,带宽为 2.4 TB/秒。

这让我们想到了 Gaudi 3 以及向台积电 5 纳米蚀刻的转变。

Gaudi 3细节,首次披露

即将推出的 Gaudi 3 也正值英特尔对其 AI 加速器产品的定位发生变化之际,Gaudi 系列已升级为英特尔的旗舰服务器加速器。传统上,Habana Labs 和 Gaudi 在英特尔 GPU Data Center Max 产品(Ponte Vecchio)方面被低估,但在取消 Rialto Bridge 以支持 2025 年发布 Falcon Shores后,Habana Labs 和 Gaudi 在英特尔内部获得了新的定位。简而言之,除了 Gaudi 3 之外,英特尔还没有推出任何其他新的人工智能加速器芯片,因此英特尔将与其拥有的芯片展开战争。

英特尔认为他们可以在性能上获胜;如果他们可以的话,那是一件大事。但这是一款明显从英特尔旗下的副业项目升级为前置中央处理器的产品。因此,Gaudi 3 的能力范围、硬件以及英特尔正在追逐的市场类型,都比我们在其他一些旗舰产品上看到的要窄。

接下来,我们深入介绍一下硬件,让我们来看看 Gaudi 3。

Gaudi 3 是 Gaudi 2 硬件的直接演变。Habana Labs 已经选定了他们喜欢并认为成功的架构,因此 Gaudi 3 不会对其架构进行大规模调整(这将随 Falcon Shores 一起进行)。然而,另一方面,就新功能或至少英特尔想要披露的功能而言,这里没有太多可讨论的内容,因此从较高的层面来看,Gaudi 3 更像是一件好事。

上一代 Gaudi 2 加速器基于台积电 7nm 工艺打造,Habana 将 Gaudi 3 引入了更新的 5nm 工艺。Gaudi 3 芯片又添加了适量的计算硬件,从 2 个矩阵数学引擎和 24 个张量核心扩展到 4 个矩阵数学引擎和 32 个张量核心。鉴于 Gaudi 3 的架构变化有限,我假设这些张量核心仍然是 256 字节宽的 VLIW SIMD 单元,就像在 Gaudi 2 中一样。

虽然英特尔没有透露 Gaudi 3 芯片的晶体管总数,但新硬件的有限添加使 Gaudi 3 足够小,以至于英特尔能够将两个芯片封装到单个芯片上,从而使完整的 Gaudi 3 加速器成为双芯片设置,这与 NVIDIA 最近发布的 Blackwell 加速器类似,两个相同的芯片被放置在一个封装上,并通过高带宽链路连接,以便为芯片提供统一的内存地址空间。据英特尔称,组合后的芯片将像单个芯片一样工作,尽管该公司没有透露连接芯片的芯片到芯片链路的任何重要细节,但目前尚不清楚实际上有多少带宽可用于跨越die。

Habana 团队罕见地公开了该芯片 FP8 精度的总吞吐量:1835 TFLOPS,这是 Gaudi 2 FP8 性能的两倍。更有趣的是,BF16 性能显然比 Gaudi 2 提高了 4 倍英特尔尚未透露该模式的官方吞吐量数据,也没有透露哪些架构变化带来了这种改进。不管怎样,如果英特尔想要在人工智能市场上分一杯羹,他们就需要最大限度地发挥 Gaudi 3 的性能。

这个芯片集成的是一个奇怪过时的 HBM2e 内存控制器,与 Gaudi 2 支持的内存类型相同。虽然英特尔对于 HBM3E 可能有点太早了,但我很惊讶没有看到 HBM3 支持,无论是为了更大的内存带宽还是更大的内存HBM3 谱系提供的容量。由于坚持使用 HBM2e,可用的最高容量堆栈为 16GB,为加速器提供了总共 128GB 的内存。其时钟频率为 3.7Gbps/pin,总内存带宽为 3.7TB/秒。每个 Gaudi 3 芯片都提供 4 个 HBM2e PHY,使芯片的内存堆栈总数达到 8 个。

同时,每个 Gaudi 3 芯片都具有 48MB 板载 SRAM,这为整个芯片提供 96MB SRAM。据英特尔称,SRAM 总带宽为 12.8TB/秒。

计算由 64 个第五代张量处理核心 (TPC) 和 8 个矩阵数学引擎 (MME) 处理,并通过图形编译器和软件堆栈在两个引擎之间协调工作负载。Gaudi 3 芯片包还包括 24 个 200 Gbps RoCE 以太网控制器,可提供纵向扩展(盒内)和横向扩展(节点到节点)连接,使 Gaudi 2 上的 100 Gbps 连接增加一倍。

归根结底,主导当今人工智能训练和推理工作负载的关键在于将加速器扩展到更大集群的能力。英特尔的 Gaudi 采用了与Nvidia 即将推出的 B200 NVL72 系统不同的方法,在 Gaudi 3 加速器之间使用快速 200 Gbps 以太网连接,并将服务器与叶子和主干交换机配对以创建集群。

Nvidia 的系统级架构利用 PCIe 接口上的 NVLink 实现 GPU 之间的盒内连接,并通过 NVLink 交换机使用无源铜缆布线连接整个机架。AMD 也有自己的方法,即在服务器中的 GPU 之间使用 PCIe 接口及其 Infinity Fabric 协议,同时使用外部 NIC 与其他节点进行通信,但这比 Intel 将网络 NIC 直接内置到服务器中的方法增加了更多的网络成本和复杂性。

英特尔没有透露 Gaudi 3 加速器的时钟速度(值得一提,他们也没有透露 Gaudi 2 的时钟速度)。然而,鉴于英特尔现有硬件数量增加了一倍以上,我们可能会考虑整体较低的时钟速度。即使使用更小的 5nm 芯片,两个芯片也意味着需要提供更多的晶体管,而不需要大量的额外功率。

在这一点上,基本风冷式 Gaudi 3 加速器的 TDP 为 900 瓦,比其前身的 600 瓦限制高出 50%。英特尔在这里使用 OAM 2.0 外形尺寸,它提供比 OAM 1.x (700W) 更高的功率限制。不过,英特尔还在开发并验证 Gaudi 3 的液冷版本,它将提供更高的性能,以换取更高的 TDP。所有形式的 Gaudi 3 都将使用 PCIe 回程连接到其主机 CPU,其中 Gaudi 3 配备 PCIe Gen 5 x16 链路。

总的来说,Gaudi 架构的有限细节让我想起了AMD 的 Instinct MI250X 加速器。从很多方面来说,CDNA 2 部件都是将一对芯片缩小的 MI100 放在一块芯片上,带来了一些新的架构功能,但需要更多的硅来完成繁重的工作。然而,重要的是,MI250X 将自己呈现为两个加速器(尽管芯片之间有 Infinity Fabric 链接),而 Gaudi 3 应该表现为单个统一加速器。

网络:以太网走向极致

除了 Gaudi 3 的核心架构之外,Habana 对 Gaudi 3 的另一项重大技术升级是在 I/O 方面。回到 Gaudi 的早期,Habana 的芯片就依赖于全以太网架构,使用以太网进行节点内芯片到芯片连接和横向扩展节点到节点连接。它本质上与 NVIDIA 所做的相反,将以太网扩展到芯片级别,而不是将 NVLink 扩展到机架级别。

Gaudi 2 每个芯片提供 24 个 100Gb 以太网链路;Gaudi 3 将这些链路的带宽增加了一倍,达到 200Gb/秒,使芯片的外部以太网 I/O 总带宽达到 8.4TB/秒的累计向上/向下。

Gaudi 3 的推荐拓扑(以及英特尔将在自己的底板中采用的拓扑)是 21/3 分割。21 条链路将用于节点内、芯片到芯片的连接,其中 3 条链路将连接到完全填充的 8 路节点上的其他 7 个 Gaudi 3 加速器。

与此同时,每个芯片的剩余 3 个链路将用于为六组 800Gb 八路小型可插拔 (OSFP) 以太网链路提供信号。通过使用重定时器,端口将被分成两个块,然后在 5 个加速器上进行平衡。

最终,英特尔希望在性能和适销性方面提升 Gaudi 3 的可扩展性。由于最大的LLM需要将许多节点链接在一起形成一个集群,以提供训练所需的内存和计算性能,英特尔通过 Gaudi 3 追逐的最大客户将需要一个可以扩展到这些大型的人工智能加速器,这为英特尔提供了充足的机会来销售同样数量的加速器。一直以来,英特尔都希望通过采用纯以太网设置来赢得那些不想投资 InfiniBand 等专有/替代互连技术的客户。

最终,英特尔已经开发了多达 512 个节点的网络拓扑,使用 48 个主干交换机连接多达 32 个集群,每个集群包含 16 个节点。

Gaudi 有两种外形尺寸,其中 OAM(OCP 加速器模块)HL-325L 是基于高性能 GPU 的系统中常见的夹层外形尺寸。该加速器具有 128GB HBM2e(不是HBM3E),可提供 3.7 TB/s 的带宽。它还具有 24 个 200 Gbps 以太网 RDMA NIC。HL-325L OAM 模块具有 900W TDP(可能有更高的 TDP,表面上采用液体冷却),额定 FP8 性能为 1,835 TFLOPS。OAM 以每个服务器节点 8 个为一组进行部署,然后可以扩展到 1,024 个节点。

每台服务器由八个 Gaudi 3 加速器组成,每个加速器通过 21 个 200 Gbps 以太网连接相互通信。每个设备上的其余三个以太网端口用于通过叶交换机与集群进行外部通信。该交换机将这些连接聚合到带有 OFSP 连接器的 6 个 800 Gbps 以太网端口中,以促进与其他节点的通信。

每个机架通常包含四个节点,但这可能会根据机架功率限制和集群大小而有所不同。最多 16 个节点与三个以太网leaf交换机形成一个子集群,然后连接到主干交换机(通常具有 64 个端口),以形成更大的集群。800 Gbps leaf交换机上的 64 个端口中有一半连接到 16 个节点,其余一半连接到主干交换机。

根据集群的大小,使用不同数量的主干交换机,Intel 提供了一个示例,其中三个主干交换机用于由 512 个节点(4,096 个 Gaudi)组成的 32 个子集群。英特尔表示,这种配置为所有服务器到服务器的连接提供相同的带宽(非阻塞所有到所有)。添加另一层以太网交换机可以支持多达数万个加速器。

OAM 落入容纳八个 OAM 的通用基板中。英特尔已经向其合作伙伴发货了 OAM 和基板,准备在今年晚些时候全面上市。在 HLB-325 基板上扩展到 8 个 OAM,可将 FP8 的性能提升至 14.6 PFLOPS,而所有其他指标(例如内存容量和带宽)则呈线性扩展。

英特尔还推出了 Gaudi 3 PCIe 双槽附加卡,TDP 为 600W。该卡还具有 128GB HBMeE 和 24 个 200 Gbps 以太网 NIC——英特尔表示,双 400 Gbps NIC 用于横向扩展。英特尔表示 PCIe 卡的 FP8 性能峰值为 1,835 TFLOPS,与 OAM 相同,考虑到其 TDP 低 300W(这可能无法支持长时间工作负载),这一点很有趣。然而,盒子内部的缩放受到更多限制,因为它被设计为四个一组工作。英特尔表示,该卡还可以横向扩展以创建更大的集群,但没有提供详细信息。

据英特尔称,Gaudi 3 仍然可以进一步扩展,扩展到数千个节点。

英特尔还宣布正在开发一款用于超以太网联盟兼容网络的 AI NIC ASIC 以及一款 AI NIC 小芯片,该芯片将用于其未来的 XPU 和 Gaudi 3 处理器,但他们没有分享更多细节。

性能表现:在Llamas和Falcons

比赛中击败H100

在 Gaudi 加速器的整个生命周期中,英特尔和 Habana 更愿意专注于谈论芯片的性能,而不仅仅是规格,对于 Gaudi 3 来说,这一点并没有改变。由于 Vision 的大部分与会者都是商业客户,英特尔希望通过基于基准的性能数据来展示 Gaudi 3 的实际功能,从而引起轰动。

在对比中,Gaudi 团队选择直接使用 NVIDIA 自己的基准测试和结果集。换句话说,英特尔提供的 Gaudi 性能数据是根据 NVIDIA 自己报告的数据绘制的,而不是英特尔编造的场景来对 NVIDIA 不利。也就是说,还必须指出的是,这些是性能预测,而不是组装系统的测量性能。

英特尔声称,与 H100 相比,Gaudi 3 在 16 个加速器集群中以 FP8 精度训练 Llama2-13B 时,性能比 H100 快 1.7 倍。尽管 H100 已经问世 2 年了,但如果它成功的话,在任何训练方面都大幅击败 H100 对于英特尔来说将是一个巨大的胜利。

与此同时,英特尔预计采用 Gaudi 3 的 H200/H100 的推理性能将提高 1.3 倍至 1.5 倍,也许最值得注意的是,功效将提高至 2.3 倍。

然而,一如既往,细节决定成败。在这些推理工作负载中,英特尔有时仍然会输给 H100,尤其是那些没有 2K 输出的工作负载,因此 Gaudi 3 还远未横扫一切。当然,还有英特尔没有宣传的所有基准测试结果。

然而,值得赞扬的是,英特尔是迄今为止唯一一家提供 MLPerf 结果的主要硬件制造商。因此,无论 Gaudi 3 的表现如何(以及 Gaudi 2 目前的表现),他们在发布行业标准测试结果方面比大多数人都光明正大得多。

Gaudi 3的软件生态系统

正如 Nvidia 在 CUDA 领域的主导地位所表明的那样,软件生态系统与硬件一样重要。英特尔宣传其端到端软件堆栈,并表示“大多数”工程师目前正在致力于加强支持。英特尔目前的重点是支持多模态训练和推理模型以及RAG(检索增强生成)。

Hugging Face 拥有超过 600,000 个可用的 AI 模型检查点,英特尔表示,其与 Hugging Face、PyTorch、DeepSpeed 和 Mosaic 的合作简化了软件移植过程,从而加快了部署 Gaudi 3 系统的周转时间。英特尔表示,大多数程序员都在框架级别或更高级别进行编程(即简单地使用 PyTorch 并使用 Python 编写脚本),并且使用 CUDA 进行低级编程并不像人们想象的那么常见。

英特尔的工具旨在简化移植过程,同时抽象出底层的复杂性,OneAPI 充当底层内核和通信库。这些库遵循统一加速器基金会 (UXL)以及包括 Arm、英特尔、$高通(QCOM)$$三星(SMSN.UK)$等在内的行业联盟概述的规范,旨在提供 CUDA 的替代方案。PyTorch 2.0 针对使用 OneAPI 通过 Intel CPU 和 GPU 进行推理和训练进行了优化。英特尔表示,其 OpenVino 也继续受到快速采用,今年迄今为止下载量已超过 100 万次。

一些想法

英特尔、Nvidia 和 AMD 都在采取不同的途径来提供增强的集群可扩展性,这对于人工智能训练和推理工作负载的性能至关重要。每种方法都有其各自的优势,但 Nvidia 专有的 NVLink 是最成熟、最完善的解决方案,其扩展到机架规模架构是一个显著的优势。也就是说,英特尔基于以太网的网络方法带来了开放式解决方案,通过支持多个供应商的网络交换机提供了大量的定制选项,而且其内置网卡还比 AMD 的竞争Instinct MI300 系列提供成本优势。

然而,Nvidia 的基于 Grace 的产品和 AMD 的 MI300A 都提供了复杂的合并 CPU+GPU 套件,在某些工作负载中将很难被击败,而英特尔由于取消了合并的 CPU+GPU 版本,继续依赖单独的 CPU 和加速器组件Falcon Shores。据报道,Nvidia 的新型 GB200 CPU+GPU 服务器占据了该公司 Blackwell 订单的大部分,这凸显了该行业对此类紧密耦合产品的巨大需求。

英特尔未来的 Falcon Shores 产品将以纯人工智能加速器设计的形式推出,因此它仍然能够与纯 GPU 的 Nvidia 和 AMD 集群竞争。我们还看到了新一代 Gaudi 3 的空间,从 HBM2E 转向 HBM3/E——AMD 和 Nvidia 在其 AI 产品中都采用了更快的内存。尽管英特尔尚未分享硬数据,但英特尔表示,它还计划在价格上展开积极竞争,这可能是一个强有力的良方,因为$英伟达(NVDA)$仍在努力应对因 GPU 需求锐减而导致的短缺问题。

Falcon Shores 还将兼容针对 Gaudi 优化的代码,提供前向兼容性。英特尔还以过去几个季度其 Gaudi 2 平台的 3 倍改进作为其平台采用率增加的例子。

值得注意的是,英特尔没有在此次活动中宣传其 Ponte Vecchio GPU,考虑到英特尔取消了下一代 Rialto Bridge GPU ,这并不奇怪,因此我们预计该公司的 AI 工作将仅在 Gaudi 3 上进行,因为它正在为 Falcon Shores 做准备明年推出。

值得一提,风冷式 Gaudi 3 型号已向合作伙伴提供样品,并于第三季度全面上市。液冷型号将在第四季度推出。让我们期待一下英特尔在这个市场的表现。

$(INTC)$ $(LU0321505868.SGD)$ $(LU0321505439.SGD)$ $(BK4512)$ $(BK4533)$ $(BK4575)$ $(BK4535)$ $(BK4529)$ $(BK4527)$ $(BK4579)$ $(BK4550)$ $(BK4588)$ $(BK4141)$ $(BK4515)$ $(BK4554)$ $(BK4534)$ $(BK4585)$

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论1

  • 推荐
  • 最新
  • 👏感谢你的分享和解读,对于英特尔推出的Gaudi 3加速器让业界对人工智能的关注更加高涨。
    回复
    举报