城市网

英伟达推出全新硬件架构Hopper

导读 NVIDIA 再次做到了这一点,但这次有一个转折——似乎是从比赛的剧本中借了一页。在已成为 AI 行业最重要活动之一的 NVIDIA GTC 上,

NVIDIA 再次做到了这一点,但这次有一个转折——似乎是从比赛的剧本中借了一页。在已成为 AI 行业最重要活动之一的 NVIDIA GTC 上,该公司宣布了其硬件架构和产品的最新迭代。以下是公告的细分以及它们对整个生态系统的意义。

Hopper:NVIDIA 的全新 GPU 架构

GTC 从周一开始,一直持续到周四,拥有 900 多个会话。来自 50 多个国家/地区的超过 200,000 名开发人员、研究人员和数据科学家已注册参加此次活动。在他的 GTC 2022 主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋宣布了数据中心和高性能计算、人工智能、设计协作和数字孪生、网络、汽车、机器人和医疗保健方面的大量新闻。

黄的框架是“公司正在处理、提炼他们的数据,使人工智能软件……成为智能制造商。” 如果目标是像 NVIDIA 所说的那样将数据中心转变为“人工智能工厂”,那么将变形金刚置于核心位置是有道理的。

公告的核心是新的 Hopper GPU 架构,NVIDIA 将其称为“下一代加速计算”。新架构以美国计算机科学家先驱 Grace Hopper 命名,继承了两年前推出的 NVIDIA Ampere 架构。该公司还发布了其首款基于 Hopper 的 GPU,即 NVIDIA H100。

NVIDIA 声称 Hopper 比其前身带来了数量级的性能飞跃,而这一壮举基于六项突破性创新。让我们通过它们,快速记录它们与竞争对手的比较。

一是制造。H100 采用先进的 TSMC 4N 工艺构建,采用 800 亿个晶体管,专为 NVIDIA 的加速计算需求而设计,在加速 AI、HPC、内存带宽、互连和通信方面取得了重大进步,包括每秒近 5 TB 的外部连接。在制造层面,诸如 Cerebras 或 Graphcore 之类的新贵 也在不断突破可能的界限。

第二,多实例 GPU (MIG)。MIG 技术允许将单个 GPU 划分为七个更小的、完全隔离的实例来处理不同类型的作业。Hopper 架构通过在云环境中跨每个 GPU 实例提供安全的多租户配置,将 MIG 功能扩展至上一代的 7 倍。 Run:AI 是 NVIDIA 的合作伙伴,它提供了类似于软件层的东西,称为部分 GPU 共享。

第三,机密计算。NVIDIA 声称 H100 是世界上第一个具有机密计算能力的加速器,可以在处理 AI 模型和客户数据时保护它们。客户还可以将机密计算应用于 医疗保健和金融服务等隐私敏感行业以及共享云基础设施的联合学习。这不是我们在其他地方看到的功能。

第四,第四代NVIDIA NVLink。为了加速最大的 AI 模型,NVLink 与新的外部 NVLink 交换机相结合,将 NVLink 扩展为服务器之外的纵向扩展网络,与使用 NVIDIA HDR Quantum InfiniBand 的上一代相比,以 9 倍的带宽连接多达 256 个 H100 GPU。同样,这是 NVIDIA 特有的,尽管竞争对手也经常利用他们自己的专业基础设施来连接他们的硬件。

五、DPX指令加速动态规划。动态规划既是一种数学优化方法,也是一种计算机编程方法,最初是在 1950 年代发展起来的。在数学优化方面,动态规划通常是指通过随着时间的推移将决策分解为一系列决策步骤来简化决策。动态编程主要 是对普通递归的优化。

英伟达指出,动态编程被用于广泛的算法,包括路线优化和基因组学,与 CPU 相比,它的执行速度最高可提高 40 倍,与上一代 GPU 相比最高可提高 7 倍。尽管许多 AI 芯片新贵也利用了并行性,但我们不知道竞争中有直接的对等物。

第六项创新是我们认为最重要的一项: 新的 Transformer 引擎。正如 NVIDIA 所指出的,转换器是自然语言处理的标准模型选择,也是有史以来最重要的深度学习模型之一。H100 加速器的 Transformer Engine 旨在将这些网络加速到上一代的 6 倍,而不会损失准确性。这值得进一步分析。

Hopper 核心的 Transformer 引擎

看着 NVIDIA H100 核心的新变压器引擎的标题,我们想起了 英特尔架构师 Raja M. Koduri 对 ZDNet 的 Tiernan Ray 的评论。Koduri 指出,矩阵乘法的加速现在是衡量芯片性能和效率的重要指标,这意味着每个芯片都将是一个神经网络处理器。

Koduri 当然是当场的。除了英特尔自己的努力之外,这也是一系列新贵推动新一代 AI 芯片设计的动力。看到 NVIDIA 提到变压器引擎,我们不禁怀疑该公司是否对其 GPU 进行了彻底的重新设计。GPU 最初并不是为 AI 工作负载而设计的,它们只是恰好擅长它们,而 NVIDIA 有远见和敏锐的洞察力围绕它们构建了一个生态系统。

然而,深入 NVIDIA 自己对 Hopper 架构的分析,彻底重新设计的概念似乎被打消了。虽然 Hopper 确实引入了具有许多性能和效率改进的新流式多处理器 (SM),但仅此而已。考虑到围绕 NVIDIA GPU 构建的生态系统的巨大重量以及彻底重新设计所需要的大量更新和潜在的不兼容性,这并不奇怪。

分解 Hopper 的改进,内存似乎是其中的重要组成部分。正如 Facebook 流行的机器学习培训库 PyTorch 的产品经理 告诉ZDNet的,“模型越来越大,它们真的非常非常大,而且训练起来非常昂贵。” 如今,最大的模型通常无法完全存储在 GPU 附带的内存电路中。Hopper 带有更快、更多且在 SM 之间共享的内存。

另一个提升来自 NVIDIA 新的第四代张量核心,与 A100 相比,芯片到芯片的速度提高了 6 倍。张量核正是用于矩阵乘法的。在 H100 中,使用了新的 FP8 数据类型,与上一代 16 位浮点选项相比,计算速度提高了 4 倍。在等效数据类型上,仍然有 2 倍的加速。

至于所谓的“新 Transformer 引擎”,事实证明这是 NVIDIA 用来指代“软件和定制的 NVIDIA Hopper Tensor Core 技术的组合,专门用于加速 Transformer 模型训练和推理”。

NVIDIA 指出,Transformer 引擎智能管理并在 FP8 和 16 位计算之间动态选择,自动处理每层 FP8 和 16 位之间的重铸和缩放,以提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度与上一代 A100 相比,大型语言模型的加速。

因此,虽然这不是彻底的重新设计,但正如 NVIDIA 的技术博客所详述的那样,性能和效率改进的结合导致与 Ampere 相比加速了 6 倍。NVIDIA 专注于提高 Transformer 模型的性能并没有错位。

Transformer 模型是当今广泛使用的语言模型的支柱,例如 BERT 和 GPT-3。最初是为自然语言处理用例开发的,它们的多功能性正越来越多地应用于计算机视觉、药物发现等,正如我们在AI 覆盖状态中所记录的那样。根据 NVIDIA 共享的一项指标,过去 2 年已发表的 AI 研究中有 70% 是基于 Transformer 的。

软件方面:Apache Spark 用户的好消息

但是软件方面呢?在之前的 GTC 公告中,软件堆栈更新是新闻的关键部分。在这种情况下,虽然 NVIDIA 调整的启发式算法在 FP8 和 FP16 计算之间动态选择是新 Transformer 引擎内部的关键部分,但相比之下,面向外部的软件堆栈的更新似乎不太重要。

NVIDIA 用于训练大型语言模型的 Triton 推理服务器和 NeMo Megatron 框架正在更新。Riva、Merlin 和 Maxin 也是如此——一个语音 AI SDK,分别包含预训练模型、端到端推荐 AI 框架以及音频和视频质量增强 SDK。正如 NVIDIA 强调的那样,AT&T、微软和 Snapchat 等公司都在使用它们。

NVIDIA 的 CUDA-X 库还有 60 个 SDK 更新。NVIDIA 选择突出新兴领域,例如加速量子电路模拟(cuQuantum 通用性)和 6G 物理层研究(Sionna 通用性)。但是,对于大多数用户来说,好消息可能在于 Apache Spark 的 RAPIDS Accelerator 的更新,它将处理速度提高了 3 倍以上,而无需更改代码。

虽然这在 NVIDIA 的公告中并不十分突出,但我们认为应该如此。对于 Apache Spark 用户而言,无需更改代码即可一夜之间实现 3 倍加速,其中 80% 的财富 500 强企业在生产环境中使用 Apache Spark,这可不是小新闻。这也不是 NVIDIA 第一次 向 Apache Spark 用户展示一些喜爱。

总体而言,英伟达似乎保持了势头。虽然竞争很激烈,但 NVIDIA 已经成功地创造了领先优势,但可能并不真正需要彻底的重新设计。