亚马逊AWS发布新一代AI芯片Trainium3-AET-电子技术应用

亚马逊AWS发布新一代AI芯片Trainium3

基于3nm制程，性能提升4倍，能效提升40%

日期： 2024-12-05

来源：芯智讯

关键词： 亚马逊 Trainium3 AI芯片 3nm

12月4消息，亚马逊网络服务（AWS）于当地时间周二在“re:Invent”大会上发布了其下一代人工智能加速器 Trainium3，该加速器将于2025年年底上市，性能将比上一代产品高 4 倍。

不过，在 re:Invent 大会上，AWS官方却并未公布关于该芯片的具体细节，但此前AWS 安纳普尔纳实验室团队的产品与客户工程总监 Gadi Hutt 在接受The Register采访时表示，预计 Trainium3 将成为第一款基于 3nm 工艺节点构建的专用机器学习加速器，与 Trainium2 相比，其效率将提高 40%。

在性能方面，亚马逊对Trainium3 的实际性能数据也含糊其辞：Trainium3 基于完整的“UltraServer”配置可以带来 4 倍性能提升，而该配置仍在开发中。

资料显示，Trainium2 UltraServer 总共配备了 64 个加速器，可提供 83.2 petaFLOPS 的密集 FP8 性能。因此，理论上，Trainium3 UltraServer 应该可以提供 332.8 petaFLOPS 的计算能力，尽管目前尚不清楚其精度是多少。

考虑到稀疏性，假设 Trainium3 也支持与其处理器相同的 4 倍乘数，亚马逊的下一代 UltraServer 可能会提供超过 1.3 exaFLOPS 的 AI 计算能力。

这些性能声明指的是峰值计算性能（即 FLOPS），而不是一些模糊的 AI 基准。这是一个重要的细节，因为根据 AI 工作负载，性能取决于许多因素，而不仅仅是 FLOPS。例如，内存带宽的增加可以大大提高大型语言模型 (LLM) 推理性能，之前在 Nvidia 带宽增强的 H200 芯片上就看到过这种情况。

尽管亚马逊愿意透露性能和效率指标，但尚未透露该芯片内存负载的详细信息。

Trainium2 蓄势待发

在亚马逊官方公布有关 Trainium3 的更多细节之前，亚马逊正在将其 Trainium2 计算服务推向大众市场。

Trainium2 在去年的 re:Invent 大会上亮相，它既是训练芯片又是推理芯片，具有 1.3 petaFLOPS 的密集 FP8 计算能力和 96 GB 的高带宽内存，每个内存可提供 2.9 TBps 的带宽。

作为参考，单个拥有H100拥有略低于 2 petaFLOPS 的密集 FP8 性能、80GB 的 HBM 和 3.35 TBps 的带宽。

该芯片本身由一对 5nm 计算芯片组成，采用台积电的晶圆基板上芯片 (CoWoS) 封装技术与四个 24GB HBM 堆栈集成。

与谷歌的张量处理单元 (TPU) 类似，这些加速器被捆绑到机架级集群中。64 个 Trainium2 部件分布在两个互连的机架上。

正如我们前面提到的，这种 Trn2 UltraServer 配置能够产生 83.2 petaFLOPS 的密集 FP8 性能，或者在启用 4x 稀疏模式的情况下产生 332.8 petaFLOPS。

如果您需要更多的计算能力，亚马逊还提供配备 16 个加速器和约 20.8 petaFLOPS 密集计算能力的Trainium2 实例。

据亚马逊称，这些实例比 EC2 上当前一代基于 GPU 的实例（特别是基于英伟达H200 的 P5e 和 P5en 实例）的性价比高出 30% 到 40%。

对于那些使用芯片训练模型的人来说，Trainium2 可以扩展到拥有 100,000 个或更多芯片的更大集群。这正是 AWS 和模型构建者 Anthropic 在 Rainier 项目下计划做的事情，该项目将涉及将“数十万”个 Trainium2 芯片放入集群中进行 AI 训练。该超级计算系统将于 2025 年全面启动，据说能够产生“用于训练 [Anthropic] 最新一代 AI 模型的 5 倍 exaFLOPS 数量”。

Trainium2 在实例现已在 AWS 美国东部（俄亥俄州）推出，不久的将来还将在其他地区推出。同时，更大的Trainium2 UltraServer 配置目前已推出预览版。

Magazine.Subscription.jpg

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

亚马逊AWS发布新一代AI芯片Trainium3

日期： 2024-12-05

来源：芯智讯

相关内容