亚马逊AWS发布新一代AI芯片Trainium3
2024-12-05
来源:芯智讯
12月4消息,亚马逊网络服务(AWS)于当地时间周二在“re:Invent”大会上发布了其下一代人工智能加速器 Trainium3,该加速器将于2025年年底上市,性能将比上一代产品高 4 倍。
不过,在 re:Invent 大会上,AWS官方却并未公布关于该芯片的具体细节,但此前AWS 安纳普尔纳实验室团队的产品与客户工程总监 Gadi Hutt 在接受The Register采访时表示,预计 Trainium3 将成为第一款基于 3nm 工艺节点构建的专用机器学习加速器,与 Trainium2 相比,其效率将提高 40%。
在性能方面,亚马逊对Trainium3 的实际性能数据也含糊其辞:Trainium3 基于完整的“UltraServer”配置可以带来 4 倍性能提升,而该配置仍在开发中。
资料显示,Trainium2 UltraServer 总共配备了 64 个加速器,可提供 83.2 petaFLOPS 的密集 FP8 性能。因此,理论上,Trainium3 UltraServer 应该可以提供 332.8 petaFLOPS 的计算能力,尽管目前尚不清楚其精度是多少。
考虑到稀疏性,假设 Trainium3 也支持与其处理器相同的 4 倍乘数,亚马逊的下一代 UltraServer 可能会提供超过 1.3 exaFLOPS 的 AI 计算能力。
这些性能声明指的是峰值计算性能(即 FLOPS),而不是一些模糊的 AI 基准。这是一个重要的细节,因为根据 AI 工作负载,性能取决于许多因素,而不仅仅是 FLOPS。例如,内存带宽的增加可以大大提高大型语言模型 (LLM) 推理性能,之前在 Nvidia 带宽增强的 H200 芯片上就看到过这种情况。
尽管亚马逊愿意透露性能和效率指标,但尚未透露该芯片内存负载的详细信息。
Trainium2 蓄势待发
在亚马逊官方公布有关 Trainium3 的更多细节之前,亚马逊正在将其 Trainium2 计算服务推向大众市场。
Trainium2 在去年的 re:Invent 大会上亮相,它既是训练芯片又是推理芯片,具有 1.3 petaFLOPS 的密集 FP8 计算能力和 96 GB 的高带宽内存,每个内存可提供 2.9 TBps 的带宽。
作为参考,单个拥有H100拥有略低于 2 petaFLOPS 的密集 FP8 性能、80GB 的 HBM 和 3.35 TBps 的带宽。
该芯片本身由一对 5nm 计算芯片组成,采用台积电的晶圆基板上芯片 (CoWoS) 封装技术与四个 24GB HBM 堆栈集成。
与谷歌的张量处理单元 (TPU) 类似,这些加速器被捆绑到机架级集群中。64 个 Trainium2 部件分布在两个互连的机架上。
正如我们前面提到的,这种 Trn2 UltraServer 配置能够产生 83.2 petaFLOPS 的密集 FP8 性能,或者在启用 4x 稀疏模式的情况下产生 332.8 petaFLOPS。
如果您需要更多的计算能力,亚马逊还提供配备 16 个加速器和约 20.8 petaFLOPS 密集计算能力的Trainium2 实例。
据亚马逊称,这些实例比 EC2 上当前一代基于 GPU 的实例(特别是基于英伟达H200 的 P5e 和 P5en 实例)的性价比高出 30% 到 40%。
对于那些使用芯片训练模型的人来说,Trainium2 可以扩展到拥有 100,000 个或更多芯片的更大集群。这正是 AWS 和模型构建者 Anthropic 在 Rainier 项目下计划做的事情,该项目将涉及将“数十万”个 Trainium2 芯片放入集群中进行 AI 训练。该超级计算系统将于 2025 年全面启动,据说能够产生“用于训练 [Anthropic] 最新一代 AI 模型的 5 倍 exaFLOPS 数量”。
Trainium2 在实例现已在 AWS 美国东部(俄亥俄州)推出,不久的将来还将在其他地区推出。同时,更大的Trainium2 UltraServer 配置目前已推出预览版。