阿里云展示用于大语言模型训练的自研网络设计
2024-07-01
来源:芯智讯
6月29日消息,阿里云近日公布了其专门为训练大型语言模型(LLM)的超大数据传输而创建的以太网网络设计,并且已在实际业务中使用了 8 个月。
阿里云之所以选择以太网是出于避免过度依赖少数供应商和利用“整个以太网联盟的力量实现更快发展”的愿望。这一决定似乎也顺应了越来越多厂商开始支持以太网,逃离英伟达NVlink在云端AI互联上的垄断。
阿里巴巴的以太网网络计划是阿里云高级工程师、网络研究研究员翟恩南(Ennan Zhai)的GitHub 页面上披露的。翟恩南发布了一篇论文,该论文将在 8 月份的 SIGCOMM 会议上发表,该会议是美国计算机协会数据通信特别兴趣小组的年度聚会。
这篇题为《阿里巴巴 HPN:用于大型语言模型训练的数据中心网络》的论文开篇指出,流量云计算流量“……会产生数百万个小流量(例如低于 10Gbit/秒)”,而大语言模型训练“会在每个主机上产生少量周期性、突发性的流量(例如 400Gbit/秒)”。
等价多路径路由是一种常用的通过多条路径将数据包发送到单个目的地的方法,但它容易出现哈希极化,这种现象会导致负载平衡困难并显著减少可用带宽。
阿里云的自制替代方案名为“高性能网络”(HPN),“通过减少 ECMP 的出现来避免哈希极化,同时也大大减少了路径选择的搜索空间,从而使我们能够精确选择能够容纳大流量的网络路径。”
HPN 还解决了 GPU 在训练大型语言模型时需要同步工作的事实,这使得 AI 基础设施对单点故障很敏感——尤其是机架顶部交换机。
因此,阿里巴巴的网络设计使用了一对交换机——但不是交换机供应商建议的堆叠配置。
堆满了卡片
论文解释称,阿里云用于大型语言模型训练的每台主机都包含 8 个 GPU 和 9 个网络接口卡 (NIC),每个卡都有一对 200GB/秒的端口。其中一个 NIC 负责处理“后端网络”上的日常流量。
前端网络允许主机中的每个 GPU 通过以 400-900GB/秒(双向)运行的主机内网络直接与其他 GPU 通信。每个 NIC 服务于单个 GPU(阿里云称之为“轨道”),这种安排使每个加速器以“专用的 400Gb/秒 RDMA 网络吞吐量运行,总带宽为 3.2Tb/秒”。
论文指出:“这样的设计旨在最大限度地利用 GPU 的 PCIe 功能(PCIe Gen5×16),从而将网络发送/接收容量推向极限。”NIC 上的每个端口都连接到不同的机架顶部交换机,以避免单点故障。
阿里云表示倾向于使用以太网,这对于 AMD、博通、思科、谷歌、HPE、英特尔、Meta 和微软来说无疑是个好消息。所有这些供应商最近都加入了Ultra Accelerator Link (UALink)联盟,旨在挑战英伟达的 NVlink 网络业务。
英特尔和 AMD 表示,该联盟以及Ultra Ethernet等其他先进网络项目代表了一种更好的 AI 工作负载网络化方式,因为从长远来看,开放标准总是会获胜,因为它们使创新变得更加容易。
不过,尽管阿里云的 NPM 设计基于以太网,但它仍然有使用英伟达的技术。这家英伟达的 NVlink 用于主机内网络(带宽比主机间网络更大),并且还采用了“轨道优化”设计方法,即每个网络接口卡都连接到不同的机架顶部交换机组。
阿里巴巴的单芯片交换机统治地位
这篇论文还多次提到阿里云的架顶式交换机中有一个“51.2Tb/秒以太网单芯片交换机(于 2023 年初首次发布)”。有两款设备符合这一描述:博通的Tomahawk ASIC于 2023 年 3 月出货,思科的G200于同年 6 月上市。提到“2023 年初”似乎表明阿里云选择了博通的解决方案。
无论阿里巴巴交换机的内部情况如何,该论文表明中国云计算公司偏爱单芯片驱动的交换机。
论文指出:“目前已经出现了支持更高带宽容量的多芯片机箱交换机”,并指出“阿里云在运营数据中心网络的长期经验表明,多芯片机箱交换机比单芯片交换机带来更多的稳定性风险。”
据透露,该公司的单芯片交换机数量是多芯片交换机的 32.6 倍。而这些多芯片交换机发生严重硬件故障的概率是单芯片交换机的 3.77 倍。
需要 DIY 散热器
虽然阿里云推崇单芯片交换机,并且很享受其采用的 51.2Tbit/秒设备的吞吐量是之前设备的两倍,同时功耗仅增加 45% 这一事实,但新款设备的运行温度并不比之前的产品低。
如果芯片温度超过 105°C,交换机可能会关闭。阿里云找不到能够提供能够将芯片温度保持在 105°C 以下的冷却系统的交换机供应商。因此它创建了自己的蒸汽室散热器。
论文解释道:“通过优化灯芯结构并在芯片中心部署更多的灯芯柱,热量可以更有效地传导。”
数据中心设计披露
以上所有设备都内置于每个容纳 15,000 个 GPU 的“舱室”中,每个舱室都位于一个数据中心建筑内。
论文透露:“阿里云所有投入使用的数据中心建筑的总功率约束为 18MW,而一栋 18MW 的建筑可容纳约 15K 个 GPU”,并补充道,“与 HPN 结合,每栋建筑都可以完美容纳整个 Pod,从而在同一栋建筑内形成主要的链接。”
大楼内的所有光纤长度均在100米以内,从而可以“使用成本较低的多模光纤收发器(与单模光纤收发器相比,成本降低70%)。”
但事情并非全是美好的:论文承认“HPN 引入了额外的设计……使得布线变得更加复杂。”
“特别是在构建 HPN 的初期,现场工作人员会犯很多接线错误。”这意味着需要进行额外的测试。
论文还指出,单个以太网芯片的转发容量每两年翻一番。因此,阿里云已经在“设计配备更高容量单芯片交换机的下一代网络架构”。
“我们在下一代数据中心的土地建设规划中,对单栋建筑的总功率约束进行了调整,以覆盖更多的GPU,这样新数据中心交付时,就可以直接配备102.4Tbit/sec的单片交换机和下一代HPN。”
论文还指出,训练具有数千亿个参数的 LLM“依赖于大规模分布式训练集群,通常配备数千万个 GPU”。
阿里云自己的 Qwen 模型有一个经过 1100 亿个参数训练的变体——这意味着它有大量使用 NPM 的 pod,以及数百万个生产中的 GPU。随着其模型和数据中心变得越来越大、越来越多,它还需要更多。