英伟达Blackwell高耗能推动AI服务器水冷方案发展
2024-08-01
来源:集邦咨询
集邦咨询 TrendForce 昨日(7 月 30 日)发布博文,表示英伟达 Blackwell 高耗能推动散热需求,预估到 2024 年年底水冷散热方案渗透率将达 10%。功耗不断攀升
英伟达 Blackwell 平台将于 2025 年正式放量,取代既有的 Hopper 平台、成为英伟达高端 GPU(图形处理器)主力方案,占整体高端产品近 83%。
在 B200 和 GB200 等追求高效能的 AI Server 机种,单颗 GPU 功耗可达 1,000W 以上。HGX 机种每台装载 8 颗 GPU,NVL 机种每柜达 36 颗或 72 颗 GPU,能耗上涨将促进 AI Server 水冷散热供应链的发展。
TrendForce 集邦咨询表示,服务器芯片的热设计功耗(Thermal Design Power, TDP)持续提高,如 B200 芯片的 TDP 将达 1000W,传统风冷散热方案不足以满足需求;GB200 NVL36 及 NVL72 整机柜的 TDP 甚至将高达 70kW 及近 140kW,需要搭配水冷方案以有效解决散热问题。
水冷供应链
GB200 NVL36 架构初期将以风冷、水冷并行方案为主;NVL72 因有更高散热能力需求,原则上优先使用水冷方案。
援引报道 GB200 机柜系统水冷散热供应链,主要包括 5大零部件:
水冷板(Cold Plate)
冷却分配系统(Coolant Distribution Unit, CDU)
分歧管(Manifold)
快接头(Quick Disconnect, QD)
风扇背门(Rear Door Heat Exchanger, RDHx)
CDU 为其中的关键系统,负责调节冷却剂的流量至整个系统,确保机柜温度控制在预设的 TDP 范围内。
TrendForce 集邦咨询观察,目前针对 NVIDIA AI 方案,以 Vertiv(维谛技术)为主力 CDU 供应商,奇鋐、双鸿、台达电和 CoolIT 等持续测试验证中。
在 NVIDIA 大力扩展 CSPs 客群的情况下,预估 2025 年 GB200 折算 NVL36 合计出货数量可望达 6 万柜,而 GB200 的 Blackwell GPU 用量可望达 210-220 万颗。