英伟达AI芯片故障引发微软等客户砍单
2025-01-14
来源:网易科技
美东时间1月13日周一,据《The Information》报道,英伟达最新一代人工智能芯片Blackwell在部署至数据中心时遇到了技术问题,主要包括服务器机架过热和芯片连接异常。
这些问题对数据中心的部署进程造成阻碍,英伟达多家客户(包括微软、亚马逊旗下AWS、谷歌、Meta)最近砍掉了部分Blackwell GB200机架的订单。
因延迟交付,微软原本计划安装大量GB200的凤凰城数据中心现在已经装满了H200芯片。有消息人士透露,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。
消息公布后,英伟达美股早盘一度跌超4.7%。
主要客户削减订单,寻求替代方案
Blackwell芯片以其卓越性能和高能效广受期待。与上一代产品Hopper相比,Blackwell的能源效率提高了四倍,吸引了微软、亚马逊、谷歌和Meta等科技巨头。每家公司为此下达了价值逾100亿美元的订单。
然而,将多个高功耗芯片集成到一个服务器机架中比预期更具挑战。每个Blackwell机架比家用冰箱还高,重量接近一辆本田思域汽车。由于计算密度极高,机架必须采用水冷系统,而非传统的风冷系统。对于多数AI开发商和数据中心运营商而言,部署这种特殊机架是全新且复杂的任务。此外,并非所有数据中心都能满足这些机架的环境需求,客户必须重新规划部署方案。
因过热和连接问题,部分客户削减了Blackwell GB200机架的订单。例如,有客户选择等待可能在今年下半年推出的改进版本,另一些则计划采购英伟达的旧款AI芯片作为替代方案。虽然英伟达推荐整机架方案,但部分客户可能改为单独购买Blackwell芯片以便自行组装。
尽管面临挑战,英伟达仍有机会挽回局面。如果能够及时解决这些技术问题,客户或许会重新增加订单。此外,尽管机架存在问题,Blackwell芯片的性能仍然优于上一代产品,英伟达可能会为问题机架找到其他买家。
英伟达去年11月曾预测,新一代AI芯片Blackwell将在今年第一季度为公司带来数十亿美元的收入,并助推其全年数据中心芯片收入从475亿美元增长至1500亿美元。Blackwell芯片的高能效本是吸引云服务提供商的关键因素,这些供应商希望在固定能源条件下实现更高的计算效率。
芯片延迟影响数据中心部署计划
据知情人士透露,作为OpenAI的服务器提供商,微软原计划在其凤凰城的一个设施中安装至少包含5万枚Blackwell芯片的GB200机架。然而,由于Blackwell芯片从去年开始延迟交付,OpenAI要求微软尽早为其提供上一代英伟达H200芯片。这一变化导致原本计划安装大量GB200的凤凰城数据中心现在已经装满了H200芯片。
据知情人士透露,微软现在计划在今年3月在凤凰城的一个设施中安装包含12000枚Blackwell芯片的GB200机架,这一数量约为最初计划的四分之一。另一位与微软合作的人士表示,该公司还计划在今年晚些时候GB300 Blackwell机架上市时进行采购。
英伟达原本计划在去年年底开始向客户交付Blackwell机架,但由于芯片设计缺陷导致初期延迟了三个月。尽管英伟达已经修复了这一问题,但到11月份时,客户开始担心机架的过热问题。为此,英伟达多次要求供应商更改设计。
然而,问题并未得到完全解决。据参与机架测试的三位人士透露,客户还发现芯片之间数据传输(即网络)存在不一致的情况。这些问题可能导致Blackwell机架的设置时间比预期更长,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。