《电子技术应用》
您所在的位置:首页 > 人工智能 > 业界动态 > 算力闲置严重 xAI 55万张GPU加速卡利用率仅11%

算力闲置严重 xAI 55万张GPU加速卡利用率仅11%

2026-05-06
来源:芯智讯
关键词: xAI GPU AI加速卡 AI算力

全球AI竞赛的早已从“谁能抢到更多GPU”悄然转向“谁能把GPU真正用起来”。然而,坐拥约55万块英伟达GPU,实际利用率仅有11%,这一“打脸”般的数字,正将埃隆·马斯克(Elon Musk)旗下的人工智能公司xAI推上风口浪尖。

据外媒《The Information》获取的xAI内部备忘录显示,xAI公司总裁迈克尔·尼科尔斯(Michael Nicolls)向团队坦承,公司目前的模型浮点运算利用率(MFU)约为11%。这个数字意味着,理论上能输出100份训练算力的硬件,实际仅产出了11份。

xAI目前拥有约55万颗NVIDIA GPU,其中包括H100和H200系列。尽管这些GPU比最新的Blackwell产品落后了一个世代,但xAI部署的GPU规模之大令市场印象深刻。

对于这一现状,Michael Nicolls在内部备忘录中给出了直白的评价:“低得尴尬”。他已为团队设定了在未来几个月内将利用率拉升至50% 的目标。

“11%”这个数字,并非指89%的GPU在完全闲置,而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。

从行业基准来看,生产级大模型训练的MFU通常落在35%至45%之间。Meta和谷歌凭借深厚的软件堆栈积累,其GPU利用率分别可达约43%和46%。即便以“低效”著称的GPT-3训练时期,MFU也在21%-26%之间。相比之下,xAI的11%不仅远低于当前主流水平,甚至低于AI算力发展史上的“古早”尴尬时期。

坐拥算力“金山”却难有用武之地,症结出在哪里?答案指向软件堆栈与并行策略的滞后。

xAI在业内以“完全按照英伟达推荐方式部署GPU”的模范生做法著称。模范生却跑出低分,说明问题不在标准的硬件或网络拓扑层面。根源在于,训练栈、并行策略和模型工程等软件优化速度,远跟不上其激进的硬件扩张步伐。

业界广泛讨论的“存储墙”现象成为主要瓶颈——HBM显存读取速度远慢于计算芯片,导致芯片大量时间空转等待数据;网络拓扑中的任何一处瓶颈,在数万张卡的同步要求下,都会被急剧放大。此外,Lambda等机构的分析指出,显存压力、过度的激活重计算和张量并行带来的跨GPU通信开销等,都是拖累MFU的系统性因素。

xAI的算力基础设施建设速度本身就是一个“神话”:其孟菲斯Colossus超算集群从动工到投入运营仅用了122天,从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“通常需要四年”。

987faae79688fbd045571bc6224bcef6.jpg

△xAI孟菲斯Colossus超算集群

然而,惊人的速度似乎也让xAI“欠下”了技术债。扩张越快,支撑大规模并行训练的软件系统复杂度就越大。当企业试图将GPU规模从数千张推向数十万张时,通信、调度、容错和并行策略的挑战会呈指数级增长。xAI的11%的算力利用率,正是这一矛盾的集中体现。

把问题完全归咎于xAI一家也并不公平。《The Information》的报道援引一位匿名研究员的话称:“跑过40%对xAI的大多数竞争对手来说也很难”。这表明,超大规模集群下的低效问题,是笼罩整个AI行业的阴影。

报道还揭示了一个行业内部的扭曲现象:由于担心GPU被调走或承受压力,一些研究员甚至通过反复重跑训练来人为“美化”自家MFU数据。囤而不用的算力浪费,成为行业心照不宣的秘密。

面对效率困局,xAI正多措并举。一方面,公司计划通过基础设施和软件栈优化来解决利用率问题。另一方面,据媒体报道,xAI已开始将部分闲置算力对外出租,AI编程创业公司Cursor已计划使用其“数万张GPU”来训练新模型。

AI算力之争已过“装备竞赛”阶段,正式进入“效率竞赛”的深水区。11%的低利用率如同一面镜子,照出AI行业下半场的核心命题:如何将“买得到”的硬件,转化为真正“用得好”的竞争壁垒。

2.jpg

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。