算力闲置严重 xAI 55万张GPU加速卡利用率仅11%-AET-电子技术应用

算力闲置严重 xAI 55万张GPU加速卡利用率仅11%

日期： 2026-05-06

来源：芯智讯

关键词： xAI GPU AI加速卡 AI算力

全球AI竞赛的早已从“谁能抢到更多GPU”悄然转向“谁能把GPU真正用起来”。然而，坐拥约55万块英伟达GPU，实际利用率仅有11%，这一“打脸”般的数字，正将埃隆·马斯克（Elon Musk）旗下的人工智能公司xAI推上风口浪尖。

据外媒《The Information》获取的xAI内部备忘录显示，xAI公司总裁迈克尔·尼科尔斯（Michael Nicolls）向团队坦承，公司目前的模型浮点运算利用率（MFU）约为11%。这个数字意味着，理论上能输出100份训练算力的硬件，实际仅产出了11份。

xAI目前拥有约55万颗NVIDIA GPU，其中包括H100和H200系列。尽管这些GPU比最新的Blackwell产品落后了一个世代，但xAI部署的GPU规模之大令市场印象深刻。

对于这一现状，Michael Nicolls在内部备忘录中给出了直白的评价：“低得尴尬”。他已为团队设定了在未来几个月内将利用率拉升至50% 的目标。

“11%”这个数字，并非指89%的GPU在完全闲置，而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。

从行业基准来看，生产级大模型训练的MFU通常落在35%至45%之间。Meta和谷歌凭借深厚的软件堆栈积累，其GPU利用率分别可达约43%和46%。即便以“低效”著称的GPT-3训练时期，MFU也在21%-26%之间。相比之下，xAI的11%不仅远低于当前主流水平，甚至低于AI算力发展史上的“古早”尴尬时期。

坐拥算力“金山”却难有用武之地，症结出在哪里？答案指向软件堆栈与并行策略的滞后。

xAI在业内以“完全按照英伟达推荐方式部署GPU”的模范生做法著称。模范生却跑出低分，说明问题不在标准的硬件或网络拓扑层面。根源在于，训练栈、并行策略和模型工程等软件优化速度，远跟不上其激进的硬件扩张步伐。

业界广泛讨论的“存储墙”现象成为主要瓶颈——HBM显存读取速度远慢于计算芯片，导致芯片大量时间空转等待数据；网络拓扑中的任何一处瓶颈，在数万张卡的同步要求下，都会被急剧放大。此外，Lambda等机构的分析指出，显存压力、过度的激活重计算和张量并行带来的跨GPU通信开销等，都是拖累MFU的系统性因素。

xAI的算力基础设施建设速度本身就是一个“神话”：其孟菲斯Colossus超算集群从动工到投入运营仅用了122天，从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“通常需要四年”。

△xAI孟菲斯Colossus超算集群

然而，惊人的速度似乎也让xAI“欠下”了技术债。扩张越快，支撑大规模并行训练的软件系统复杂度就越大。当企业试图将GPU规模从数千张推向数十万张时，通信、调度、容错和并行策略的挑战会呈指数级增长。xAI的11%的算力利用率，正是这一矛盾的集中体现。

把问题完全归咎于xAI一家也并不公平。《The Information》的报道援引一位匿名研究员的话称：“跑过40%对xAI的大多数竞争对手来说也很难”。这表明，超大规模集群下的低效问题，是笼罩整个AI行业的阴影。

报道还揭示了一个行业内部的扭曲现象：由于担心GPU被调走或承受压力，一些研究员甚至通过反复重跑训练来人为“美化”自家MFU数据。囤而不用的算力浪费，成为行业心照不宣的秘密。

面对效率困局，xAI正多措并举。一方面，公司计划通过基础设施和软件栈优化来解决利用率问题。另一方面，据媒体报道，xAI已开始将部分闲置算力对外出租，AI编程创业公司Cursor已计划使用其“数万张GPU”来训练新模型。

AI算力之争已过“装备竞赛”阶段，正式进入“效率竞赛”的深水区。11%的低利用率如同一面镜子，照出AI行业下半场的核心命题：如何将“买得到”的硬件，转化为真正“用得好”的竞争壁垒。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

算力闲置严重 xAI 55万张GPU加速卡利用率仅11%

日期： 2026-05-06

来源：芯智讯

相关内容