注册账户
账号密码登录 注册新账号>
忘记密码
找回密码
短信登录
验证码
大型挂机现场:马斯克的55万英伟达GPU,利用率才11%
机器之心 2026/05/05 17:33 2543

编辑 | 泽南 

AI 时代堆 GPU,原来是这么个堆法?

马斯克旗下的 xAI 目前 GPU 资源利用率只有大概 11%。相关报告指出,其 AI 软件栈的优化效果不尽如人意。近日,《The Information》的报道引发了人们的关注。

目前,xAI 在其 Memphis 和 Colossus 数据中心集群中运营着约 55 万块英伟达 GPU,包括 H100 和 H200 两种型号,其中部分设备采用了液冷散热配置。尽管这些 GPU 属于上一代产品(早于最新的 Blackwell 系列),但其规模已经令人叹为观止。

拥有如此庞大的 GPU 存量,xAI 的模型算力利用率(MFU,Model FLOPs Utilization)却只有 11%。打个不恰当的比喻,在 xAI 服务器中已安装的这 50 万块 GPU 中,实际可用的算力仅相当于约 6 万块 GPU 的水平。究竟是什么原因导致了如此低的效率?

首先,对于较小规模的部署环境(例如 1000-10000 块 GPU)而言,多节点之间的协调计算通常不成问题。但随着服务器规模的不断扩大,当需要集成数十万颗 GPU 时,设备的空闲时间便会迅速累积,导致整体利用率急剧下滑。由此引发的软件栈内部的一系列不一致性问题,目前正在 xAI 的实际运行中暴露无遗。

在超级集群中,GPU 芯片本身的计算速度相对很快,瓶颈在于高带宽内存(HBM)的数据读写速度和成千上万台服务器之间网络传输的通信开销。只要数据传输出现微小的延迟或网络拥堵,整个集群的 GPU 就会被迫 “原地挂机” 等待数据加载。

另一方面,AI 模型的训练通常是间歇性的。GPU 在实际计算时满载运转,但在研究人员分析训练结果、调整参数或处理数据管道时,大量设备就会处于闲置(Idle)状态。

虽然 11% 是一个显然偏低的数字,但 The Information 的报道也揭示了 AI 领域的一些行业潜规则:算力浪费是普遍的现象,有些大厂的研究人员为了避免被管理层批评,或者害怕闲置的 GPU 配额被其他团队抢走,甚至会故意重复运行一些无意义的训练任务来 “刷高” 利用率数据。

该说不说,这么做也是为了保住团队自己的 GPU 配额。

当然,这并非 xAI 独有的难题,它实际上是整个 AI 行业普遍存在的一种结构性问题 ——AI 基础设施要在如此庞大的规模下实现高效运行,是一项极其艰巨的挑战。

运行 AI 云基础设施所需的优化技能涵盖数据、算法、模型、计算、内核、交互(人类 - AI - 世界、智能体之间),以及全局优化,在工程上难度极高。

一些科技巨头着重优化了大规模基础设施堆栈,已经能够实现超过 40% 的利用率。Meta 和谷歌便是此类典范,其 GPU 的利用率分别高达 43% 和 46%。

xAI 遇到的困境证明了在当前的 AI 军备竞赛中,“买到 GPU” 只是第一步,用好才是关键。硬件规模已经超出了现有软件架构的调度能力。

不过,xAI 已在着手解决这一问题,并设定了利用率达到 50% 的目标。尽管目前尚无确切的时间表,但其核心改进将聚焦于基础设施与软件堆栈的优化。随着未来工作负载逐步迁移至那些专为驱动 “智能体 AI”(Agentic AI)需求而设计的硬件平台之上,xAI 极有可能将其庞大的 GPU 集群对外提供租赁服务。

马斯克也在寻求转变,押注于自研算力的 “TeraFab” 项目:一方面,他正在推动多款自研芯片,将其纳入 xAI 的 “AI 芯片家族” 之中;另一方面,马斯克也希望借助英特尔的 14A 制程技术,为未来的 xAI、SpaceX 及其它相关业务打造尖端解决方案。

xAI 的困境提醒了所有追赶者:AI 竞赛的下半场,拼的可能不再是谁能买到更多显卡。

参考内容:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:关注AI基础设施的

声明:本文观点仅代表作者本人,绝不代表区块链头条官方赞同其观点或证实其描述。

提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

热门快讯 更多
14:14
FloorForge 正式上线:重塑 BNB Chain 资产发行与链上金融新范式
2026 年 4 月 29 日,基于 BNB Chain 构建的新一代发币与链上金融协议 FloorForge 正式上线,旨在重塑链上资产从发行、流转到价值沉淀的全周期路径,突破传统 Launchpad 的单一发行逻辑。

FloorForge 集“发币 + 交易 + 地板价 + 协议储备 + 链上借贷”于一体,通过地板价机制、独立储备池、协议自有流动性(POL)以及无清算借贷体系,为链上资产提供结构性支撑与更稳定的运行环境。

项目面向 MEME 用户、DeFi 策略参与者及项目方,构建“发行即市场”的资产系统,实现从高波动投机向结构化金融体系的升级。

上线后将于 4 月 30 日 20:00 在币安、火币及 Twitter Space 三平台同步开启 AMA 直播,现场解答核心机制,并发放 200 USDT 空投福利。

官网:floorforge.org | X:@FloorForge
利好36 利空2
18:44
单币模型失效?OLAFI三层结构或于5月上线引发新一轮关注
在Web3持续演化的背景下,单一代币模型的增长瓶颈逐渐显现。市场对更具稳定性与持续性的经济结构需求不断提升。

在此趋势下,OLAFI提出由LA、LF、GR构成的三层结构模型,通过流量承接、结构放大与价值沉淀实现功能拆分与协同运作,从而提升运行效率,增强整体经济韧性与缔造可持续性。

据悉,OLAFI计划于2026年5月正式上线,其结构化机制与多层循环设计,将为链上经济从“叙事驱动”走向“架构驱动”,为行业提供长期价值承载力的发展新路径。
利好36 利空3
09:20
《预见 Foresee》将于4月10日全球公测,开启“判断力即资产”新纪元

【2026年4月10日·哈桑特区讯】俄罗斯联邦政府立项批准、哈桑特区持牌预测平台 《预见 Foresee》 将于 2026年4月10日16:00(VLAT 时间)正式开启全球公测。同步时间为:MSK 09:00、CST 14:00。


据悉,《预见 Foresee》依托俄罗斯联邦政府背书及哈桑特区监管框架,底层部署于 BNB Smart Chain,以“判断力即资产”为核心理念,致力于打造新一代链上预测平台。


官方表示:“在《预见 Foresee》,判断力与影响力不再只是能力,而是可被沉淀的资产;游戏中的每一种结局,都通向价值。”
利好36 利空5
热门新闻 更多>
Web3 中的游戏治理(一): 什么是游戏治理及利与弊
  • 头条有约第2期 | Dan:BTCC 9年追梦,乘风破浪
    2020-07-08
  • 头条有约第4期 | 黄连金:DeFi的整体生态仍在扩张
    2020-09-18
  • 头条有约第3期 | Andy:Filecoin有机会成为比肩比特币,甚至超越比特币
    2020-07-15
  • OKEx关于开放提币功能等相关事宜的公告
    2020-11-20
  • 我校举行区块链+信用大数据高峰论坛暨福建移动-华侨大学5G联合创新实验室、华大-中盈区块链联合研究中心揭牌仪式
    2020-11-04

商务合作

手机:13255904767

微信:blocktop001

商务邮箱

邮箱:313004786@qq.com

关注公众号
官方微博
闽ICP备18014082号-12 Copyright ©2021-2023 blocktop.cn | 区块链头条版权所有