开云体育但其边界依然令东谈主叹为不雅止-开云平台网站皇马赞助商| 开云平台官方ac米兰赞助商 最新官网入口

开云体育
裁剪 | 泽南
AI 期间堆 GPU,蓝本是这样个堆法?
马斯克旗下的 xAI 现在 GPU 资源欺诈率唯有粗略 11%。相关施展指出,其 AI 软件栈的优化着力不尽如东谈倡导。近日,《The Information》的报谈激勉了东谈主们的珍贵。

现在,xAI 在其 Memphis 和 Colossus 数据中心集群中运营着约 55 万块英伟达 GPU,包括 H100 和 H200 两种型号,其中部分缔造遴选了液冷散热确立。尽管这些 GPU 属于上一代居品(早于最新的 Blackwell 系列),但其边界依然令东谈主叹为不雅止。
领有如斯重大的 GPU 存量,xAI 的模子算力欺诈率(MFU,Model FLOPs Utilization)却唯有 11%。打个不安妥的比方,在 xAI 办事器中已安设的这 50 万块 GPU 中,实质可用的算力仅额外于约 6 万块 GPU 的水平。究竟是什么原因导致了如斯低的着力?
最初,关于较小边界的部署环境(举例 1000-10000 块 GPU)而言,多节点之间的合作商量常常不可问题。但跟着办事器边界的束缚扩大,当需要集成数十万颗 GPU 时,缔造的优游时辰便会飞速积攒,导致举座欺诈率急剧下滑。由此激勉的软件栈里面的一系列不一致性问题,现在正在 xAI 的实质出手中拨云见日。
在超等集群中,GPU 芯片自己的商量速率相对很快,瓶颈在于高带宽内存(HBM)的数据读写速率和千千万万台办事器之间网罗传输的通讯支拨。只须数据传输出现轻细的蔓延或网罗拥挤,通盘这个词集群的 GPU 就会被动 “原地挂机” 恭候数据加载。
另一方面,AI 模子的历练常常是间歇性的。GPU 在实质商量时满载运转,但在商榷东谈主员分析历练抑制、调治参数或处理数据管谈时,多数缔种植会处于闲置(Idle)情状。
天然 11% 是一个昭彰偏低的数字,但 The Information 的报谈也揭示了 AI 边界的一些行业潜方法:算力豪侈是开阔的快意,有些大厂的商榷东谈主员为了幸免被料理层月旦,或者发怵闲置的 GPU 配额被其他团队抢走,致使会挑升重迭出手一些无道理的历练任务来 “刷高” 欺诈率数据。
该说不说,这样作念亦然为了保住团队我方的 GPU 配额。
天然,这并非 xAI 特有的繁重,它实质上是通盘这个词 AI 行业开阔存在的一种结构性问题 ——AI 基础要道要在如斯重大的边界下收场高效出手,是一项极其忙绿的挑战。

出手 AI 云基础要道所需的优化手段涵盖数据、算法、模子、商量、内核、交互(东谈主类 - AI - 宇宙、智能体之间),以及全局优化,在工程上难度极高。
一些科技巨头扫视优化了大边界基础要道堆栈,依然能够收场超过 40% 的欺诈率。Meta 和谷歌即是此类典范,其 GPU 的欺诈率辩认高达 43% 和 46%。
xAI 遭受的逆境讲解了在现时的 AI 武备竞赛中,“买到 GPU” 仅仅第一步,用好才是环节。硬件边界依然超出了现存软件架构的转机材干。
不外,xAI 已在入部属手措置这一问题,并设定了欺诈率达到 50% 的目标。尽管现在尚无果然的时辰表,但其中枢纠正将聚焦于基础要道与软件堆栈的优化。跟着往日职责负载渐渐挪动至那些专为驱动 “智能体 AI”(Agentic AI)需求而盘算的硬件平台之上,xAI 极有可能将其重大的 GPU 集群对外提供租出办事。
马斯克也在寻求回荡,押注于自研算力的 “TeraFab” 格式:一方面,他正在鼓动多款自研芯片,将其纳入 xAI 的 “AI 芯片家眷” 之中;另一方面,马斯克也但愿借助英特尔的 14A 制程手艺,为往日的 xAI、SpaceX 过火它相关业务打造顶端措置决议。
xAI 的逆境辅导了通盘追逐者:AI 竞赛的下半场开云体育,拼的可能不再是谁能买到更多显卡。
