5 月
xAI 抛弃 JAX GPU 框架自研 C 训练栈:当 Vibe Coding 开始攻占 AI 基础设施
一句话结论:xAI 选择用 Grok Build 以 Vibe Coding 方式从零自研 C 语言训练框架,这不是一个技术选型失误后的补救,而是 AI 基础设施层正在发生的范式转移信号:Vibe Coding 从写应用正式进入到写系统软件的阶段。
发生了什么
2026 年 5 月,SemiAnalysis 发布的一份深度报告在 AI 基础设施圈子掀起了波澜。报告指出,xAI 已正式放弃基于 Google JAX 的 GPU 训练堆栈,转而使用 Grok Build 以 Vibe Coding 方式用 C 语言重写训练框架。
这听起来像是一个极客实验室的疯狂实验,但它发生在全球估值最高的 AI 公司之一身上。据 SemiAnalysis 披露,xAI 在 JAX 堆栈上的 MFU(Model FLOP Utilization,模型浮点利用率)长期低于 10%,远低于行业标杆 30-50% 的水平。换句话说,xAI 花费数亿美元采购的 NVIDIA GPU,90% 以上的算力在实际训练中处于浪费状态。
更令人震惊的是,NVIDIA 的 JAX 团队在过去两年里以近乎全员 996 的方式全力支持 xAI,最终仍然没能解决问题。xAI 的选择不是继续修复 JAX,而是彻底推倒重来,用自家的 Grok Build 工具链,以 Vibe Coding 的方式编写 C 语言训练框架。Grok Build 0.2.7 刚刚发布,这一版本承载着 xAI 训练基础设施的全部希望。
xAI 为什么放弃 JAX GPU 训练堆栈?
xAI 放弃 JAX 的直接原因只有一个:MFU 低于 10%。但在这一数字背后,隐藏着 AI 基础设施选型中一个长期被低估的矛盾:框架的灵活性与训练效率之间的根本性冲突。
JAX 由 Google 开发,以其函数式编程模型和自动微分能力著称。它在研究社区中拥有广泛的应用基础,尤其是在需要快速实验和模型架构创新的场景下。Google DeepMind 大量使用 JAX 进行前沿研究,Hugging Face 的 Transformer 生态也与 JAX 深度集成。但 JAX 在生产级大规模训练中的痛点恰恰在于其抽象层。
SemiAnalysis 报告指出,JAX 的 XLA 编译器在面对 xAI 的超大规模集群时出现了严重的性能瓶颈。XLA 通过 JIT 编译将高级操作映射到底层 GPU 指令,但这种映射在跨数千张 GPU 的分布式训练场景下会产生大量无效的通信开销和内存碎片。xAI 的工程师团队为此付出了巨大努力。他们逐一排查 XLA 的编译路径,手动优化关键算子,甚至直接修改 JAX 底层代码。但 MFU 始终无法突破 10% 这个天花板。
对 xAI 来说,时间是最昂贵的成本。Elon Musk 为 xAI 定下的训练节奏以”周”为单位计算。每一周的算力浪费都意味着模型迭代的延迟,也意味着在 AGI 竞赛中被拉开差距。当 JAX 堆栈的优化潜力被证明是有限的,xAI 做出了理性的选择:放弃,而不是继续修补。
MFU 低于 10% 对 xAI 来说意味着什么?
这个数字意味着 xAI 每购买 10 块 NVIDIA H 100 GPU,实际有效算力只有不到 1 块。以目前 H 100 的市场价格计算,xAI 在算力采购上的浪费以数亿美元计。
MFU(Model FLOP Utilization)是衡量 AI 训练效率的核心指标。它计算的是 GPU 的理论峰值算力中有多少被实际用于模型训练。行业标杆水平通常认为 30-50% 是健康的范围。Google 的 TPU 团队曾在 PaLM 训练中实现了超过 50% 的 MFU,NVIDIA 自己的 Megatron-LM 堆栈也能达到 40% 以上(NVIDIA Developer Blog, 2025)。xAI 的 10% 意味着在同等算力投入下,他们的有效训练速度只有行业标杆的四分之一到五分之一。
这个差距对 xAI 的 Grok 模型意味着真实的竞争劣势。假设 xAI 和 OpenAI 同样部署了 10 万张 H 100,OpenAI 的 Megatron-PyTorch 堆栈以 40% MFU 运行,而 xAI 只有 10% MFU,那么 OpenAI 的有效算力等效于 4 万张 GPU,xAI 只有 1 万张。这个 4:1 的差距不是模型架构或训练数据所能弥补的。
理解这个数字的另一个维度是时间。xAI 训练 Grok-3 级别的模型可能需要数周时间。MFU 每提升 10 个百分点,训练时间就缩短四分之一。对于一家处在 AGI 竞赛第一梯队、创始人以”加速”为核心哲学的公司来说,10% 的 MFU 不是一个技术指标,而是一个战略警报。
NVIDIA 的 JAX 团队为什么没能救场?
NVIDIA 的 JAX 团队过去两年的工作方式可以用一个词来概括:竭尽全力。据 SemiAnalysis 披露,这支团队以接近全员 996 的节奏深度嵌入 xAI 的训练工程中,他们修改了 JAX 编译器的大量底层代码,重写了多个关键 GPU 算子,甚至为 xAI 的训练集群定制了专门的通信库。
这不是 NVIDIA 在敷衍了事。恰恰相反,NVIDIA 对 JAX 的投入在他们的产品战略中是优先级极高的项目。JAX 代表了 Google 生态在 AI 框架层的影响力。NVIDIA 如果能在 xAI 这样的顶级客户中证明 JAX 的生产级能力,就能在与 Google TPU 的竞争中获得关键筹码。所以 NVIDIA 的 JAX 团队不是不想解决,而是遇到了一个更深层的问题。
这个问题的核心在于 JAX 本身的架构假设。JAX 设计之初的定位是研究导向的框架。它的函数式编程模型、JIT 编译方式和自动微分机制对快速原型验证极其友好,但对生产级超大规模训练的支持是后来才被填补的。XLA 编译器在单 GPU 和小规模集群上表现出色,但在跨千卡、万卡的分布式训练中,它的自动化优化策略经常会做出次优决策。
Grok Build 如何用 Vibe Coding 重写训练框架?
Grok Build 是 xAI 内部开发的一套构建工具链,最初主要用于模型编译和部署流水线。但它的能力在最近几个版本中发生了质的飞跃。Grok Build 0.2.7 刚刚发布,这个版本的重点不是新功能,而是对 C 语言训练框架原生支持的底层重构。
这里的 Vibe Coding 不是指松懈的”氛围编程”,而是指一种高度人机协作的开发范式。xAI 的工程师向 Grok 描述训练框架的设计意图和性能约束,Grok 生成 C 语言代码,工程师审查并指导修改,迭代速度以小时为单位计算。这不同于传统的”提示-生成-粘贴”模式,而是一种真正的结对编程:AI 写代码,人做架构决策,双方共同调试和优化。
xAI 选择 C 语言而非 C++ 或 Rust,这个决策本身值得解读。C 语言在 GPU 编程中依然是无可替代的工具。CUDA 的核心运行时库就是用 C 编写的,NVIDIA 的 GPU 驱动层和底层算子实现也以 C 为主。用 C 编写训练框架意味着 xAI 可以获得对 GPU 资源的完全控制:没有运行时开销,没有垃圾回收,没有抽象层带来的性能折损。
Grok Build 做的事情可以理解为:将训练框架从”高层语言 + 编译器自动优化”的模式,转向”领域特定语言 + AI 辅助生成”的模式。工程师不再通过调整 JAX 的 Python 代码来间接控制 GPU 行为,而是通过向 Grok 描述计算需求,让 AI 直接生成能够精确控制 GPU 寄存器和内存的 C 代码。这听起来激进,但在 MFU 必须从 10% 跳到 50% 以上的压力下,这种激进可能是唯一合理的路径。
Vibe Coding 从写应用到写基础设施,这个转变意味着什么?
2025 年 2 月,Andrej Karpathy 在推文中首次提出”Vibe Coding”这个概念时,他描述的是一种完全沉浸在编程氛围中、让 AI 生成大部分代码的开发体验。那是 Vibe Coding 1.0:用自然语言描述 UI 组件、API 接口和数据处理逻辑,AI 为你生成 React 组件、Python API 和 SQL 查询。
但 xAI 的 Grok Build 实践标志着 Vibe Coding 进入了 2.0 阶段:它不是用自然语言写 CRUD 应用,而是用自然语言写 GPU 驱动级的 C 代码。AI 生成的代码不再运行在抽象层之上的应用沙箱里,而是直接运行在硬件层面。这在六个月前几乎没有人相信能做到。
这个转变对 AI 开发者的意义是多层的。第一层是技术可行性的证明:大语言模型已经能够生成足够高质量的系统级代码,这些代码不是玩具级的 demo,而是能够运行在万卡集群上的生产级代码。第二层是开发效率的重新定义:传统上,系统软件的开发周期以年为单位。但借助 Vibe Coding,xAI 在几个月内就从零搭建了一个 C 训练框架的雏形。
第三层,也是最重要的信号,是 Vibe Coding 正在打破”抽象层信仰”。AI 行业过去十年一直在向上抽象:从汇编到 C,从 C 到 Python,从 Python 到框架,从框架到无代码。但 xAI 的选择是反向的:当现有抽象层限制了性能,就用 AI 直接生成更底层的代码。这种”去抽象化”的趋势如果持续下去,可能重新定义整个 AI 软件栈的构建方式。
这对 AI 基础设施格局意味着什么?
xAI 的事件不是孤立的。它正在释放一系列连锁信号,对整个 AI 基础设施生态产生深远影响。
第一个信号是 JAX 生态的信誉危机。xAI 是全球最受关注的 AI 公司之一,其技术选型具有极强的风向标意义。当一个 JAX 旗舰用户以如此公开的方式放弃这个框架,其他正在评估训练框架的 AI 公司必然会重新审视自己的技术路线。Google 内部对 JAX 的投入也可能面临重新评估。短期内,PyTorch 的分布式训练生态可能会捕获更多的新增用户。
第二个信号是 NVIDIA 的困境与机遇。NVIDIA 的 JAX 团队失败,并不意味着 NVIDIA 在训练框架竞争中失败了。事实上,xAI 的新框架依然运行在 NVIDIA GPU 上,只是不再通过 JAX 这个中间层。对 NVIDIA 来说,关键是确保 AI 公司的训练框架能够高效利用其 GPU,至于框架是用 JAX、PyTorch 还是自研 C 语言写的,并不重要。NVIDIA 的 CUDA 生态护城河反而因为这起事件变得更加凸显:xAI 用 C 语言写框架,本质上是在 CUDA 之上直接编程。
第三个信号是 Vibe Coding 在系统软件领域的机会。如果 xAI 成功验证了”AI 编写基础设施代码”这个范式,我们会看到更多的 AI 公司走上类似的路径。不是所有的公司都需要自研训练框架,但越来越多的公司会尝试用 AI 辅助开发的方式来优化和定制自己的底层系统。
局限与风险
xAI 的这次转型并非没有风险。用 Vibe Coding 编写 C 语言训练框架是一个未经大规模验证的尝试,其不确定性不可忽视。
第一个风险是 C 语言本身的维护成本。C 语言以其高表达能力和性能著称,但也以其糟糕的内存安全和漫长的调试周期闻名。即使 AI 能够生成 C 代码,逐行审查和调试这些代码依然需要高水平的人类工程师。
第二个风险是 Grok Build 的成熟度。Grok Build 0.2.7 刚刚发布,远未达到生产级软件的稳定性标准。训练框架需要在数万张 GPU 上稳定运行数周甚至数月,任何微小的 bug 都可能导致整个训练任务的失败。
第三,也是更深层的风险,是”过度定制”。xAI 自研框架的目的是追求极致性能,但这种性能可能在当前的 GPU 架构上最优,而无法平滑迁移到下一代硬件。当 NVIDIA 发布 Blackwell Ultra 或 Rubin 架构时,xAI 可能需要重新编写大量底层代码。
下一步观察什么
xAI 的 JAX 迁移故事还远没有结束。接下来几个月,有几个关键的观察指标值得追踪。
第一是 Grok Build 的公开进展。Grok Build 0.2.7 发布后,xAI 是否会开放更多技术细节或 benchmark 数据,将直接影响行业对这个方案的信心。
第二是 NVIDIA 的应对策略。NVIDIA 失去了一个在 JAX 上的旗舰客户,但可能通过其他方式弥补。NVIDIA 是否会加速其自有训练框架(如 Megatron-Core)的优化,或者推出新的底层编程模型,值得关注。
第三是 Vibe Coding 工具的进化。Claude Code、Cursor 和 Grok Build 等工具能否支持系统级代码的生成和调试,决定了这种范式能否从 xAI 的特例变成行业的常态。
常见问题(FAQ)
xAI 的自研训练框架会在开源社区发布吗?
目前没有任何迹象表明 xAI 会开源其训练框架。对 xAI 来说,这个框架是核心竞争力的组成部分,开源的可能性极低。但对生态的影响已经形成:其他 AI 公司可能以类似思路进行自研框架的探索,而这些探索中的一部分可能会以开源方式回馈社区。
MFU 10% 这个数字是否夸张?
多位 AI 基础设施工程师在 SemiAnalysis 报告发布后在社交媒体上确认了这个数字的合理性。JAX 在小规模和中等规模集群上可以表现良好,但在 xAI 使用的超大规模集群上确实面临严重的效率问题。MFU 10% 虽然低于行业标杆,但对于在非原生场景下运行超大规模训练的 JAX 来说并非不可能(SemiAnalysis, 2026)。
其他 AI 公司是否也会放弃 JAX?
Google DeepMind 和 Hugging Face 等深度绑定 JAX 的机构短期内不会放弃。但 xAI 的案例会迫使更多 AI 公司在选择训练框架时考虑长期的可扩展性和效率天花板。对于算力规模在万卡级别以上的公司,自研或定制训练框架的趋势可能会加速。
Grok Build 和现有的 Vibe Coding 工具有什么区别?
Grok Build 是一个从训练框架编译到部署的全链路工具链,而非简单的代码生成器。它的核心能力是理解训练框架的架构意图并生成可执行的 C 语言代码,这区别于 Cursor 和 Claude Code 更通用的代码生成能力。Grok Build 的定位更接近于”AI 编译器”而非”AI 编码助手”。
Vibe Coding 写基础设施代码的安全如何保障?
这是目前这个领域最大的争议点。C 语言的内存安全问题(缓冲区溢出、野指针等)在 AI 生成的代码中更加难以审查。xAI 的工程团队需要建立严格的代码审查和自动化测试流程。目前的共识是,AI 生成基础设施代码需要比生成应用代码更严格的质量控制标准,包括但不限于形式化验证、模糊测试和运行时安全检查。
作者:智盒(aiKit.vip)| 资讯 · 资源 · 工具 · 导航
关注我们,获取每日 AI 前沿资讯与深度分析。








