xAI 抛弃 JAX GPU 框架自研 C 训练栈：当 Vibe Coding 开始攻占 AI 基础设施

盒盒

5 月

xAI 抛弃 JAX GPU 框架自研 C 训练栈：当 Vibe Coding 开始攻占 AI 基础设施

一句话结论：xAI 选择用 Grok Build 以 Vibe Coding 方式从零自研 C 语言训练框架，这不是一个技术选型失误后的补救，而是 AI 基础设施层正在发生的范式转移信号：Vibe Coding 从写应用正式进入到写系统软件的阶段。

发生了什么

2026 年 5 月，SemiAnalysis 发布的一份深度报告在 AI 基础设施圈子掀起了波澜。报告指出，xAI 已正式放弃基于 Google JAX 的 GPU 训练堆栈，转而使用 Grok Build 以 Vibe Coding 方式用 C 语言重写训练框架。

这听起来像是一个极客实验室的疯狂实验，但它发生在全球估值最高的 AI 公司之一身上。据 SemiAnalysis 披露，xAI 在 JAX 堆栈上的 MFU（Model FLOP Utilization，模型浮点利用率）长期低于 10%，远低于行业标杆 30-50% 的水平。换句话说，xAI 花费数亿美元采购的 NVIDIA GPU，90% 以上的算力在实际训练中处于浪费状态。

更令人震惊的是，NVIDIA 的 JAX 团队在过去两年里以近乎全员 996 的方式全力支持 xAI，最终仍然没能解决问题。xAI 的选择不是继续修复 JAX，而是彻底推倒重来，用自家的 Grok Build 工具链，以 Vibe Coding 的方式编写 C 语言训练框架。Grok Build 0.2.7 刚刚发布，这一版本承载着 xAI 训练基础设施的全部希望。

xAI 为什么放弃 JAX GPU 训练堆栈？

xAI 放弃 JAX 的直接原因只有一个：MFU 低于 10%。但在这一数字背后，隐藏着 AI 基础设施选型中一个长期被低估的矛盾：框架的灵活性与训练效率之间的根本性冲突。

JAX 由 Google 开发，以其函数式编程模型和自动微分能力著称。它在研究社区中拥有广泛的应用基础，尤其是在需要快速实验和模型架构创新的场景下。Google DeepMind 大量使用 JAX 进行前沿研究，Hugging Face 的 Transformer 生态也与 JAX 深度集成。但 JAX 在生产级大规模训练中的痛点恰恰在于其抽象层。

SemiAnalysis 报告指出，JAX 的 XLA 编译器在面对 xAI 的超大规模集群时出现了严重的性能瓶颈。XLA 通过 JIT 编译将高级操作映射到底层 GPU 指令，但这种映射在跨数千张 GPU 的分布式训练场景下会产生大量无效的通信开销和内存碎片。xAI 的工程师团队为此付出了巨大努力。他们逐一排查 XLA 的编译路径，手动优化关键算子，甚至直接修改 JAX 底层代码。但 MFU 始终无法突破 10% 这个天花板。

对 xAI 来说，时间是最昂贵的成本。Elon Musk 为 xAI 定下的训练节奏以”周”为单位计算。每一周的算力浪费都意味着模型迭代的延迟，也意味着在 AGI 竞赛中被拉开差距。当 JAX 堆栈的优化潜力被证明是有限的，xAI 做出了理性的选择：放弃，而不是继续修补。

MFU 低于 10% 对 xAI 来说意味着什么？

这个数字意味着 xAI 每购买 10 块 NVIDIA H 100 GPU，实际有效算力只有不到 1 块。以目前 H 100 的市场价格计算，xAI 在算力采购上的浪费以数亿美元计。

MFU（Model FLOP Utilization）是衡量 AI 训练效率的核心指标。它计算的是 GPU 的理论峰值算力中有多少被实际用于模型训练。行业标杆水平通常认为 30-50% 是健康的范围。Google 的 TPU 团队曾在 PaLM 训练中实现了超过 50% 的 MFU，NVIDIA 自己的 Megatron-LM 堆栈也能达到 40% 以上（NVIDIA Developer Blog, 2025）。xAI 的 10% 意味着在同等算力投入下，他们的有效训练速度只有行业标杆的四分之一到五分之一。

这个差距对 xAI 的 Grok 模型意味着真实的竞争劣势。假设 xAI 和 OpenAI 同样部署了 10 万张 H 100，OpenAI 的 Megatron-PyTorch 堆栈以 40% MFU 运行，而 xAI 只有 10% MFU，那么 OpenAI 的有效算力等效于 4 万张 GPU，xAI 只有 1 万张。这个 4:1 的差距不是模型架构或训练数据所能弥补的。

理解这个数字的另一个维度是时间。xAI 训练 Grok-3 级别的模型可能需要数周时间。MFU 每提升 10 个百分点，训练时间就缩短四分之一。对于一家处在 AGI 竞赛第一梯队、创始人以”加速”为核心哲学的公司来说，10% 的 MFU 不是一个技术指标，而是一个战略警报。

NVIDIA 的 JAX 团队为什么没能救场？

NVIDIA 的 JAX 团队过去两年的工作方式可以用一个词来概括：竭尽全力。据 SemiAnalysis 披露，这支团队以接近全员 996 的节奏深度嵌入 xAI 的训练工程中，他们修改了 JAX 编译器的大量底层代码，重写了多个关键 GPU 算子，甚至为 xAI 的训练集群定制了专门的通信库。

这不是 NVIDIA 在敷衍了事。恰恰相反，NVIDIA 对 JAX 的投入在他们的产品战略中是优先级极高的项目。JAX 代表了 Google 生态在 AI 框架层的影响力。NVIDIA 如果能在 xAI 这样的顶级客户中证明 JAX 的生产级能力，就能在与 Google TPU 的竞争中获得关键筹码。所以 NVIDIA 的 JAX 团队不是不想解决，而是遇到了一个更深层的问题。

这个问题的核心在于 JAX 本身的架构假设。JAX 设计之初的定位是研究导向的框架。它的函数式编程模型、JIT 编译方式和自动微分机制对快速原型验证极其友好，但对生产级超大规模训练的支持是后来才被填补的。XLA 编译器在单 GPU 和小规模集群上表现出色，但在跨千卡、万卡的分布式训练中，它的自动化优化策略经常会做出次优决策。

Grok Build 如何用 Vibe Coding 重写训练框架？

Grok Build 是 xAI 内部开发的一套构建工具链，最初主要用于模型编译和部署流水线。但它的能力在最近几个版本中发生了质的飞跃。Grok Build 0.2.7 刚刚发布，这个版本的重点不是新功能，而是对 C 语言训练框架原生支持的底层重构。

这里的 Vibe Coding 不是指松懈的”氛围编程”，而是指一种高度人机协作的开发范式。xAI 的工程师向 Grok 描述训练框架的设计意图和性能约束，Grok 生成 C 语言代码，工程师审查并指导修改，迭代速度以小时为单位计算。这不同于传统的”提示-生成-粘贴”模式，而是一种真正的结对编程：AI 写代码，人做架构决策，双方共同调试和优化。

xAI 选择 C 语言而非 C++ 或 Rust，这个决策本身值得解读。C 语言在 GPU 编程中依然是无可替代的工具。CUDA 的核心运行时库就是用 C 编写的，NVIDIA 的 GPU 驱动层和底层算子实现也以 C 为主。用 C 编写训练框架意味着 xAI 可以获得对 GPU 资源的完全控制：没有运行时开销，没有垃圾回收，没有抽象层带来的性能折损。

Grok Build 做的事情可以理解为：将训练框架从”高层语言 + 编译器自动优化”的模式，转向”领域特定语言 + AI 辅助生成”的模式。工程师不再通过调整 JAX 的 Python 代码来间接控制 GPU 行为，而是通过向 Grok 描述计算需求，让 AI 直接生成能够精确控制 GPU 寄存器和内存的 C 代码。这听起来激进，但在 MFU 必须从 10% 跳到 50% 以上的压力下，这种激进可能是唯一合理的路径。

Vibe Coding 从写应用到写基础设施，这个转变意味着什么？

2025 年 2 月，Andrej Karpathy 在推文中首次提出”Vibe Coding”这个概念时，他描述的是一种完全沉浸在编程氛围中、让 AI 生成大部分代码的开发体验。那是 Vibe Coding 1.0：用自然语言描述 UI 组件、API 接口和数据处理逻辑，AI 为你生成 React 组件、Python API 和 SQL 查询。

但 xAI 的 Grok Build 实践标志着 Vibe Coding 进入了 2.0 阶段：它不是用自然语言写 CRUD 应用，而是用自然语言写 GPU 驱动级的 C 代码。AI 生成的代码不再运行在抽象层之上的应用沙箱里，而是直接运行在硬件层面。这在六个月前几乎没有人相信能做到。

这个转变对 AI 开发者的意义是多层的。第一层是技术可行性的证明：大语言模型已经能够生成足够高质量的系统级代码，这些代码不是玩具级的 demo，而是能够运行在万卡集群上的生产级代码。第二层是开发效率的重新定义：传统上，系统软件的开发周期以年为单位。但借助 Vibe Coding，xAI 在几个月内就从零搭建了一个 C 训练框架的雏形。

第三层，也是最重要的信号，是 Vibe Coding 正在打破”抽象层信仰”。AI 行业过去十年一直在向上抽象：从汇编到 C，从 C 到 Python，从 Python 到框架，从框架到无代码。但 xAI 的选择是反向的：当现有抽象层限制了性能，就用 AI 直接生成更底层的代码。这种”去抽象化”的趋势如果持续下去，可能重新定义整个 AI 软件栈的构建方式。

这对 AI 基础设施格局意味着什么？

xAI 的事件不是孤立的。它正在释放一系列连锁信号，对整个 AI 基础设施生态产生深远影响。

第一个信号是 JAX 生态的信誉危机。xAI 是全球最受关注的 AI 公司之一，其技术选型具有极强的风向标意义。当一个 JAX 旗舰用户以如此公开的方式放弃这个框架，其他正在评估训练框架的 AI 公司必然会重新审视自己的技术路线。Google 内部对 JAX 的投入也可能面临重新评估。短期内，PyTorch 的分布式训练生态可能会捕获更多的新增用户。

第二个信号是 NVIDIA 的困境与机遇。NVIDIA 的 JAX 团队失败，并不意味着 NVIDIA 在训练框架竞争中失败了。事实上，xAI 的新框架依然运行在 NVIDIA GPU 上，只是不再通过 JAX 这个中间层。对 NVIDIA 来说，关键是确保 AI 公司的训练框架能够高效利用其 GPU，至于框架是用 JAX、PyTorch 还是自研 C 语言写的，并不重要。NVIDIA 的 CUDA 生态护城河反而因为这起事件变得更加凸显：xAI 用 C 语言写框架，本质上是在 CUDA 之上直接编程。

第三个信号是 Vibe Coding 在系统软件领域的机会。如果 xAI 成功验证了”AI 编写基础设施代码”这个范式，我们会看到更多的 AI 公司走上类似的路径。不是所有的公司都需要自研训练框架，但越来越多的公司会尝试用 AI 辅助开发的方式来优化和定制自己的底层系统。

局限与风险

xAI 的这次转型并非没有风险。用 Vibe Coding 编写 C 语言训练框架是一个未经大规模验证的尝试，其不确定性不可忽视。

第一个风险是 C 语言本身的维护成本。C 语言以其高表达能力和性能著称，但也以其糟糕的内存安全和漫长的调试周期闻名。即使 AI 能够生成 C 代码，逐行审查和调试这些代码依然需要高水平的人类工程师。

第二个风险是 Grok Build 的成熟度。Grok Build 0.2.7 刚刚发布，远未达到生产级软件的稳定性标准。训练框架需要在数万张 GPU 上稳定运行数周甚至数月，任何微小的 bug 都可能导致整个训练任务的失败。

第三，也是更深层的风险，是”过度定制”。xAI 自研框架的目的是追求极致性能，但这种性能可能在当前的 GPU 架构上最优，而无法平滑迁移到下一代硬件。当 NVIDIA 发布 Blackwell Ultra 或 Rubin 架构时，xAI 可能需要重新编写大量底层代码。

下一步观察什么

xAI 的 JAX 迁移故事还远没有结束。接下来几个月，有几个关键的观察指标值得追踪。

第一是 Grok Build 的公开进展。Grok Build 0.2.7 发布后，xAI 是否会开放更多技术细节或 benchmark 数据，将直接影响行业对这个方案的信心。

第二是 NVIDIA 的应对策略。NVIDIA 失去了一个在 JAX 上的旗舰客户，但可能通过其他方式弥补。NVIDIA 是否会加速其自有训练框架（如 Megatron-Core）的优化，或者推出新的底层编程模型，值得关注。

第三是 Vibe Coding 工具的进化。Claude Code、Cursor 和 Grok Build 等工具能否支持系统级代码的生成和调试，决定了这种范式能否从 xAI 的特例变成行业的常态。

常见问题（FAQ）

xAI 的自研训练框架会在开源社区发布吗？

目前没有任何迹象表明 xAI 会开源其训练框架。对 xAI 来说，这个框架是核心竞争力的组成部分，开源的可能性极低。但对生态的影响已经形成：其他 AI 公司可能以类似思路进行自研框架的探索，而这些探索中的一部分可能会以开源方式回馈社区。

MFU 10% 这个数字是否夸张？

多位 AI 基础设施工程师在 SemiAnalysis 报告发布后在社交媒体上确认了这个数字的合理性。JAX 在小规模和中等规模集群上可以表现良好，但在 xAI 使用的超大规模集群上确实面临严重的效率问题。MFU 10% 虽然低于行业标杆，但对于在非原生场景下运行超大规模训练的 JAX 来说并非不可能（SemiAnalysis, 2026）。

其他 AI 公司是否也会放弃 JAX？

Google DeepMind 和 Hugging Face 等深度绑定 JAX 的机构短期内不会放弃。但 xAI 的案例会迫使更多 AI 公司在选择训练框架时考虑长期的可扩展性和效率天花板。对于算力规模在万卡级别以上的公司，自研或定制训练框架的趋势可能会加速。

Grok Build 和现有的 Vibe Coding 工具有什么区别？

Grok Build 是一个从训练框架编译到部署的全链路工具链，而非简单的代码生成器。它的核心能力是理解训练框架的架构意图并生成可执行的 C 语言代码，这区别于 Cursor 和 Claude Code 更通用的代码生成能力。Grok Build 的定位更接近于”AI 编译器”而非”AI 编码助手”。

Vibe Coding 写基础设施代码的安全如何保障？

这是目前这个领域最大的争议点。C 语言的内存安全问题（缓冲区溢出、野指针等）在 AI 生成的代码中更加难以审查。xAI 的工程团队需要建立严格的代码审查和自动化测试流程。目前的共识是，AI 生成基础设施代码需要比生成应用代码更严格的质量控制标准，包括但不限于形式化验证、模糊测试和运行时安全检查。

作者：智盒（aiKit.vip）｜资讯 · 资源 · 工具 · 导航

关注我们，获取每日 AI 前沿资讯与深度分析。

作者

盒盒

Claude Opus 4.8 发布：4 倍更诚实、Dynamic Workflows、价格不变 - 智盒 2026-06-25

[…] xAI 抛弃 JAX GPU 框架自研 C 训练栈：当 Vibe Coding 开始攻占 AI 基础设施 […]

资源

没有评论 Read More

xAI 抛弃 JAX GPU 框架自研 C 训练栈：当 Vibe Coding 开始攻占 AI 基础设施

发生了什么

xAI 为什么放弃 JAX GPU 训练堆栈？

MFU 低于 10% 对 xAI 来说意味着什么？

NVIDIA 的 JAX 团队为什么没能救场？

Grok Build 如何用 Vibe Coding 重写训练框架？

Vibe Coding 从写应用到写基础设施，这个转变意味着什么？

这对 AI 基础设施格局意味着什么？

局限与风险

下一步观察什么