Cover image for cerebras-kimi-k2-6-inference-speed
3

6 月

Cerebras 跑 Kimi K 2.6 达到 981 tokens/s:万亿参数模型的「推理经济学」被改写了

AI 摘要:Cerebras 在 Kimi K 2.6(1 T 参数开源模型)上跑出 981 tokens/s,比最快 GPU 云快 6.7 倍、比官方 API 快 29 倍。10 K 输入+500 输出任务仅需 5.6 秒。万亿参数模型推理成本可能迎来断崖式下降。

AI 摘要 – Cerebras CS-3 在 Kimi K 2.6 上跑出 981 tokens/s,是 GPU 云服务的 6.7 倍 – 10 K 输入 + 500 输出任务:Cerebras 5.6 秒完成,官方 Kimi 端点需 163.7 秒 – Kimi K 2.6:1 T 参数 MoE(激活 32 B),Artificial Analysis 智能指数 54,全球开源排名第一

981 tokens per second。这个数字意味着什么?

先建立一个参考系。你正在用 ChatGPT 或 Claude,输入一个问题,模型开始逐字输出答案。在典型的商业 API 上,GPT-5.5 和 Claude Opus 系列通常以每秒 50-100 个 token 的速度吐字。这个速度是「能接受」的——但在 Agent 多轮任务中,等待时间会累加。10 次调用,每次 10 秒,就是一分钟以上的延迟。

现在设想:同样的模型权重,同样的任务,每秒输出 981 个 token。你的 500 token 答案在 0.5 秒内全部返回。

这就是 Cerebras 在 2026 年 5 月 20 日做到的事。他们用自研的 CS-3 晶圆级芯片运行 Moonshot AI 的 Kimi K 2.6(一个 1 万亿参数的 MoE 模型),达到了 981 tokens/s 的输出速度。这个数字经 Artificial Analysis 独立验证。

不是纸面跑分——是真实对比

最震撼的不是绝对速度,而是相对差距。

Cerebras 将 Kimi K 2.6 部署在自研硬件上,GPU 云服务提供商也在各自的 A 100/H 100 集群上运行同样的模型。Artificial Analysis 记录了对比数据:

  • Cerebras CS-3:981 tokens/s
  • 最快的 GPU 云:约 146 tokens/s(Cerebras 快 6.7 倍)
  • 中位数推理服务:约 43 tokens/s(Cerebras 快 23 倍)
  • Kimi 官方 API 端点:约 6 tokens/s(Cerebras 快 163 倍)

最后一个对比值得单独拎出来说——同一个模型,在 Cerebras 上比在 Moonshot 自己的 API 端点上快了 163 倍。这说明 Moonshot 的 API 部署可能受限于 GPU 分配或经济模型考虑,而非模型本身的推理效率。

在一个具体的测试中(10,000 token 输入 + 500 token 输出),Cerebras 返回完整答案的时间是 5.6 秒。Kimi 官方端点需要 163.7 秒。

163 秒对于交互式 Agent 任务来说基本不可用。5.6 秒意味着万亿参数模型的实时交互成为可能。

Kimi K 2.6 是什么?

要理解 Cerebras 的成绩为什么重要,需要先了解 Kimi K 2.6。

Moonshot AI(月之暗面)于 2026 年 4 月 20 日发布了 Kimi K 2.6,开源权重下的许可协议相对宽松。关键参数:1 万亿总参数、320 亿激活参数、MoE 架构、256 K 上下文窗口。

在 Artificial Analysis 的智能指数上,Kimi K 2.6 得分 54——全球所有模型排名第四,仅次于 Anthropic、Google、OpenAI 的闭源旗舰(均为 57)。它是目前全球最强的开源模型。

在编码方面:SWE-bench Pro 58.6(超 Claude Opus 4.6),SWE-bench Verified 80.2。在 Agent 基准测试方面:GDPval-AA Elo 1520(比 K 2.5 跳升 211 分),τ²-Bench Telecom 工具使用 96%。

中国 AI 实验室持续向开源生态贡献高分模型——而美国公司倾向于将最强模型保留在 API 后面。Kimi K 2.6 是这个模式的最新例子。

为什么 Cerebras 能做到这么快?

关键在硬件架构,不是软件优化。

传统的 GPU 集群在处理大模型推理时面临两个瓶颈:一是显存墙——模型参数分布在数百个 GPU 上,卡间通信成为速度瓶颈;二是批处理延迟——为最大化 GPU 利用率,请求通常排队等待批量处理,增加了延迟。

Cerebras CS-3 是一块晶圆级芯片——整张晶圆作为一个处理器,拥有海量的片上内存和极高的内部带宽。对于 MoE 模型,CS-3 可以将整个专家网络保留在片上,不需要跨芯片搬移数据。

这是一次「硬件决定速度」的演示。Cerebras 用它证明了万亿参数模型的实时推理在物理上是可行的——挑战在于没有人会用 1 T 参数模型做日常聊天,但用 1 T 参数开源模型做复杂 Agent 推理的成本可能会降到今天无法想象的水平。

FAQ

Q:我能直接买到 Cerebras 的推理服务吗? A:Cerebras 目前主要面向企业提供云推理服务。不过 Kimi K 2.6 本身是开源的,任何硬件平台都可以部署。

Q:Kimi K 2.6 比 GPT-5.5 或 Opus 4.8 好吗? A:综合智能上不如最新旗舰模型(AI Index 54 vs 57),但在开源模型中排名第一。SWE-bench Pro 58.6 超过了 Claude Opus 4.6。

Q:这对普通用户有什么影响? A:短期内不会直接改变你用 ChatGPT 或 Claude 的体验。但万亿参数开源模型 + 专用推理芯片的组合可能让 AI Agent 的响应速度发生质变——当 Agent 一次任务涉及 10-20 次多轮推理时,从「等几分钟」到「等几秒」的差距是决定性的。


Cerebras + Kimi K 2.6 的 981 tokens/s 实验证明了一件事:万亿参数开源模型的高效推理已经不再是实验室幻想。GPU 推理的瓶颈在硬件层面,而不在模型层面。接下来要看的,是 Cerebras 能否将这种速度规模化——以及英伟达和 AMD 如何回应。

RELATED

Posts