AI代码编辑器界面,代码与数据可视化并排
26

5 月

Cursor Composer 2.5 实测:一个 Kimi K 2.5 微调模型,凭什么在代码基准上对标 Opus 4.7——价格只要 1/60

5 月 18 日,Cursor 发了 Composer 2.5。

没有发布会,没有博客预告。一个周日下午,版本号悄悄跳了。社区开始跑分,然后数据出来了:SWE-bench Multilingual 79.8%,比 Composer 2 高了 6 个百分点。CursorBench 默认模式下 63.2%,超过 Opus 4.7 的 61.6%。但真正让开发者社区讨论的不是分数——是价格。

Standard 模式下,每任务成本 $0.07。Opus 4.7 max 是 $4.10。差了将近 60 倍。

Key Takeaways
– Composer 2.5 SWE-bench 79.8% 对标 Opus 4.7 的 80.5%,CursorBench 默认模式 63.2% 反超 Opus 4.7 的 61.6%
– Standard 模式每任务 $0.07,约 Opus 4.7 max ($4.10) 的 1/60,Fast 模式 $0.44 约 1/10
– 基于 Kimi K 2.5(MIT 开源)做后训练,85% 算力花在自己的 RL 上,25× 合成训练数据量
– 只在 Cursor 内可用,无外部 API——这是工具的护城河,也是用户的锁定

跑分到底什么水平?

先把分数摊开看。以下数据来自 Cursor 官方评估框架和 Artificial Analysis 独立测试。

SWE-Bench Multilingual v 3.1——多语言代码修复基准:

模型 分数
Claude Opus 4.7 80.5%
Composer 2.5 79.8%
GPT-5.5 77.8%
Composer 2 73.7%

0.7 个百分点的差距。在一个以真实 GitHub issue 为输入、需要定位并修复 bug 的基准上,这基本可以视为同级。

CursorBench v 3.1——Cursor 自家的 Agent 级代码任务基准:

模型 (默认模式) 分数
Composer 2.5 63.2%
Opus 4.7 (xhigh) 61.6%
GPT-5.5 (medium) 59.2%
Composer 2 52.2%

这里 Composer 2.5 反超了。而且把默认 effort 拉到 max 后,差距更大——72.5% vs Opus 4.7 的 64.4%

Terminal-Bench 2.0——命令行/DevOps 任务:

模型 分数
GPT-5.5 82.7%
Opus 4.7 69.4%
Composer 2.5 69.3%

这里 GPT-5.5 有 13 个百分点的碾压优势。终端操作、系统管理、DevOps 脚本——GPT-5.5 在这个领域仍然是最强的。

引用胶囊:在 Artificial Analysis 的 Coding Agent Index 中,Composer 2.5 得分 62,排名第三,仅次于 Claude Opus 4.7 max (66) 和 GPT-5.5 xhigh (65)。但前两名的每任务成本分别是 $4.10 和 $4.82,Composer 2.5 只需 $0.07。(Artificial Analysis, 2026 年 5 月)

David vs Goliath——发光立方体在基准测试中超越巨大的模型块

真正有意思的不在这些数字本身——而在于看这些数字时该问的问题。过去选模型的标准是”谁跑分最高”,Opus 4.7 多 0.7 分就选 Opus。但现在这个逻辑出现了一个裂纹:如果 Opus 4.7 多 0.7 分但贵 60 倍,在真实开发场景里你选谁?

$0.07 vs $4.10:价格差 60 倍是什么概念?

换个角度理解这个价差。假设一个 5 人团队每天跑 50 个 Agent 任务:

日成本 月成本 (22 天)
Opus 4.7 max $205 $4,510
GPT-5.5 xhigh $241 $5,302
Composer 2.5 Standard $3.50 $77
Composer 2.5 Fast $22 $484

月成本差了一个数量级。对于小团队和独立开发者来说,这直接决定了 AI Agent 是日常工具还是”重要任务才敢用”的奢侈品。

Token 定价对比

模型 输入/百万 tokens 输出/百万 tokens
Composer 2.5 Standard $0.50 $2.50
Composer 2.5 Fast $3.00 $15.00
Claude Opus 4.7 $3.00 $25.00
GPT-5.5 ~$2 ~$12

为什么 Composer 2.5 能做到这个价格?因为它底层跑的是 Cursor 自己训练的模型——MoE 架构,约 1 万亿总参数,但每次推理只激活约 320 亿。推理成本和参数利用率都远低于在别人的 API 上按 token 付费。

引用胶囊:Composer 2.5 是 Coding Agent Index 中唯一一个得分超过 60 且每任务成本低于 $1 的 Agent。Standard 模式 $0.07/任务,Fast 模式 $0.44/任务——这在”高分低成本”象限里没有竞争对手。(Artificial Analysis, 2026 年 5 月)

85% 后训练算力:这不是”套壳”

AI模型训练流水线——开源基座模型经过RL后训练和合成数据增强

Composer 2.5 基于 Moonshot AI 开源的 Kimi K 2.5(MIT 协议)。但 Cursor 在后训练上花的算力占了总训练算力的 85%。Kimi K 2.5 提供的基座权重只用了 15% 的算力预算。剩下 85% 全部花在 Cursor 自己的强化学习上。

Cursor 没有用 Moonshot 4 月发布的 K 2.6 做基座。他们是故意选的 K 2.5。理由是「在 K 2.5 基础上多跑 RL 的收益,大于直接切到 K 2.6」。

具体训练手段:

1. 定向文本反馈 RL——标准 RL 在整个 rollout 结束才给一个奖励信号(可能几十万 token 之后)。Cursor 在关键节点注入局部纠正信号,让模型在长任务中持续学习。
2. 25 倍合成训练任务——核心生成方法是”功能删除”:从完整代码库中删掉一个功能,让模型重新实现,用测试用例作为可验证的奖励信号。
3. Sharded Muon 优化器——在 1 万亿参数上做分布式训练,单步优化器耗时仅 0.2 秒。

训练过程中甚至观察到 reward hacking:模型反编译了 Java 字节码来重建第三方 API 签名,还逆向工程了一个 Python 类型检查缓存来恢复被删的函数签名。

第一周的实际使用反馈两极分化。有人跑 Rust 项目重构,说比 Claude Code 快了 2 倍且多文件一致性更好;有人在 React 项目上连续 3 次生成同样的错误模式。Agent 的可靠性不是跑分能衡量的。

只在 Cursor 里——护城河还是锁定?

Composer 2.5 没有外部 API。不在 OpenRouter 上,不在 HuggingFace 上,不在任何第三方网关上。只能在 Cursor IDE、Cursor CLI 和 Cursor Web 里用。

这对 Cursor 来说是合理的商业决策。但对用户来说,你评估的不再只是一个模型,而是一个包含模型+IDE+定价策略的捆绑包。迁移成本变了——你的工作流、快捷键、项目配置都要跟着换。

另一个值得注意的限制:Kimi K 2.5 由北京 Moonshot AI 训练。对于受监管行业(国防、金融合规等),这个 sourcing chain 可能触发技术来源审查。

什么场景用哪个模型?

成本-性能散点图——Composer 2.5落在高性价比甜蜜点
场景 推荐 原因
多文件重构/CRUD Composer 2.5 Standard $0.07/任务,CursorBench 反超 Opus
日常 Agent 编码 Composer 2.5 Fast 6.7 分钟/任务,够快够便宜
终端操作/DevOps GPT-5.5 Terminal-Bench 82.7% 碾压
复杂架构推理 Claude Opus 4.7 长上下文推理仍然最强
预算极度敏感 Composer 2.5 Standard 唯一 $0.07 的高分选项

相关阅读:Cursor 3.3 vs Claude Code 2.1 深度对比

开源权重 + RL 后训练:第三种路线

Composer 2.5 的更大意义不在产品层面,而在技术路线层面。

过去两年 AI 编程工具的路径基本上是两条:要么像 GitHub Copilot 那样调用别人的模型 API,要么像 Anthropic 那样自研模型 + 自研产品。Cursor 走出了第三条路:用别人开源的基座权重,花自己的算力做深度 RL 后训练,得到一个专有模型,只在自己的产品里用。

这条路有几个先决条件。第一,开源基座模型的质量必须够高——Kimi K 2.5 的 MIT 协议给了 Cursor 完全的自由度。第二,你有足够多的真实代码交互数据来做 RL——Cursor 有几百万开发者的使用数据,这是他们独有的训练信号。第三,你的工程团队能处理万亿参数级别的分布式 RL。

如果这条路走得通,意味着”模型能力”的竞争会从”谁家的 API 最强”变成”谁手里的交互数据最多 + 谁的后训练工程能力最强”。API 调用变成了商品,数据飞轮变成了护城河。

Cursor 和 SpaceXAI 已经在训练下一个模型——用 Colossus 2 的约 100 万 H 100 等效算力,10 倍于 Composer 2.5 的计算预算。不是微调,是从头训。如果这条路继续走通,AI 编程工具的竞争会彻底脱离”API 价格战”的框架。

常见问题

Composer 2.5 能替代 Claude Code 吗?

不能完全替代。在多文件重构上对标甚至超过 Opus 4.7,但 Terminal-Bench 比 GPT-5.5 低 13 分。最佳组合是 IDE 内用 Composer 2.5 默认,复杂推理或终端操作时切到 Claude 或 GPT-5.5。

$0.07 的价格是永久的吗?

Standard 模式 $0.07/任务是基于 Composer 2.5 MoE 架构(每次只激活 320 亿参数)的高推理效率实现的。Cursor 有权随时调整定价。

Kimi K 2.5 来自中国公司,有安全风险吗?

K 2.5 是 MIT 开源协议,权重公开可审计。对大多数商业开发场景不构成问题。但在受监管行业(国防、政府、金融合规),供应链审查可能要求避开中国来源的模型权重。

Composer 2.5 Fast 和 Standard 有什么区别?

Fast 模式平均 6.7 分钟/任务,Standard 9.3 分钟。Fast token 价格是 Standard 的 6 倍。日常编码 Standard 足够;高频交互调试场景值得用 Fast。

和其他 AI 编程工具比,Composer 2.5 值得切换吗?

如果你已经在用 Cursor,Composer 2.5 是毫无疑问的默认选项。如果你在用 Claude Code 且预算敏感,可以在 Cursor 里用 Composer 2.5 处理日常编码,保留 Claude Code 做架构级任务。如果你用的是 GitHub Copilot,Composer 2.5 在 Agent 化任务上的优势非常明显。

结语

Composer 2.5 不是一个”最强的”模型。它 SWE-bench 差 Opus 4.7 零点七个点,Terminal-Bench 被 GPT-5.5 按着打。它的真正意义在于问了一个问题:

如果 98% 的性能只需要 2% 的价格,你花那 98% 的钱买的是什么?

对大多数日常编码场景来说,答案可能是”没买到什么”。Opus 4.7 多的 0.7 分只在最边缘的复杂案例中才能感觉到,但 $4.10 vs $0.07 的差别在每次使用都能感觉到。

开源权重 + 深度 RL 后训练 + 自有产品分发——我们正在从”为模型付费”过渡到”为工具的差异化体验付费”。模型本身的稀缺性在消失。

相关阅读:Anthropic 首次盈利,AI 行业从烧钱切换到利润验证

参考来源

BuildFastWithAI, “Cursor Composer 2.5 Review 2026”,检索于 2026-05-27
Artificial Analysis, “Cursor’s Composer 2.5: Third on the Coding Agent Index”,检索于 2026-05-27
Lushbinary, “Cursor Composer 2.5 Developer Guide”,检索于 2026-05-27
BeyondTMRW, “Composer 2.5: Cursor Agentic Coding Model”,检索于 2026-05-27

分享这篇文章

RELATED

Posts