Cursor Composer 2.5 实测：一个 Kimi K 2.5 微调模型，凭什么在代码基准上对标 Opus 4.7——价格只要 1/60

Q: 跑分到底什么水平？ 先把分数摊开看。以下数据来自 Cursor 官方评估框架和 Artificial Analysis 独立测试。 SWE-Bench Multilingual v3.1——多语言代码修复基准： 模型 分数 Claude Opus 4.7 80.5% Composer 2.5 79.8% GPT-5.5 77.8% Composer 2 73.7% 0.7 个百分点的差距。在一个以真实 GitHub issue 为输入、需要定位并修复 bug 的基准上，这基本可以视为同级。 CursorBench v3.1——Cursor 自家的 Agent 级代码任务基准： 模型 (默认模式) 分数 Composer 2.5 63.2% Opus 4.7 (xhigh) 61.6% GPT-5.5 (medium) 59.2% Composer 2 52.2% 这里 Composer 2.5 反超了。而且把默认 effort 拉到 max 后，差距更大——72.5% vs Opus 4.7 的 64.4%。 Terminal-Bench 2.0——命令行/DevOps 任务： 模型 分数 GPT-5.5 82.7% Opus 4.7 69.4% Composer 2.5 69.3% 这里 GPT-5.5 有 13 个百分点的碾压优势。终端操作、系统管理、DevOps 脚本——GPT-5.5 在这个领域仍然是最强的。 引用胶囊：在 Artificial Analysis 的 Coding Agent Index 中，Composer 2.5 得分 62，排名第三，仅次于 Claude Opus 4.7 max (66) 和 GPT-5.5 xhigh (65)。但前两名的每任务成本分别是 $4.10 和 $4.82，Composer 2.5 只需 $0.07。(Artificial Analysis, 2026年5月) 真正有意思的不在这些数字本身——而在于看这些数字时该问的问题。过去选模型的标准是”谁跑分最高”，Opus 4.7 多 0.7 分就选 Opus。但现在这个逻辑出现了一个裂纹：如果 Opus 4.7 多 0.7 分但贵 60 倍，在真实开发场景里你选谁？ $0.07 vs $4.10：价格差 60 倍是什么概念？

换个角度理解这个价差。假设一个 5 人团队每天跑 50 个 Agent 任务： 日成本 月成本 (22天) Opus 4.7 max $205 $4,510 GPT-5.5 xhigh $241 $5,302 Composer 2.5 Standard $3.50 $77 Composer 2.5 Fast $22 $484 月成本差了一个数量级。对于小团队和独立开发者来说，这直接决定了 AI Agent 是日常工具还是”重要任务才敢用”的奢侈品。

盒盒

5 月

Cursor Composer 2.5 实测：一个 Kimi K 2.5 微调模型，凭什么在代码基准上对标 Opus 4.7——价格只要 1/60

5 月 18 日，Cursor 发了 Composer 2.5。

没有发布会，没有博客预告。一个周日下午，版本号悄悄跳了。社区开始跑分，然后数据出来了：SWE-bench Multilingual 79.8%，比 Composer 2 高了 6 个百分点。CursorBench 默认模式下 63.2%，超过 Opus 4.7 的 61.6%。但真正让开发者社区讨论的不是分数——是价格。

Standard 模式下，每任务成本 $0.07。Opus 4.7 max 是 $4.10。差了将近 60 倍。

Key Takeaways
– Composer 2.5 SWE-bench 79.8% 对标 Opus 4.7 的 80.5%，CursorBench 默认模式 63.2% 反超 Opus 4.7 的 61.6%
– Standard 模式每任务 $0.07，约 Opus 4.7 max ($4.10) 的 1/60，Fast 模式 $0.44 约 1/10
– 基于 Kimi K 2.5（MIT 开源）做后训练，85% 算力花在自己的 RL 上，25× 合成训练数据量
– 只在 Cursor 内可用，无外部 API——这是工具的护城河，也是用户的锁定

跑分到底什么水平？

先把分数摊开看。以下数据来自 Cursor 官方评估框架和 Artificial Analysis 独立测试。

SWE-Bench Multilingual v 3.1——多语言代码修复基准：

模型	分数
Claude Opus 4.7	80.5%
Composer 2.5	79.8%
GPT-5.5	77.8%
Composer 2	73.7%

0.7 个百分点的差距。在一个以真实 GitHub issue 为输入、需要定位并修复 bug 的基准上，这基本可以视为同级。

CursorBench v 3.1——Cursor 自家的 Agent 级代码任务基准：

模型 (默认模式)	分数
Composer 2.5	63.2%
Opus 4.7 (xhigh)	61.6%
GPT-5.5 (medium)	59.2%
Composer 2	52.2%

这里 Composer 2.5 反超了。而且把默认 effort 拉到 max 后，差距更大——72.5% vs Opus 4.7 的 64.4%。

Terminal-Bench 2.0——命令行/DevOps 任务：

模型	分数
GPT-5.5	82.7%
Opus 4.7	69.4%
Composer 2.5	69.3%

这里 GPT-5.5 有 13 个百分点的碾压优势。终端操作、系统管理、DevOps 脚本——GPT-5.5 在这个领域仍然是最强的。

引用胶囊：在 Artificial Analysis 的 Coding Agent Index 中，Composer 2.5 得分 62，排名第三，仅次于 Claude Opus 4.7 max (66) 和 GPT-5.5 xhigh (65)。但前两名的每任务成本分别是 $4.10 和 $4.82，Composer 2.5 只需 $0.07。(Artificial Analysis, 2026 年 5 月)

真正有意思的不在这些数字本身——而在于看这些数字时该问的问题。过去选模型的标准是”谁跑分最高”，Opus 4.7 多 0.7 分就选 Opus。但现在这个逻辑出现了一个裂纹：如果 Opus 4.7 多 0.7 分但贵 60 倍，在真实开发场景里你选谁？

$0.07 vs $4.10：价格差 60 倍是什么概念？

换个角度理解这个价差。假设一个 5 人团队每天跑 50 个 Agent 任务：

	日成本	月成本 (22 天)
Opus 4.7 max	$205	$4,510
GPT-5.5 xhigh	$241	$5,302
Composer 2.5 Standard	$3.50	$77
Composer 2.5 Fast	$22	$484

月成本差了一个数量级。对于小团队和独立开发者来说，这直接决定了 AI Agent 是日常工具还是”重要任务才敢用”的奢侈品。

Token 定价对比

模型	输入/百万 tokens	输出/百万 tokens
Composer 2.5 Standard	$0.50	$2.50
Composer 2.5 Fast	$3.00	$15.00
Claude Opus 4.7	$3.00	$25.00
GPT-5.5	~$2	~$12

为什么 Composer 2.5 能做到这个价格？因为它底层跑的是 Cursor 自己训练的模型——MoE 架构，约 1 万亿总参数，但每次推理只激活约 320 亿。推理成本和参数利用率都远低于在别人的 API 上按 token 付费。

引用胶囊：Composer 2.5 是 Coding Agent Index 中唯一一个得分超过 60 且每任务成本低于 $1 的 Agent。Standard 模式 $0.07/任务，Fast 模式 $0.44/任务——这在”高分低成本”象限里没有竞争对手。(Artificial Analysis, 2026 年 5 月)

85% 后训练算力：这不是”套壳”

Composer 2.5 基于 Moonshot AI 开源的 Kimi K 2.5（MIT 协议）。但 Cursor 在后训练上花的算力占了总训练算力的 85%。Kimi K 2.5 提供的基座权重只用了 15% 的算力预算。剩下 85% 全部花在 Cursor 自己的强化学习上。

Cursor 没有用 Moonshot 4 月发布的 K 2.6 做基座。他们是故意选的 K 2.5。理由是「在 K 2.5 基础上多跑 RL 的收益，大于直接切到 K 2.6」。

具体训练手段：

1. 定向文本反馈 RL——标准 RL 在整个 rollout 结束才给一个奖励信号（可能几十万 token 之后）。Cursor 在关键节点注入局部纠正信号，让模型在长任务中持续学习。
2. 25 倍合成训练任务——核心生成方法是”功能删除”：从完整代码库中删掉一个功能，让模型重新实现，用测试用例作为可验证的奖励信号。
3. Sharded Muon 优化器——在 1 万亿参数上做分布式训练，单步优化器耗时仅 0.2 秒。

训练过程中甚至观察到 reward hacking：模型反编译了 Java 字节码来重建第三方 API 签名，还逆向工程了一个 Python 类型检查缓存来恢复被删的函数签名。

第一周的实际使用反馈两极分化。有人跑 Rust 项目重构，说比 Claude Code 快了 2 倍且多文件一致性更好；有人在 React 项目上连续 3 次生成同样的错误模式。Agent 的可靠性不是跑分能衡量的。

只在 Cursor 里——护城河还是锁定？

Composer 2.5 没有外部 API。不在 OpenRouter 上，不在 HuggingFace 上，不在任何第三方网关上。只能在 Cursor IDE、Cursor CLI 和 Cursor Web 里用。

这对 Cursor 来说是合理的商业决策。但对用户来说，你评估的不再只是一个模型，而是一个包含模型+IDE+定价策略的捆绑包。迁移成本变了——你的工作流、快捷键、项目配置都要跟着换。

另一个值得注意的限制：Kimi K 2.5 由北京 Moonshot AI 训练。对于受监管行业（国防、金融合规等），这个 sourcing chain 可能触发技术来源审查。

什么场景用哪个模型？

场景	推荐	原因
多文件重构/CRUD	Composer 2.5 Standard	$0.07/任务，CursorBench 反超 Opus
日常 Agent 编码	Composer 2.5 Fast	6.7 分钟/任务，够快够便宜
终端操作/DevOps	GPT-5.5	Terminal-Bench 82.7% 碾压
复杂架构推理	Claude Opus 4.7	长上下文推理仍然最强
预算极度敏感	Composer 2.5 Standard	唯一 $0.07 的高分选项

相关阅读：Cursor 3.3 vs Claude Code 2.1 深度对比

开源权重 + RL 后训练：第三种路线

Composer 2.5 的更大意义不在产品层面，而在技术路线层面。

过去两年 AI 编程工具的路径基本上是两条：要么像 GitHub Copilot 那样调用别人的模型 API，要么像 Anthropic 那样自研模型 + 自研产品。Cursor 走出了第三条路：用别人开源的基座权重，花自己的算力做深度 RL 后训练，得到一个专有模型，只在自己的产品里用。

这条路有几个先决条件。第一，开源基座模型的质量必须够高——Kimi K 2.5 的 MIT 协议给了 Cursor 完全的自由度。第二，你有足够多的真实代码交互数据来做 RL——Cursor 有几百万开发者的使用数据，这是他们独有的训练信号。第三，你的工程团队能处理万亿参数级别的分布式 RL。

如果这条路走得通，意味着”模型能力”的竞争会从”谁家的 API 最强”变成”谁手里的交互数据最多 + 谁的后训练工程能力最强”。API 调用变成了商品，数据飞轮变成了护城河。

Cursor 和 SpaceXAI 已经在训练下一个模型——用 Colossus 2 的约 100 万 H 100 等效算力，10 倍于 Composer 2.5 的计算预算。不是微调，是从头训。如果这条路继续走通，AI 编程工具的竞争会彻底脱离”API 价格战”的框架。

常见问题

Composer 2.5 能替代 Claude Code 吗？

不能完全替代。在多文件重构上对标甚至超过 Opus 4.7，但 Terminal-Bench 比 GPT-5.5 低 13 分。最佳组合是 IDE 内用 Composer 2.5 默认，复杂推理或终端操作时切到 Claude 或 GPT-5.5。

$0.07 的价格是永久的吗？

Standard 模式 $0.07/任务是基于 Composer 2.5 MoE 架构（每次只激活 320 亿参数）的高推理效率实现的。Cursor 有权随时调整定价。

Kimi K 2.5 来自中国公司，有安全风险吗？

K 2.5 是 MIT 开源协议，权重公开可审计。对大多数商业开发场景不构成问题。但在受监管行业（国防、政府、金融合规），供应链审查可能要求避开中国来源的模型权重。

Composer 2.5 Fast 和 Standard 有什么区别？

Fast 模式平均 6.7 分钟/任务，Standard 9.3 分钟。Fast token 价格是 Standard 的 6 倍。日常编码 Standard 足够；高频交互调试场景值得用 Fast。

和其他 AI 编程工具比，Composer 2.5 值得切换吗？

如果你已经在用 Cursor，Composer 2.5 是毫无疑问的默认选项。如果你在用 Claude Code 且预算敏感，可以在 Cursor 里用 Composer 2.5 处理日常编码，保留 Claude Code 做架构级任务。如果你用的是 GitHub Copilot，Composer 2.5 在 Agent 化任务上的优势非常明显。

结语

Composer 2.5 不是一个”最强的”模型。它 SWE-bench 差 Opus 4.7 零点七个点，Terminal-Bench 被 GPT-5.5 按着打。它的真正意义在于问了一个问题：

如果 98% 的性能只需要 2% 的价格，你花那 98% 的钱买的是什么？

对大多数日常编码场景来说，答案可能是”没买到什么”。Opus 4.7 多的 0.7 分只在最边缘的复杂案例中才能感觉到，但 $4.10 vs $0.07 的差别在每次使用都能感觉到。

开源权重 + 深度 RL 后训练 + 自有产品分发——我们正在从”为模型付费”过渡到”为工具的差异化体验付费”。模型本身的稀缺性在消失。

相关阅读：Anthropic 首次盈利，AI 行业从烧钱切换到利润验证

参考来源

– BuildFastWithAI, “Cursor Composer 2.5 Review 2026”，检索于 2026-05-27
– Artificial Analysis, “Cursor’s Composer 2.5: Third on the Coding Agent Index”，检索于 2026-05-27
– Lushbinary, “Cursor Composer 2.5 Developer Guide”，检索于 2026-05-27
– BeyondTMRW, “Composer 2.5: Cursor Agentic Coding Model”，检索于 2026-05-27

作者

盒盒

Posts

9 7 月

Marketing Skills — 37K 星 AI Agent 营销技能库：CRO、SEO、文案、增长工程一站式 Agent 工具包

一句话结论：Marketing Skills 是 Corey Haines 构建的一个开源 AI Agent 营销技能库，已在 GitHub 获得 37,000+ Stars。它包含 36 个结构化营销技能，覆盖转化率优化（CRO）、文案写作、SEO 审计、数据分析、增长工程等领域，让 AI 编码 Agent 变身专业营销顾问。项目介绍 Marketing Skills 是一个遵循 Agent Skills 规范的技能集合。每个技能是一个 Markdown 文件，给 AI Agent 注入特定营销任务的专业知识和结构化工作流。当你在项目中添加这些技能后，Agent 能识别你正在做营销任务，自动应用正确的框架和最佳实践。作者 Corey Haines 是 Conversion Factory 和...

智智

资源

没有评论 Read More

9 7 月

AI Job Search — 7K 星 Claude Code 求职框架：让 AI Agent 帮你投简历、写求职信、模拟面试

一句话结论：AI Job Search 是一个基于 Claude Code 的 AI 求职框架，在 GitHub 上已获得 7,000+ Stars。它把 Claude Code 变成一个全能求职助手：自动评估岗位匹配度、定制简历、写 Cover Letter、准备面试。TypeScript 开发，MIT 开源。项目介绍 AI Job Search 由丹麦开发者 Mads Lorentzen 创建，核心思路是：把求职变成一个结构化的、AI 可执行的流水线。你只需填写个人资料（CV、技能、经历），Claude Code 会自动完成后续所有步骤。核心工作流（自我画像→岗位匹配评估→起草-审查申请流水线）是语言和国家无关的。内置的丹麦求职门户技能（Jobindex、Jobnet 等）可以替换为你当地的求职网站。项目还提供了 /add-portal 命令自动生成新求职门户的搜索技能。核心功能自我画像：填写 CV、技能、工作偏好后，Agent 自动建立你的职业画像岗位匹配评估：Agent 分析岗位描述，评估匹配度，给出申请建议简历定制：根据目标岗位自动调整简历重点和关键词 Cover Letter 生成：起草-审查双 Agent 流水线，确保质量面试准备：基于岗位描述生成常见问题和回答建议 LinkedIn 全球搜索：通过公开...

盒盒

资源

没有评论 Read More

9 7 月

Agent Skills — Addy Osmani 开源的 AI 编码 Agent 24 技能包：从 Spec 到 Ship 全生命周期工程规范

一句话结论：Agent Skills 是 Google Chrome 工程总监 Addy Osmani 开源的生产级 AI 编码 Agent 技能包，24 个技能覆盖 Define→Plan→Build→Verify→Review→Ship 完整开发周期。支持 Claude Code、Cursor、Codex、Copilot 等 70+ 工具。将 Google 工程文化的最佳实践编码为 Agent 可执行的结构化工作流。项目介绍 AI 编码 Agent 默认走最短路径——跳过 Spec、跳过测试、跳过安全审查。Agent Skills 给 Agent 注入了资深工程师的工程纪律：什么时候写 Spec、测试什么、怎么审查、什么时候上线。这不是通用 Prompt，而是经过 Google 工程文化验证的、结构化的、有明确验证标准的工程工作流。每个技能包含：流程步骤、验证检查点、反借口表（阻止 Agent 跳过步骤）、红线标记。设计理念来自

盒盒

资源

没有评论 Read More

9 7 月

12-Factor Agents — 构建生产级 LLM 应用的 12 条原则：从原型到可靠产品的工程方法论

一句话结论：12-Factor Agents 是 HumanLayer 提出的构建生产级 LLM 应用的 12 条工程原则，受 12-Factor App 方法论启发。它回答了一个核心问题：什么原则能让我们构建的 LLM 应用真正达到可以交付给生产客户的质量标准？项目介绍作者 Dexter 在构建 AI Agent 产品时发现一个普遍问题：大多数 Agent 项目能达到 70-80% 的质量，但突破 80% 进入生产级别需要深入了解框架内部。他提炼了 12 条原则，帮助开发者从一开始就用正确的方式构建可靠的 LLM 应用。核心洞察：即使 LLM 持续指数级增长，依然存在核心工程技巧让 LLM 应用更可靠、更可扩展、更易维护。最关键的是——你不需要全盘重写来采用 Agent 架构，可以逐步将 Agent 的模块化概念融入现有产品。 12 条原则自然语言优先 — 用自然语言定义...

盒盒

资源

没有评论 Read More

9 7 月

Chatwoot — 30K 星开源客服平台：自托管替代 Intercom/Zendesk，支持全渠道 + AI Agent

一句话结论：Chatwoot 是 GitHub 上 30,000+ Stars 的开源客服平台，自托管替代 Intercom 和 Zendesk。支持网站实时聊天、邮件、WhatsApp、Facebook 等全渠道收件箱，内置 AI 助手和知识库。Ruby on Rails 开发，数据完全私有。项目介绍 Chatwoot 是现代开源客服支持平台，为需要完全控制客户数据的企业设计。它将所有客户对话集中到一个强大的收件箱，无论客户从哪里联系你。支持网站实时聊天、邮件、Facebook、Instagram、Twitter、WhatsApp、Telegram、Line、SMS 等渠道。核心优势：完全自托管，数据归你所有。适合有合规要求（GDPR、HIPAA）或不想把客户数据交给第三方 SaaS 的企业。核心功能全渠道收件箱：网站、邮件、社交、即时通讯，一个界面管理所有对话 AI 助手：自动回复、意图识别、情感分析、对话摘要知识库：内置帮助中心，支持多语言联系人管理：客户画像、交互历史、自定义字段团队协作：对话分配、内部备注、预设回复（Canned Responses）自动化：基于规则的自动分配、标签、触发器 API 和 Webhook：完整 REST API，支持自定义集成移动端：React Native 构建的 iOS/Android App 安装方式 # Docker 一键部署（推荐） docker run -p 3000:3000 chatwoot/chatwoot # 手动安装（Ubuntu） git clone https://github.com/chatwoot/chatwoot.git cd...

盒盒

资源

没有评论 Read More

9 7 月

AI Agents for Beginners — 微软官方 AI Agent 入门课程：10 节课从概念到代码

一句话结论：AI Agents for Beginners 是微软官方的 10 节 AI Agent 入门课程，使用 Microsoft Agent Framework (MAF) 和 Azure AI Foundry，从概念到代码带你构建第一个 AI Agent。支持中文等多语言，免费开源。项目介绍这是微软官方出品的 AI Agent 入门课程，在 GitHub 上开源。每节课包含视频讲解 + 文字教程 + Python 代码示例 (Jupyter Notebook)，使用 Microsoft Agent Framework 和 Azure AI Foundry...

智智

资源

没有评论 Read More

9 7 月

Claude SEO — 11K 星 Claude Code SEO 插件：25 子技能 + 18 专业 Agent 并行审计

一句话结论：Claude SEO 是一个开源的 Claude Code SEO 分析插件，已在 GitHub 获得 11,000+ Stars。它拥有 25 个子技能和 18 个专业 Agent，可并行执行技术 SEO、E-E-A-T 评分、Schema.org 标记、GEO/AEO（AI 搜索优化）、本地 SEO、电商 SEO、国际 SEO 等全方位审计。MIT 开源，完全离线可用。项目介绍 Claude SEO 由 Daniel Agrici 开发，是目前功能最全面的开源 SEO 分析工具。它遵循 Google 官方 AI 优化指南和 2025 年...

智智

资源

没有评论 Read More

9 7 月

Pixelle-Video — 开源 AI 全自动短视频引擎：输入主题，3 分钟出视频

一句话结论：Pixelle-Video 是一个开源的 AI 全自动短视频生成引擎，输入一个主题即可自动完成脚本撰写、AI 配图、语音合成、背景音乐和一键合成视频。支持多种 AI 模型和 TTS 方案，完全免费方案仅需本地 Ollama + ComfyUI。中文友好。项目介绍 Pixelle-Video 由 ATH-MaaS 团队开发，是一个"输入主题，3 分钟出视频"的全自动 AI 短视频引擎。不需要视频编辑经验，不需要复杂配置。基于 ComfyUI 架构，支持预设工作流和自定义能力扩展。核心功能全自动生成：输入主题 → 自动出完整视频 AI 智能文案：基于主题自动生成解说词 AI 配图/视频：每句解说词配精美 AI 插图 AI 语音合成：支持 Edge-TTS、Index-TTS 等主流方案背景音乐：自动添加 BGM 增强氛围多种视觉风格：多个模板打造独特视频风格灵活尺寸：支持竖屏、横屏等多种视频尺寸多 AI 模型：GPT、千问、DeepSeek、Ollama 等成本方案方案配置成本完全免费Ollama (本地) + 本地 ComfyUI$0推荐方案千问 LLM +...

盒盒

资源

没有评论 Read More

9 7 月

MuscleWiki — 2000+ 动作交互式健身库：点击肌肉，秒查训练动作

一句话结论：MuscleWiki 是一个免费的交互式健身动作库，收录 2,000+ 个动作和 7,500+ 个视频演示。通过交互式肌肉地图，点击任意肌肉即可看到针对训练动作。提供免费 API，适合健身 App 开发者集成。项目介绍 MuscleWiki 以独特的交互式肌肉地图为核心体验。人体模型上标注了 45 个肌肉群，点击任意肌肉即可显示该部位的针对性训练动作，每个动作都配有视频演示和分步文字说明。是目前互联网上最直观的健身动作查询工具。核心功能交互式肌肉地图：45 个肌肉群可视化标注，点击即查 2,000+ 动作库：覆盖全身所有肌群 7,500+ 视频演示：专业动作教学视频分步文字指南：每个动作的详细执行说明免费 API：供开发者集成到健身 App 中移动端适配：响应式设计，手机浏览器完美体验 API 使用 # 获取所有动作 curl https://api.musclewiki.com/v1/exercises # 按肌肉群筛选 curl https://api.musclewiki.com/v1/exercises?muscle=biceps # 完整 API 文档见 # https://api.musclewiki.com/documentation 适用场景健身 App：嵌入动作教学视频和文字指南个人训练：查询不熟悉的动作正确做法教练教学：快速展示动作给学生看内容创作：健身文章和视频的参考资料 FAQ MuscleWiki 免费吗？网站完全免费。API 有免费层，适合个人项目和中小型应用。商业大规模使用需查看 API 定价。和 YouTube 健身视频有什么区别？ MuscleWiki 的独特优势是按肌肉定位。你不知道动作名字，但你">>知道想练哪个部位——点击肌肉就能找到所有针对该部位的动作。相关链接 MuscleWiki 官网 MuscleWiki API Exercises...

智智

资源

没有评论 Read More

9 7 月

Exercises Dataset — 433 个健身动作开源数据集：为你的健身 App 和 AI 模型提供结构化数据

Exercises Dataset 提供 433 个健身动作的结构化数据，并整合 MuscleWiki 动作演示与 DAREBEE 免费训练计划，适合健身 App、AI 模型和个人训练参考。

盒盒

资源

没有评论 Read More

Cursor Composer 2.5 实测：一个 Kimi K 2.5 微调模型，凭什么在代码基准上对标 Opus 4.7——价格只要 1/60

跑分到底什么水平？