对比评测 - 智盒

Cursor Composer 2.5 实测：一个 Kimi K2.5 微调模型，凭什么在代码基准上对标 Opus 4.7——价格只要 1/60

5 月 18 日，Cursor 发了 Composer 2.5。没有发布会，没有博客预告。一个周日下午，版本号悄悄跳了。社区开始跑分，然后数据出来了：SWE-bench Multilingual 79.8%，比 Composer 2 高了 6 个百分点。CursorBench 默认模式下 63.2%，超过 Opus 4.7 的 61.6%。但真正让开发者社区讨论的不是分数——是价格。 Standard 模式下，每任务成本 $0.07。Opus 4.7 max 是 $4.10。差了将近 60 倍。 Key Takeaways – Composer 2.5 SWE-bench 79.8% 对标 Opus 4.7 的 80.5%，CursorBench 默认模式 63.2%...

Cursor 3.3 vs Claude Code 2.1：我在两个工具上分别写了 6 个 PR，结论和你想的不一样

2026年5月，AI编程工具的战场正在发生一件微妙的事：它们不再互相替代，而是开始分工。 70%的专业开发者现在同时使用2-4个AI编程工具（Silverthread Labs, 2026年3月）。Claude Code 在 2025 年 State of Code 调查中以57%的使用率排名第一，Cursor 以43%紧随其后。Claude Code 以91%的满意度（CSAT）和NPS 54领先——JetBrains 2026年1月的万人调查显示，这两个工具的工作场所采用率已经完全持平（各18%）。我们在两个工具上分别完成了6个相同的PR——从简单的 utility 函数到跨模块重构。结论和主流观点有点不一样。 Key Takeaways– Claude Code 在复杂多文件任务上首遍准确率达78%，比 Cursor 高5个百分点（SitePoint Benchmark, 2026）– Cursor 在简单高频任务上性价比胜出：42分/美元 vs Claude Code 的31分/美元（SitePoint,...

Cursor 3.3 vs Claude Code 2.1：我在两个工具上分别写了 6 个 PR，结论和你想的不一样

智盒－aiKit.vip

最新文章

Claude Mythos 公开发布倒计时：「三线信号」解读 Anthropic 的「核武器」释放计划

「你在开玩笑吧？」GitHub Copilot 按 Token 计费引爆开发者社区，AI编程工具的免费午餐终结了？

最新评论

栏目

分类目录

© copyright 2026. All Rights Reserved.