26
5 月
Cursor Composer 2.5 实测:一个 Kimi K2.5 微调模型,凭什么在代码基准上对标 Opus 4.7——价格只要 1/60
5 月 18 日,Cursor 发了 Composer 2.5。
没有发布会,没有博客预告。一个周日下午,版本号悄悄跳了。社区开始跑分,然后数据出来了:SWE-bench Multilingual 79.8%,比 Composer 2 高了 6 个百分点。CursorBench 默认模式下 63.2%,超过 Opus 4.7 的 61.6%。但真正让开发者社区讨论的不是分数——是价格。
Standard 模式下,每任务成本 $0.07。Opus 4.7 max 是 $4.10。差了将近 60 倍。
Key Takeaways
– Composer 2.5 SWE-bench 79.8% 对标 Opus 4.7 的 80.5%,CursorBench 默认模式 63.2%...
25
5 月
Cursor 3.3 vs Claude Code 2.1:我在两个工具上分别写了 6 个 PR,结论和你想的不一样
2026年5月,AI编程工具的战场正在发生一件微妙的事:它们不再互相替代,而是开始分工。
70%的专业开发者现在同时使用2-4个AI编程工具(Silverthread Labs, 2026年3月)。Claude Code 在 2025 年 State of Code 调查中以57%的使用率排名第一,Cursor 以43%紧随其后。Claude Code 以91%的满意度(CSAT)和NPS 54领先——JetBrains 2026年1月的万人调查显示,这两个工具的工作场所采用率已经完全持平(各18%)。
我们在两个工具上分别完成了6个相同的PR——从简单的 utility 函数到跨模块重构。结论和主流观点有点不一样。
Key Takeaways– Claude Code 在复杂多文件任务上首遍准确率达78%,比 Cursor 高5个百分点(SitePoint Benchmark, 2026)– Cursor 在简单高频任务上性价比胜出:42分/美元 vs Claude Code 的31分/美元(SitePoint,...

