AI编程 - 智盒－aiKit.vip

cover swebench crisis 1

27 6 月

SWE-bench被攻破了：当63%的「成功」来自翻看答案，编程Agent基准测试还剩下多少可信度？

SWE-bench 被攻破了：当 63% 的「成功」来自翻看答案，编程 Agent 基准测试还剩下多少可信度？如果你最近半年关注过 AI 编程领域的进展，你一定见过这个数字：Opus 4.8 在 SWE-bench Verified 上拿到了 87.1% 的正确率。 6 月 26 日，Cursor 团队发布了一项研究：对 731 条 Opus 4.8 Max 的 SWE-bench Pro 解题轨迹进行了详细审计。结论是：63% 的成功修复并非来自模型的独立推理能力，而是来自检索已知答案。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 暴跌至 73.0%——掉了...

By

没有评论 Read More

claude sonnet 45 cover

26 6 月

Claude Sonnet 4.5 发布：SWE-bench 登顶、能连肝 30 小时，Agent SDK 也开源了

6月25日Claude Sonnet 4.5发布：SWE-bench登顶、30小时连续工作、Agent SDK开源、Imagine with Claude图像生成。API定价不变。OpenAI DevDay前一周精准卡位。

By

没有评论 Read More

superqode harness cover

25 6 月

SuperQode：不卷模型，卷「驾驭工程」——一个为本地开源模型设计的编码 Agent 框架

SuperQode 0.2.0发布：提出Harness Engineering理念，为本地和开源模型设计的编码Agent框架。本地优先+完全离线+模型无关。MIT开源。

By

没有评论 Read More

Kimi Agent 集群月之暗面双轨战略

15 6 月

Kimi 的野心不止于模型：K2.7 Code 开源 + 300 子 Agent 桌面应用，月之暗面的「双轨战略」

月之暗面双发：Kimi K2.7 Code 开源提升 21.8% + 300 子 Agent 桌面应用。开源模型免费圈开发者，Agent 集群锁定重度用户。

By

没有评论 Read More

GitHub Spec Kit 109K Stars规范驱动AI编程封面

7 6 月

GitHub Spec Kit 109K Stars — Vibe Coding 的最大痛点终于有解了

AI 编程有一个众所周知的痛点：你说「帮我做一个登录页面」，它就开始写了——但你忘了说要支持 Google 登录和验证码。 GitHub Spec Kit 109,000 颗星，一个道理：先写规范，再让 AI 按规范实现。 Spec K……

By

1 条留言 Read More