29
5 月
ITBench-AA 基准测试:所有前沿模型在真实企业 IT 任务中得分不及格——最高只有 47%
一个刚发布的基准测试,把 AI Agent 在企业级场景的「真面目」暴露了出来。
ITBench-AA 由 Artificial Analysis 和 IBM 联合推出,聚焦 SRE(Site Reliability Engineering)场景。59 个任务,每个需要 Agent 通过 Shell 命令调查 Kubernetes 事件快照,提交根因诊断。 这不是问答,不是代码生成,是真实的运维诊断——需要 Agent 像一个初级 SRE 一样工作。
结果?所有模型得分都低于 50%。
排名
模型得分推理轮次成本/任务
Claude Opus 4.7 (max)47%~7N/A
GPT-5.5 (xhigh)46%~12N/A
Qwen3.7 Max42%~20N/A
Gemma 4 31B (Reasoning)37%~8$0.14
完整排名见 HuggingFace Blog。
第一个矛盾:「越想越不对」
最有意思的发现不是排名,而是推理轮次与准确率的关系。
Claude Opus 4.7 用了约...
28
5 月
中国 AI 的一攻一守:Qwen3.5 跑出 580 tps,Cognition 估值 260 亿美元
5月27日,两个数字——一个关于速度,一个关于金钱——同时刷新了中国 AI 的天花板。
Qwen3.5 跑出 580 tokens per second。 在 TokenSpeed 推理引擎上,针对 Agent 工作负载。这个速度由通义千问推理团队、Lightseek Foundation 的 TokenSpeed 团队、NVIDIA 和 Mooncake 联合实现,并采用了 FlashAttention-4(FA4)优化。
Cognition 估值 260 亿美元。 Devin 的母公司完成超 10 亿美元融资,Lux Capital 和 General Catalyst 领投。年化收入 4.92 亿,企业用量年初至今增长超 10 倍。
来源:X: Alibaba_Qwen /...
26
5 月
154K Star!Andrej Karpathy 用一份文件改了 Claude Code 的"脑子"
深度拆解 Andrej Karpathy 的 AI 编程洞见如何被社区转化为一份 CLAUDE.md,GitHub 154K Star。4 条原则让 Claude Code 从"闷头写"变成"会思考"。
25
5 月
Claude Agents 会做梦了:Anthropic 如何用"睡眠学习"让 AI Agent 从工具进化为同事
2026年5月Anthropic发布Dreaming功能,让AI Agent在会话间"做梦"学习。深度解析四阶段Consolidation、Harvey 6倍完成率案例,以及Agent记忆如何成为2026年AI新战场。
25
5 月
Cursor 3.3 vs Claude Code 2.1:我在两个工具上分别写了 6 个 PR,结论和你想的不一样
2026年5月,AI编程工具的战场正在发生一件微妙的事:它们不再互相替代,而是开始分工。
70%的专业开发者现在同时使用2-4个AI编程工具(Silverthread Labs, 2026年3月)。Claude Code 在 2025 年 State of Code 调查中以57%的使用率排名第一,Cursor 以43%紧随其后。Claude Code 以91%的满意度(CSAT)和NPS 54领先——JetBrains 2026年1月的万人调查显示,这两个工具的工作场所采用率已经完全持平(各18%)。
我们在两个工具上分别完成了6个相同的PR——从简单的 utility 函数到跨模块重构。结论和主流观点有点不一样。
Key Takeaways– Claude Code 在复杂多文件任务上首遍准确率达78%,比 Cursor 高5个百分点(SitePoint Benchmark, 2026)– Cursor 在简单高频任务上性价比胜出:42分/美元 vs Claude Code 的31分/美元(SitePoint,...



