29 5 月

ITBench-AA 基准测试:所有前沿模型在真实企业 IT 任务中得分不及格——最高只有 47%

一个刚发布的基准测试,把 AI Agent 在企业级场景的「真面目」暴露了出来。 ITBench-AA 由 Artificial Analysis 和 IBM 联合推出,聚焦 SRE(Site Reliability Engineering)场景。59 个任务,每个需要 Agent 通过 Shell 命令调查 Kubernetes 事件快照,提交根因诊断。 这不是问答,不是代码生成,是真实的运维诊断——需要 Agent 像一个初级 SRE 一样工作。 结果?所有模型得分都低于 50%。 排名 模型得分推理轮次成本/任务 Claude Opus 4.7 (max)47%~7N/A GPT-5.5 (xhigh)46%~12N/A Qwen3.7 Max42%~20N/A Gemma 4 31B (Reasoning)37%~8$0.14 完整排名见 HuggingFace Blog。 第一个矛盾:「越想越不对」 最有意思的发现不是排名,而是推理轮次与准确率的关系。 Claude Opus 4.7 用了约...
28 5 月

中国 AI 的一攻一守:Qwen3.5 跑出 580 tps,Cognition 估值 260 亿美元

5月27日,两个数字——一个关于速度,一个关于金钱——同时刷新了中国 AI 的天花板。 Qwen3.5 跑出 580 tokens per second。 在 TokenSpeed 推理引擎上,针对 Agent 工作负载。这个速度由通义千问推理团队、Lightseek Foundation 的 TokenSpeed 团队、NVIDIA 和 Mooncake 联合实现,并采用了 FlashAttention-4(FA4)优化。 Cognition 估值 260 亿美元。 Devin 的母公司完成超 10 亿美元融资,Lux Capital 和 General Catalyst 领投。年化收入 4.92 亿,企业用量年初至今增长超 10 倍。 来源:X: Alibaba_Qwen /...
26 5 月

154K Star!Andrej Karpathy 用一份文件改了 Claude Code 的"脑子"

深度拆解 Andrej Karpathy 的 AI 编程洞见如何被社区转化为一份 CLAUDE.md,GitHub 154K Star。4 条原则让 Claude Code 从"闷头写"变成"会思考"。
25 5 月

Claude Agents 会做梦了:Anthropic 如何用"睡眠学习"让 AI Agent 从工具进化为同事

2026年5月Anthropic发布Dreaming功能,让AI Agent在会话间"做梦"学习。深度解析四阶段Consolidation、Harvey 6倍完成率案例,以及Agent记忆如何成为2026年AI新战场。
25 5 月

Cursor 3.3 vs Claude Code 2.1:我在两个工具上分别写了 6 个 PR,结论和你想的不一样

2026年5月,AI编程工具的战场正在发生一件微妙的事:它们不再互相替代,而是开始分工。 70%的专业开发者现在同时使用2-4个AI编程工具(Silverthread Labs, 2026年3月)。Claude Code 在 2025 年 State of Code 调查中以57%的使用率排名第一,Cursor 以43%紧随其后。Claude Code 以91%的满意度(CSAT)和NPS 54领先——JetBrains 2026年1月的万人调查显示,这两个工具的工作场所采用率已经完全持平(各18%)。 我们在两个工具上分别完成了6个相同的PR——从简单的 utility 函数到跨模块重构。结论和主流观点有点不一样。 Key Takeaways– Claude Code 在复杂多文件任务上首遍准确率达78%,比 Cursor 高5个百分点(SitePoint Benchmark, 2026)– Cursor 在简单高频任务上性价比胜出:42分/美元 vs Claude Code 的31分/美元(SitePoint,...