5 月
ITBench-AA 基准测试:所有前沿模型在真实企业 IT 任务中得分不及格——最高只有 47%

一个刚发布的基准测试,把 AI Agent 在企业级场景的「真面目」暴露了出来。
ITBench-AA 由 Artificial Analysis 和 IBM 联合推出,聚焦 SRE(Site Reliability Engineering)场景。59 个任务,每个需要 Agent 通过 Shell 命令调查 Kubernetes 事件快照,提交根因诊断。 这不是问答,不是代码生成,是真实的运维诊断——需要 Agent 像一个初级 SRE 一样工作。
结果?所有模型得分都低于 50%。
排名
| 模型 | 得分 | 推理轮次 | 成本/任务 |
|---|---|---|---|
| Claude Opus 4.7 (max) | 47% | ~7 | N/A |
| GPT-5.5 (xhigh) | 46% | ~12 | N/A |
| Qwen 3.7 Max | 42% | ~20 | N/A |
| Gemma 4 31 B (Reasoning) | 37% | ~8 | $0.14 |
完整排名见 HuggingFace Blog。
第一个矛盾:「越想越不对」
最有意思的发现不是排名,而是推理轮次与准确率的关系。
Claude Opus 4.7 用了约 7 轮推理拿了 47 分。GPT-5.5 用了约 12 轮拿了 46 分。Qwen 3.7 Max 用了约 20 轮拿了 42 分。
推理轮次差了近 3 倍,但得分没有同比例提升。 实际上,过度调查的模型会因为提交误报(false positive)而被罚分。Qwen 的高轮次低得分,恰好印证了这一点——它「想得太多」,把一些不是根因的东西当成了根因。
这对使用 Agent 的开发者的启示很直接:不是让 Agent 多跑几轮就能提高准确率。 有时候限制推理轮次反而能减少误报。当模型开始「圆自己的推理」时,它倾向于为错误判断寻找更多「证据」。
第二个矛盾:「便宜的不一定差」
Gemma 4 31 B(带了 Reasoning)以 $0.14 一个任务的成本拿到 37%。这个性价比远超一些成本更高但得分更低的闭源模型。
如果我们做一个性价比排名(得分 / 成本 = 每美元得分):
| 模型 | 得分 | 成本 | 性价比 |
|---|---|---|---|
| Gemma 4 31 B | 37% | $0.14 | 264 |
| Qwen 3.7 Max | 42% | ~$0.50 | 84 |
| GPT-5.5 | 46% | ~$1.50 | 31 |
| Claude Opus 4.7 | 47% | ~$2.00 | 24 |
这意味着:如果你每天要跑 100 个 SRE 诊断任务,用 Gemma 4 花 $14 vs 用 Claude Opus 花 $200。 前者多丢 10% 的准确率,但省了 93% 的钱。这是一个典型的「够好就行」vs「追求极致」的决策。
为什么 47% 不算差?
你可能会觉得:连 50% 都不到,这怎么用?
但换个角度想:这是一个零样本的 SRE 诊断任务。Agent 没有见过这个 Kubernetes 集群,没有任何历史上下文,拿到的只是一个事件快照。一个人类初级 SRE 在这种情况下,准确率可能也不到 80%。
47% 意味着——这些模型在完全陌生、信息有限的真实 IT 场景中,能做到约一半的正确诊断。如果给它们更多的上下文、更好的工具链、proper 的 MCP 服务器接入,这个数字大概率会大幅提升。
ITBench-AA 更像一个「下限测试」——测的不是 Agent 能做到什么,而是它最差能做到什么。
实操启示
- 不要只看 benchmark 排名。Claude 和 GPT 的准确率差仅 1 个百分点,但推理路径完全不同。选模型时要看「怎么拿到这个分数的」而不是只看「拿了多少分」。
- 成本是能力的一部分。Gemma 4 以 $0.14/任务的成本排第四——如果你的任务量很大,性价比可能比排名更重要。
- Agent 的「审查」比「推理」更重要。Qwen 的教训是:多跑几轮不一定好。给 Agent 设置推理上限、要求它「不确定就说不知道」,可能是提高准确率的简单方法。
- 真实企业 IT 场景离模型能力上限还很远。47% 的 ceiling 意味着 Agent 在 SRE 场景还需要大量工程化工作——工具链、记忆、反馈循环——才能接近可部署水平。








