29

5 月

ITBench-AA 基准测试:所有前沿模型在真实企业 IT 任务中得分不及格——最高只有 47%

ITBench-AA 模型得分对比

一个刚发布的基准测试,把 AI Agent 在企业级场景的「真面目」暴露了出来。

ITBench-AA 由 Artificial Analysis 和 IBM 联合推出,聚焦 SRE(Site Reliability Engineering)场景。59 个任务,每个需要 Agent 通过 Shell 命令调查 Kubernetes 事件快照,提交根因诊断。 这不是问答,不是代码生成,是真实的运维诊断——需要 Agent 像一个初级 SRE 一样工作。

结果?所有模型得分都低于 50%。

排名

模型 得分 推理轮次 成本/任务
Claude Opus 4.7 (max) 47% ~7 N/A
GPT-5.5 (xhigh) 46% ~12 N/A
Qwen 3.7 Max 42% ~20 N/A
Gemma 4 31 B (Reasoning) 37% ~8 $0.14

完整排名见 HuggingFace Blog

第一个矛盾:「越想越不对」

最有意思的发现不是排名,而是推理轮次与准确率的关系。

Claude Opus 4.7 用了约 7 轮推理拿了 47 分。GPT-5.5 用了约 12 轮拿了 46 分。Qwen 3.7 Max 用了约 20 轮拿了 42 分。

推理轮次差了近 3 倍,但得分没有同比例提升。 实际上,过度调查的模型会因为提交误报(false positive)而被罚分。Qwen 的高轮次低得分,恰好印证了这一点——它「想得太多」,把一些不是根因的东西当成了根因。

这对使用 Agent 的开发者的启示很直接:不是让 Agent 多跑几轮就能提高准确率。 有时候限制推理轮次反而能减少误报。当模型开始「圆自己的推理」时,它倾向于为错误判断寻找更多「证据」。

第二个矛盾:「便宜的不一定差」

Gemma 4 31 B(带了 Reasoning)以 $0.14 一个任务的成本拿到 37%。这个性价比远超一些成本更高但得分更低的闭源模型。

如果我们做一个性价比排名(得分 / 成本 = 每美元得分):

模型 得分 成本 性价比
Gemma 4 31 B 37% $0.14 264
Qwen 3.7 Max 42% ~$0.50 84
GPT-5.5 46% ~$1.50 31
Claude Opus 4.7 47% ~$2.00 24

这意味着:如果你每天要跑 100 个 SRE 诊断任务,用 Gemma 4 花 $14 vs 用 Claude Opus 花 $200。 前者多丢 10% 的准确率,但省了 93% 的钱。这是一个典型的「够好就行」vs「追求极致」的决策。

为什么 47% 不算差?

你可能会觉得:连 50% 都不到,这怎么用?

但换个角度想:这是一个零样本的 SRE 诊断任务。Agent 没有见过这个 Kubernetes 集群,没有任何历史上下文,拿到的只是一个事件快照。一个人类初级 SRE 在这种情况下,准确率可能也不到 80%。

47% 意味着——这些模型在完全陌生、信息有限的真实 IT 场景中,能做到约一半的正确诊断。如果给它们更多的上下文、更好的工具链、proper 的 MCP 服务器接入,这个数字大概率会大幅提升。

ITBench-AA 更像一个「下限测试」——测的不是 Agent 能做到什么,而是它最差能做到什么。

实操启示

  1. 不要只看 benchmark 排名。Claude 和 GPT 的准确率差仅 1 个百分点,但推理路径完全不同。选模型时要看「怎么拿到这个分数的」而不是只看「拿了多少分」。
  2. 成本是能力的一部分。Gemma 4 以 $0.14/任务的成本排第四——如果你的任务量很大,性价比可能比排名更重要。
  3. Agent 的「审查」比「推理」更重要。Qwen 的教训是:多跑几轮不一定好。给 Agent 设置推理上限、要求它「不确定就说不知道」,可能是提高准确率的简单方法。
  4. 真实企业 IT 场景离模型能力上限还很远。47% 的 ceiling 意味着 Agent 在 SRE 场景还需要大量工程化工作——工具链、记忆、反馈循环——才能接近可部署水平。

来源:ITBench-AA on HuggingFace

分享这篇文章

RELATED

Posts