29 5 月

ITBench-AA 基准测试:所有前沿模型在真实企业 IT 任务中得分不及格——最高只有 47%

一个刚发布的基准测试,把 AI Agent 在企业级场景的「真面目」暴露了出来。 ITBench-AA 由 Artificial Analysis 和 IBM 联合推出,聚焦 SRE(Site Reliability Engineering)场景。59 个任务,每个需要 Agent 通过 Shell 命令调查 Kubernetes 事件快照,提交根因诊断。 这不是问答,不是代码生成,是真实的运维诊断——需要 Agent 像一个初级 SRE 一样工作。 结果?所有模型得分都低于 50%。 排名 模型得分推理轮次成本/任务 Claude Opus 4.7 (max)47%~7N/A GPT-5.5 (xhigh)46%~12N/A Qwen3.7 Max42%~20N/A Gemma 4 31B (Reasoning)37%~8$0.14 完整排名见 HuggingFace Blog。 第一个矛盾:「越想越不对」 最有意思的发现不是排名,而是推理轮次与准确率的关系。 Claude Opus 4.7 用了约...
28 5 月

中国 AI 的一攻一守:Qwen3.5 跑出 580 tps,Cognition 估值 260 亿美元

5月27日,两个数字——一个关于速度,一个关于金钱——同时刷新了中国 AI 的天花板。 Qwen3.5 跑出 580 tokens per second。 在 TokenSpeed 推理引擎上,针对 Agent 工作负载。这个速度由通义千问推理团队、Lightseek Foundation 的 TokenSpeed 团队、NVIDIA 和 Mooncake 联合实现,并采用了 FlashAttention-4(FA4)优化。 Cognition 估值 260 亿美元。 Devin 的母公司完成超 10 亿美元融资,Lux Capital 和 General Catalyst 领投。年化收入 4.92 亿,企业用量年初至今增长超 10 倍。 来源:X: Alibaba_Qwen /...
28 5 月

Google I/O 2026 复盘:Gemini 月活 9 亿、全栈 Agent 化、世界模型,Google 用「生态反击」回应了所有人

如果你这周只看了一场发布会,你可能会以为 Anthropic 和 OpenAI 是这个行业唯一的两个玩家。 5 月 20 日 Google I/O 把这种印象彻底打碎了。Pichai 开场用了不到 20 分钟甩出一组数字:Gemini 月活 9 亿(一年前是 4 亿),覆盖 230 个国家 70 种语言,Google Search 的 AI Mode 查询量每季度翻倍。然后才是产品:Gemini 3.5 Flash、Omni 世界模型、Spark 跨应用 Agent、Agent Payments Protocol。 但 Google I/O 2026 真正值得关注的东西不是单一产品,而是一个模式:Google 在用生态宽度打...
29 4 月

DeepSeek V4 发布,华为同步官宣:一场没有宣战的技术战争

DeepSeek V4 发布与华为昇腾同步适配,背后不只是模型升级,而是国产 AI 软硬件生态的一次集中亮相。