29
5 月
Claude Opus 4.8 发布了:4 倍更诚实、Dynamic Workflows、价格不变——GPT-5.5 还能打吗?
Opus 4.8 不是一次参数升级,而是一次「可靠性革命」——Anthropic 选择让模型主动告诉你「我不确定」,而不是假装知道答案。SWE-bench Pro 69.2%,价格不变,4 倍更诚实。
29
5 月
星巴克 AI 翻车实录:一个 99% 准确率的模型,为什么在 11,000 家门店被集体拔线?
试点成功的 AI 系统 ≈ 一个闭卷考满分的实习生进了真实仓库——问题不在模型,在现实世界的方差。拆解星巴克 AI 失败的三个致命陷阱及企业部署必备的三个护栏。
29
5 月
Agent 安全的「宪法时刻」:Anthropic 零信任框架 + OpenAI 私有 MCP + 教皇通谕,同一天三线交汇
5月27日,三件事在同一天发生。它们分属不同领域——安全技术、企业基础设施、宗教伦理——但底层指向同一个问题:当 AI Agent 能自主决策、执行代码、操作生产环境时,安全不再是一个功能需求,而是生存前提。
第一块拼图:Anthropic 的零信任框架
Anthropic 在这一天发布了针对企业部署自主 AI Agent 的安全框架。这不是一篇泛泛而谈的白皮书——它包含了一个分层的三层架构(基础、高级、优化级)和一个八阶段实施流程。
文章的核心判断很直白:
「前沿大语言模型正将漏洞利用周期从数月压缩至数小时。」
换句话说,如果一个漏洞过去给你 90 天修复窗口,现在可能只有几个小时——因为 AI 加速了攻击端的能力,而防守端还在用传统节奏。
框架首次系统性地建模了 Agent 特有的威胁类别:提示注入(prompt injection)、工具投毒(tool poisoning)、记忆投毒(memory poisoning)。这三个威胁在传统 Web 安全或 API 安全的语境中不存在——它们是 Agent 自治能力带来的全新攻击面。
提示注入:攻击者通过精心构造的输入,让 Agent 执行非预期操作。传统 XSS/SQL 注入的攻击对象是应用程序,而提示注入的攻击对象是 LLM 的推理链路。
工具投毒:如果 Agent 可以调用外部 MCP 服务器或 API,攻击者可以通过篡改工具返回的数据来影响 Agent 的决策。这在传统 API 安全中对应的是供应链攻击,但 Agent...
29
5 月
ITBench-AA 基准测试:所有前沿模型在真实企业 IT 任务中得分不及格——最高只有 47%
一个刚发布的基准测试,把 AI Agent 在企业级场景的「真面目」暴露了出来。
ITBench-AA 由 Artificial Analysis 和 IBM 联合推出,聚焦 SRE(Site Reliability Engineering)场景。59 个任务,每个需要 Agent 通过 Shell 命令调查 Kubernetes 事件快照,提交根因诊断。 这不是问答,不是代码生成,是真实的运维诊断——需要 Agent 像一个初级 SRE 一样工作。
结果?所有模型得分都低于 50%。
排名
模型得分推理轮次成本/任务
Claude Opus 4.7 (max)47%~7N/A
GPT-5.5 (xhigh)46%~12N/A
Qwen3.7 Max42%~20N/A
Gemma 4 31B (Reasoning)37%~8$0.14
完整排名见 HuggingFace Blog。
第一个矛盾:「越想越不对」
最有意思的发现不是排名,而是推理轮次与准确率的关系。
Claude Opus 4.7 用了约...
29
5 月
MCP 的三个「第一次」:OpenAI 企业级安全连接、Runway 视频生成接入、Perplexity 分词器开源
Model Context Protocol(MCP)是 Anthropic 在 2024 年底推出的开放协议,用于让 AI 模型连接外部工具和数据源。推出时大多数人的反应是「又一个协议」。
一年半后的今天,MCP 的生态已经发生了根本变化。而 2026 年 5 月 27 日,可能是 MCP 历史上最重要的一天——三个「第一次」在同一天完成。
1. 第一次企业级安全连接
OpenAI 发布了一个看似简单的功能——「私人 MCP 服务器的安全连接」——但细节决定了它的意义:
「你的团队保持 MCP 服务器在你的网络内,ChatGPT、Codex 和 Responses API 通过仅出站 HTTPS 连接。」
这句话的关键词是「仅出站」(outbound-only)。
传统上,企业将内部服务暴露给外部 AI 厂商需要做隧道、VPN、甚至是防火墙规则修改。安全团队最怕的就是在防火墙上开新的入站端口。OpenAI 的方案绕过了整个问题:Agent 主动用 HTTPS 连接 MCP 服务器,不需要企业接受任何入站流量。
这背后是一个行业趋势:MCP 正在从 Claude...




