5 月
Claude Opus 4.8 发布了:4 倍更诚实、Dynamic Workflows、价格不变——GPT-5.5 还能打吗?
发生了什么
5 月 28 日,Anthropic 一天之内打出三张牌:Claude Opus 4.8 发布、$650 亿 H 轮融资完成、Mythos 全面开放预告。三件事叠加,标志着 Anthropic 从「技术追赶者」正式变为「行业规则制定者」。
Opus 4.8 距离 Opus 4.7 仅 41 天,是 Anthropic 史上最快的小版本迭代。但这种「快」不是赶工——而是因为他们终于找到了正确的优化方向:不是让模型更聪明,而是让模型更诚实。
Anthropic CEO Dario Amodei 在发布会上说的原话:「Opus 4.8 是我们最诚实的模型。它 4 倍更不可能在代码中留下未标记的缺陷。」
这不是营销话术。如果你用过 Opus 4.7,你一定经历过那种场景——Claude 写完代码,信誓旦旦说「已完成并测试通过」,结果你跑一下发现 bug 还在。Opus 4.8 的核心改进就是:它会在发现错误时主动告诉你,而不是假装一切正常。
基准测试:在哪里赢了,在哪里还差一口气
Anthropic 的对比以 Opus 4.7、GPT-5.5、Gemini 3.1 Pro 为对手,7 项基准中 Opus 4.8 赢了 6 项。
| 基准测试 | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 69.2% | 64.3% | 58.6% | 54.2% |
| Terminal-Bench 2.1 | 74.6% | 66.1% | 78.2% | 70.3% |
| OSWorld-Verified | 83.4% | 82.8% | 78.7% | 76.2% |
| HLE (with tools) | 57.9% | 54.7% | 52.2% | 51.4% |
| GDPval-AA Elo | 1890 | 1753 | 1769 | 1314 |
| Finance Agent v 2 | 53.9% | 51.5% | 51.8% | 43.0% |

SWE-bench Pro +4.9 个百分点意味着什么?
SWE-bench Pro 是比 SWE-bench Verified 更难的变体——测试集经过去污染处理,更接近真实开发场景。Opus 4.8 的 69.2% 意味着:给它一个真实 GitHub issue,它在 7 成情况下能自主完成修复,不需要人类介入。
对比一下:大多数初级开发者在看懂一个陌生代码库的 issue 后,首次修复成功率大概也就这个水平。
Terminal-Bench 还输给了 GPT-5.5
纯终端命令行的 Agent 场景下,GPT-5.5 仍以 78.2% 领先 Opus 4.8 的 74.6%。如果你主要用 AI 做 shell 脚本、系统管理类的自动化,GPT-5.5 在这个场景仍然有竞争力。
GDPval-AA:知识工作的碾压级领先
GDPval-AA 测量的是模型在真实知识工作任务上的表现——写报告、做分析、处理复杂文档。Opus 4.8 的 Elo 1890 意味着相对于 GPT-5.5 的 1769,它在这个场景的胜率大约 67%。而且 Opus 4.8 还比 GPT-5.5 多用了约 30% 的推理轮次——也就是说,更高的质量是有推理成本代价的。
三个真正改变日常使用的新特性
基准数字好看,但真正影响日常开发体验的是下面三个变化。
1. 「诚实度」提升 4 倍:从「已修复」到「说实话」
这可能是 Opus 4.8 最重要但最容易被忽略的改进。Anthropic 内部的评估指标显示,Opus 4.8 漏报代码缺陷的概率是 Opus 4.7 的 1/4。
什么概念?如果你用 Opus 4.7 写 10 个功能,可能有 3 个需要你事后发现 bug。Opus 4.8 把这个数降到差不多 1 个。
早期用户 Bridgewater Associates 反馈:Opus 4.8 会主动标注分析中的输入输出问题,这是其他模型经常漏掉的。
2. Dynamic Workflows:数百个并行子代理
这是 Claude Code 专属功能。以前你让 Claude 做一个大规模重构(比如升级框架、迁移 API),它只能一个文件一个文件地改。现在 Opus 4.8 会自动规划任务 → 派发数百个并行子代理 → 让其他代理交叉验证 → 收敛后统一返回结果。
Anthropic 的说法是:「专为跨数十万行代码的迁移设计,从启动到合并。」但这个功能目前是 research preview,成本不低,每次运行前会弹确认。

两种调用方式:
- 直接告诉 Claude 「create a workflow for this」
- 开启
ultracode模式,让 Claude 自动判断何时使用
3. Fast mode 降价 3 倍 + 默认 effort 降至 high
Opus 4.7 的 Fast mode 定价是 $30/$150 per 1 M tokens,贵得离谱。Opus 4.8 直接砍到 $10/$50,便宜了 3 倍,速度约 2.5 倍于标准端点。
同时默认 effort 从 xhigh 降到 high。Anthropic 的说法是:Opus 4.8 在 high 模式下消耗的 token 跟 Opus 4.7 在 xhigh 下差不多,但得分更高。
| Effort 级别 | 适用场景 |
|---|---|
low | 快速问答、单行修改 |
medium | 常规重构、单文件改动 |
high(默认) | 多文件编辑、调试、写功能 |
xhigh | 硬骨头问题、后台长期任务 |
max | 本周最难的那个问题 |

定价对比:值不值这个价?
标准定价完全不变,$5/$25 per 1 M tokens。但放在 2026 年 5 月的前沿模型定价表中,事情没那么简单:
| 模型 | 输入 ($/1 M) | 输出 ($/1 M) | SWE-bench Verified | 上下文窗口 |
|---|---|---|---|---|
| Claude Opus 4.8 | $5 | $25 | 88.6% | 1 M |
| GPT-5.5 | ~$3 | ~$15 | ~88% | ~400 K |
| Gemini 3.1 Pro | $2/$4 | $12/$18 | — | 2 M+ |
| DeepSeek V 4-Pro | $0.435 | $0.87 | 80.6% | 128 K |
| Grok 4.3 | $1.25 | $2.50 | — | 1 M |
DeepSeek V 4-Pro 比 Opus 4.8 便宜 12 倍(输入)到 29 倍(输出),但 SWE-bench Pro 得分约 60%,差距约 9 个百分点。
结论很清楚: Opus 4.8 是市场上最贵的模型,但在 Agentic Coding 和 Computer Use 场景下,也是最好的模型。如果你的场景是高风险的代码生成(生产环境 bug 的代价 > 几十美元 token 费),Opus 4.8 是唯一正确的选择。
2026 年的最佳实践是分层架构:Opus 4.8 做计划和审查,DeepSeek V 4-Pro 或 Grok 4.3 做执行。

迁移建议:从 Opus 4.7 切换需要注意什么?
对于已在生产环境用 Opus 4.7 的团队,迁移只需改一行 model ID。但有三件事要提前知道:
1. Prompt 回归风险。 Opus 4.8 比 4.7 更「保守」——它会更多地说「我不确定」。如果你的下游解析器依赖模型输出自信的语气来判断结果质量,可能会误报。建议更新 prompt,让模型显式输出置信度标签,而不是依赖语气判断。
2. 上下文策略不变。 Anthropic API、Bedrock、Vertex AI 都支持 1 M tokens。Microsoft Foundry 仍限制在 200 K。
3. MCP 工具连接更可靠。 Claude Code 2.1 修复了一个长期 bug:MCP 服务器分页返回工具列表时不再丢失后续页的工具。如果你之前遇到过 agent 突然「忘记」某些工具的情况,这个问题已修复。
对开发者的影响
- 如果你在做 AI 编程助手评估: Opus 4.8 是目前 Agentic Coding 场景的第一选择,但价格让它不适合做大规模批量生成。你的架构应该是 Opus 4.8 做「规划+审查」,便宜模型做「执行」。
- 如果你用的是 Claude Code: 立即
claude update,然后/model opus。默认 effort 已降到high,日常用更便宜。遇到硬问题再切/effort xhigh。 - 如果你在等 Mythos: Anthropic 说「未来几周」全面开放。Mythos Preview 的网络安全能力远超 Opus 4.8,但用户面会更窄。对大多数开发者来说,Opus 4.8 就是未来几个月的主力。
FAQ
Opus 4.8 和 GPT-5.5 比,到底哪个更好?
看场景。Agentic coding(SWE-bench Pro 69.2 vs 58.6)和知识工作(GDPval Elo 1890 vs 1769),Opus 4.8 领先。纯终端自动化(Terminal-Bench 78.2 vs 74.6),GPT-5.5 仍然更好。如果你主要用 AI 写代码,Opus 4.8 是目前最强的选择。
我是个人开发者,值得从 Opus 4.7 升级吗?
值得。标准价格不变,Fast mode 还便宜了 3 倍。默认 effort 降到 high 意味着日常使用成本可能更低。唯一需要适应的是它会更频繁地说「我不确定」——但这其实是好事,省得你事后 debug。
Opus 4.8 什么时候能用上?
现在就可以。Claude.ai、Claude Code、API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry、GitHub Copilot 都已支持。API 端 model ID 是 claude-opus-4-8。
开源模型有没有能打 Opus 4.8 的?
暂时没有。DeepSeek V 4-Pro 在编程上最接近(SWE-bench 约 60%),Qwen 3.7 Max 在数学推理上很强。但 Agentic coding + Computer Use 的综合能力,还没有开源模型能对标 Opus 4.8。考虑到 DeepSeek 的演进速度,这个差距可能在 3-6 个月内缩小。
参考来源
- Anthropic, Introducing Claude Opus 4.8, 2026-05-28, anthropic.com
- ComputingForGeeks, Claude Opus 4.8: Features, Benchmarks, 2026-05-28
- Codersera, Claude Opus 4.8 Launch Guide: Benchmarks & Pricing, 2026-05-28
- CNBC, Anthropic tops OpenAI as most valuable AI startup, 2026-05-28








