OpenAI自进化Codex 6周准确率25到86封面
6

6 月

OpenAI「自进化」Codex 实锤曝光:6 周准确率从 25% 飙升到 86%,没有一个人碰过代码

一个 AI 系统,没人重训模型,没人重写代码,6 周内自己把准确率从 25% 拉到了 86%。这不是科幻——这是 OpenAI 刚披露的 Tax AI 系统的真实表现。

Codex 分析自己的输出日志、定位 Bug、写修复方案、运行测试验证、自动合并。整个过程闭环,无人干预。

一条被藏了半年的「自进化」暗线是什么?

  • 2 月:GPT-5.3-Codex——「我们第一个在创造自身过程中发挥了关键作用的模型」
  • 4 月:Symphony 开源——让 Agent 自己管理自己的开发任务
  • 5 月:MOSS 论文——Agent 直接改写自己的源代码,4 个任务平均评分 0.25→0.61
  • 6 月:Tax AI 数据曝光——6 周准确率 25%→86%

这不是渐进式改进。这是 AI 开发范式的底层转移。

OpenAI Codex自进化螺旋25到86准确率提升示意

为什么 25%→86% 比任何 Benchmark 都重要?

实验室 benchmark 分数和真实环境表现之间的差距往往大到令人尴尬。Tax AI 的有趣在于——它不靠「把模型训得更好」来弥合这个鸿沟,而是让 AI 自己在真实环境中学习、犯错、修正、迭代。这正是人类工程师的成长路径。不是刷题刷到 100 分,而是踩坑踩到熟。

Anthropic 和 OpenAI 对同一件事情为何态度截然相反?

Anthropic 说「AI 写了 80% 代码,我们需要暂停」。OpenAI 说「AI 6 周自我提升了 244%,我们可以更快」。同一事实,两种态度——这就是 2026 年 AI 行业最核心的路线分歧。

智盒判断

短期:OpenAI 会把 Tax AI 包装成企业级 Agent 的 ROI 故事——「部署之后它自己会越用越好」。对企业客户有强大说服力。

中期:25%→86% 意味着还有 14% 的错误。这些「残留错误」会以什么方式积累?这是一个全新的质量保证挑战。

长期:Tax AI + MOSS + Anthropic 的 9 个 Agent 800 小时自主研究——2026 年将成为「AI 自我改进」的元年。

FAQ

Tax AI 是怎么自我进化的?

分析输出日志→定位错误→写修复代码→跑测试验证→通过则自动合并。闭环,无人干预。

这和 Anthropic 的 80% 代码有什么区别?

Anthropic 是「AI 写了多少代码」(量),OpenAI 是「AI 自己修了多少 Bug」(质+自我改进)。一个是生产效率指标,一个是自我进化指标。

参考来源:网易/新智元,36 氪,X @OpenAI

RELATED

Posts