
6 月
GPT-5.6 偷跑:150 万上下文窗口泄露,六月或上演四大模型混战
AI 摘要:GPT-5.6 从 Codex 后端日志泄露:代号 iris-alpha,上下文窗口 150 万 tokens,比 GPT-5.5 API 提升 43%。Polymarket 预测 6 月发布概率 85%。同期 Claude Sonnet 4.8、Gemini 3.5 Pro、Grok 5 均传瞄准 6 月。
先声明:这是泄露,不是官宣。
2026 年 5 月 26 日,几个开发者在 OpenAI Codex 的后端日志里发现了一行不该出现的东西:一个叫 gpt-5.6 的模型路由记录。
这不是第一次了。GPT-4.5、GPT-5.5 都有过类似的「Codex 日志偷跑」剧本。但这次的规模更大 – – 被扒出来的不是一个模型,而是一个系列:iris-alpha 是主模型,还有 ember-alpha 和 beacon-alpha 两个变体。
核心泄露数据:上下文窗口 150 万 tokens。GPT-5.5 的 API 上限是 105 万,Codex OAuth 通道只有 40 万。GPT-5.6 直接把天花板拉高了 43%。
值得注意的是,Polymarket 预测 6 月发布的概率一度飙到 89%,目前稳定在 85% 左右。
1.5 M 上下文能干什么?
一场持续一整天的编程 session,一个完整微服务仓库的全部代码,一本《战争与和平》加注释和评论 – – 这些文本量大致都是 100 万到 150 万 token。
对 Codex 用户来说,这意味着不再需要「整理 token」 – – 整段 session 历史、全部相关代码文件、所有错误日志、N 轮对话,全部塞进上下文,让模型自己处理。
有开发者在 OpenCode 中实测:输入 90 万 token 时模型稳定响应,甚至超 105 万 token 的极限请求也没有崩溃。
一位名 Haider 的研究者最先在 Codex 日志中发现了这些路由记录。Polymarket 上的预测市场在信息曝光后 24 小时内从不确定跳到了 80% 以上。WaveSpeed 的一篇分析文章提供了最深入的技术解读:他们认为 GPT-5.6 的关键工作可能不是什么新架构,而是对奖励模型的一次重大修复 – – 起因是 4 月 30 日 OpenAI 承认的「Goblin」事故(模型输出中出现异常行为的后门现象),随后的奖励审计管线重建才是 5.6 版本的核心工程。
「OpenAI 4 月 30 日的 Goblin 事后分析读起来像是一个两集故事的第一集;第二集是他们做了什么,那就是 GPT-5.6 的叙事。」 – – WaveSpeed Blog
UI 代码生成:你可能低估了这个能力
GPT-5.5 的「slop」问题(前端代码生成质量差、重复、风格不统一)是一个持续被吐槽的话题。开发者在 Reddit 和 X 上反复提到同一个模式:「它能写出能跑的代码,但 UI 看起来像是 2012 年的 Bootstrap 模板。」
GPT-5.6 的早期测试反馈指向了一个显著的改善:用简短提示词就能生成干净的前端 UI 布局。这意味着 OpenAI 可能在后训练阶段专门强化了 UI 生成的训练数据配比。
如果这个改善是真实的(不是几个 cherry-picked 案例),它影响的不只是设计师。任何需要快速做原型、做 demo、做内部工具的开发者都会受益。Codex + 1.5 M 上下文 + 干净的 UI 生成 = 写一个完整 SaaS 应用的前端可能只需要几轮对话。
六月混战:四大模型谁先出牌?
GPT-5.6 的泄露不是孤立的。从多个信息源交叉印证,2026 年 6 月可能是 AI 历史上最拥挤的模型发布月:
| 公司 | 可能发布的模型 | 可信度 |
|---|---|---|
| OpenAI | GPT-5.6 (iris-alpha) | 中高 – – Codex 日志多次出现 |
| Anthropic | Claude Sonnet 4.8 / Opus 4.8 | 中 – – 社区传闻,无硬证据 |
| Gemini 3.5 Pro | 中 – – GTC 和 Q 1 财报多次暗示 | |
| xAI | Grok 5 (6 T 参数) | 低-中 – – Elon 声称的路线图但通常延期 |
OpenAI 的发布节奏值得单独分析。从 2025 年到 2026 年,旗舰模型发布周期从年度 → 半年度 → 季度 → 双月,现在可能压缩到约 40 天。GPT-5.5 是 4 月 23 日发布的。如果节奏维持,6 月初到中旬确实是 GPT-5.6 的「预期窗口」。
AI 竞争已经从「比谁参数大」变成了「比谁出得快」。四家同时出牌,开发者是唯一的赢家。
但也别太兴奋 – – 这些东西都可能不准
有几点需要保持清醒:
- 泄露不代表发布 – – 路由记录只是内部测试的标志,模型可能推迟、改名、甚至取消
- 150 万上下文是开发者反推的数字 – – 不是官方 spec,最终发布版本可能不同
- Polymarket 的高概率不代表确定 – – 预测市场反映的是社区共识,不是内部时间表
- 竞争对手的传闻可信度更低 – – Google 和 Anthropic 的「6 月发布」目前只有行业推测,没有硬证据
FAQ
Q:GPT-5.6 确定叫这个名字吗? A:不确定。目前所有信息来自 Codex 后端日志的非官方发现。官方可能使用不同的命名。
Q:1.5 M token 上下文对我有用吗? A:如果你在做大型代码库分析、长文档处理、长时间 Agent 任务 – – 非常有用。如果你主要用 ChatGPT 做日常问答,1 M 和 1.5 M 的差异感受不到。
Q:GPT-5.6 会比 GPT-5.5 贵吗? A:目前没有定价泄露。考虑到模型迭代加速,OpenAI 可能会维持现有定价结构($1.25/$10 每百万 token)。
Q:应该等 GPT-5.6 再开发/购买吗? A:永远不要为「可能发布的模型」做采购决策。按现有最可用的工具开始,模型升级是常态。
六月的 AI 模型混战如果成真,对于开发者来说,竞争的逻辑很简单:谁先上线谁占窗口,谁好用谁留下。GPT-5.6 的 150 万上下文窗口是「有意义的进步」 – – 前提是它真的在 6 月落地,而且不是又一个只存在于 Codex 日志里的幽灵。










