5 月
Claude Agents 会做梦了:Anthropic 如何用”睡眠学习”让 AI Agent 从工具进化为同事
Claude Agents 会做梦了:Anthropic 如何用”睡眠学习”让 AI Agent 从工具进化为同事
Key Takeaways
- 2026 年 5 月 6 日,Anthropic 在 Code with Claude 开发者大会上发布了 Dreaming 功能——让 AI Agent 在会话之间”做梦”:回顾历史、发现模式、自我进化
- Dreaming 通过四阶段 Consolidation 流程(Orient → Gather → Consolidate → Prune),在后台静默优化 Agent 记忆,将跨会话的学习成果固化为持久知识
- Harvey 法律 AI 平台接入 Dreaming 后任务完成率提升约 6 倍;技术架构上,Dreaming 与 Memory 形成互补——Memory 在会话中捕获学习,Dreaming 在会话间精炼学习
- Dreaming 的发布标志着 AI Agent 从”无状态工具”到”持续学习的数字同事”的范式转变,Agent 记忆与自我进化正成为 2026 年 AI 基础设施的新战场
一、一个被命名为”做梦”的工程突破
2026 年 5 月 6 日,旧金山 Code with Claude 开发者大会上,Anthropic 发布了三项 Claude Managed Agents 更新。其中最引人注目的不是技术指标,而是一个名字——Dreaming(做梦)。
这个名字并非营销噱头。人类睡眠时,大脑会整合白天经历,将短期记忆转化为长期记忆,剔除噪音,提取模式。Claude 的 Dreaming 做的是同样的事:在 Agent 会话结束后,后台进程自动回顾对话记录和记忆存储,提取跨会话的模式,整理记忆结构,让 Agent 在下次工作时更聪明。
“Dreaming 能发现单个 Agent 自己无法看到的模式,”Anthropic 在官方博客中写道,”包括反复出现的错误、多个 Agent 独立收敛到的工作流,以及团队共享的偏好。”
Dreaming 目前为 Research Preview(开发者需申请访问),同场发布的 Outcomes 和 Multiagent Orchestration 已进入 Public Beta。三者组合形成了一个完整的 Agent 持续改进循环:Outcomes 定义成功标准 → Multiagent 执行复杂任务 → Dreaming 从执行中提取教训,优化下次表现。
二、技术实现:四道门、四个阶段、三层记忆
Dreaming 不是一个简单的定时任务。它的实现包含精密的门控机制、分阶段 Consolidation 流程和层级化记忆架构。
2.1 四道触发门:确保只在值得运行时运行
Dreaming 不会每次会话结束都触发。它需要足够的”数据积累”才有意义——这一设计直接借鉴了 UC Berkeley Sleep-time Compute 论文的核心发现:Consolidation 需要足够的累积数据才能产生价值。
触发条件按计算成本从低到高排列:
| 门控 | 条件 | 成本 | 设计逻辑 |
|---|---|---|---|
| 时间门 | 距上次 Consolidation ≥ 24 小时 | 几乎为零(时间戳比较) | 防止频繁无效触发 |
| 会话门 | 累积新会话 ≥ 5 个 | 低(扫描文件列表) | 确保有足够数据供分析 |
| 扫描节流 | 距上次扫描 ≥ 10 分钟 | 几乎为零(时间戳比较) | 避免重复扫描 |
| 锁门 | 获取文件系统锁(PID 锁文件) | 中等 | 防止多个进程同时 Dreaming |
任一门前失败,进程立即退出。 这五会话阈值是关键设计选择——太少则信号不足,太多则记忆滞后。一个实际测试显示,Dream 周期处理 913 个累积会话约需 8-9 分钟,完全在后台运行,不阻塞主会话。
2.2 四阶段 Consolidation:从日志到持久知识
一旦所有门通过,Dreaming 启动一个 forked sub-agent,按照四阶段提示词执行 Consolidation:
Phase 1 — Orient(定向)
Agent 读取 MEMORY.md 索引,浏览主题文件标题,构建当前记忆状态的全局模型。此阶段只读标题和索引,不深入文件内容——目的是快速理解”现在知道什么”,而非重新消化所有知识。
Phase 2 — Gather Signal(收集信号)
这是 Dreaming 最精妙的设计。Agent 不读取完整的会话转录(JSONL 文件可能极庞大),而是用 grep 做针对性搜索:
- 用户纠正(”你错了”、”不对”)
- 显式保存指令(”记住这个”、”保存到记忆”)
- 跨会话的重复主题
- 重要决策(架构选择、工具选择、工作流变更)
Grep-first, not read-first 的策略确保 Dreaming 在有限 token 预算内定位最有价值的信息。
Phase 3 — Consolidate(整合)
这是核心的”学习”阶段:
- 将相对时间戳转换为绝对日期(”昨天”→”2026-05-06″)——确保记忆随时间推移仍可解读
- 删除已被明确推翻的事实
- 合并重复观察为规范条目
- 解决不同会话中的矛盾结论
- 只使用
Edit和Write工具写入;Bash 只读
Phase 4 — Prune and Index(修剪和索引)
- 重写主题文件,保持内容精简
- 重建
MEMORY.md,保持在 200 行/25 KB 以内 - 移除指向过期/被取代记忆的指针
- 降级过长条目(超过 ~200 字符的索引行 → 内容移到主题文件)
- 解决文件间的矛盾和冲突
2.3 三层记忆架构:Dreaming 是垃圾回收器
Claude Code 的记忆系统有三层:
| 层级 | 内容 | 加载方式 | 管理策略 |
|---|---|---|---|
| Layer 1 — MEMORY.md | 200 行索引,每行 ~150 字符的指针 | 始终在上下文中 | Dreaming 重建 |
| Layer 2 — 主题文件 | 实际项目知识(用户/项目/反馈/参考类型) | 按需加载 | Dreaming 合并/更新/删除 |
| Layer 3 — 每日转录 | 原始会话 JSONL 日志 | 永不完整重读,仅 grep 特定标识符 | Dreaming 从转录中提取信号 |
Dreaming 是这套架构的垃圾回收器(Garbage Collector)。 没有它:
- Layer 2 随时间变得陈旧和矛盾
- Layer 1 膨胀到失去索引作用
- Layer 3 变得不可导航
2.4 安全边界
Dream 周期中 Agent 对项目代码只读——只能写入 memory 目录。Dream 进程沙盒化到 memory 目录。失败时回滚。sequential() 包装器防止并发运行。原始 memory store 永不被覆盖——Dreaming 始终输出到新的独立 memory store,开发者可审查后决定使用或丢弃。
三、Memory + Dreaming:Agent 自我进化的基础设施
Dreaming 不是孤立功能。它与 Memory 形成互补系统,两者共同构成 Agent 自我进化的基础设施。
3.1 分工:Memory 是采集器,Dreaming 是精炼厂
- Memory:在会话进行中工作。Agent 捕获上下文、编写笔记、存储学习成果,实时记录。
- Dreaming:在会话结束后工作。回顾过去会话、提取跨会话模式、整理和优化记忆结构。
用建筑类比:Memory 是工地上的原材料收集,Dreaming 是夜间把这些材料分类、归档、搭建成可用结构。
3.2 Harvey 案例:Completion Rate ↑6 x
Anthropic 官方博客公开了法律 AI 平台 Harvey 的测试数据:
Harvey 使用 Managed Agents 协调复杂法律工作,如长篇起草和文档创建。引入 Dreaming 后,Agent 在不同会话间分享了学到的经验——包括文件类型应对策略和工具特定使用模式——任务完成率在测试中提升了约 6 倍。
这是一组需要认真对待的数字。6 倍的完成率提升并不来自更强的模型,它来自让 Agent 记住并学习过往经验。
3.3 多 Agent 场景的独特价值
Dreaming 在 Multiagent 场景下的价值更为突出。当 20 个 Specialist Agent 并行工作时(Multiagent Orchestration 已进入 Public Beta,最多支持 20 个并行 Specialist),每个 Agent 独立积累经验。Dreaming 是唯一能跨 Agent 提取共享学习的机制——这进一步扩展了我们在 Matt Pocock Skills 项目分析 中讨论的工程化 AI 协作范式:
- 发现多个 Agent 独立收敛到的相同工作流
- 识别团队共享的偏好模式
- 汇总分散在不同 Agent 会话中的错误和修复经验
四、行业竞争格局:Agent 记忆成为新战场
Dreaming 的发布不是孤立事件。2026 年上半年,三大 AI 厂商都在 Agent 记忆领域发力。
4.1 三大厂商记忆方案对比
| 维度 | Anthropic Claude | OpenAI | Google Gemini |
|---|---|---|---|
| 记忆模型 | Memory(会话中)+ Dreaming(会话间)双层 | store: true + previous_response_id 链式 |
Agent Engine Sessions + Memory Bank |
| 跨会话学习 | Dreaming 自动模式提取(Research Preview) | 服务端压缩推理 token 重建上下文 | NotebookLM 同步(2026 年 4 月上线) |
| 记忆透明度 | 完整事件日志,可审查 | 压缩/不透明的服务端状态 | 完整可查询历史 |
| 多 Agent 记忆 | Dreaming 跨 Agent 提取共享学习 | 每个 Agent 独立 workspace | 基础设施级持久上下文 |
| 用户控制 | 自动更新 or 审查后更新,输出独立 store | 系统提示不通过 previous_response_id 持久化 |
background=True 异步执行 |
4.2 第三方记忆中间件
除了平台原生方案,第三方记忆中间件也在快速发展:
- Mem 0:市场领导者(GitHub 星标最高),声称 26% 准确度提升和 90% token 节省。提供 Python SDK + 托管 SaaS
- Zep:在 LongMemEval 基准上声称 18.5% 改进
- Letta:对 Mem 0 基准方法提出质疑,强调 Agent 自改进指令
但第三方方案面临根本限制:它们只能管理显式存储的数据,无法像 Dreaming 那样访问原始会话转录进行模式发现。
4.3 学术前沿:Agentic Memory
2026 年的学术研究进一步验证了这个方向。Agentic Memory (AgeMem) 论文将五个记忆操作(store、retrieve、update、summarize、discard)作为 RL 可训练动作,通过三阶段训练(监督预热 → 任务级 RL → 步骤级 GRPO)实现了跨五种长周期基准的持续最佳表现。关键是学习到的策略展现出非显而易见的行为:在上下文填满前主动总结中间结果,选择性丢弃语义重复但不增加新信息的记录。
这正是 Dreaming 在工程层面实现的目标——只不过它的做法是让 Agent 审视自己的对话历史,而非通过强化学习训练参数。
五、为什么 Dreaming 改变了 Agent 的游戏规则
Dreaming 最重要的价值不在于技术实现,而在于它改变了 AI Agent 的进化方向。
5.1 从”更好的模型”到”更好的系统”
过去两年,AI Agent 的改进几乎完全依赖模型升级:GPT-4 → GPT-5 → GPT-5.5,Claude Opus 4 → 4.5 → 4.7。每次升级都让 Agent 更聪明,但也有一个根本限制:Agent 每次会话都从零开始。
Dreaming 代表的改进路径完全不同:放弃在模型层面堆参数,转向在系统层面建基础设施——让 Agent 从自己的经验中学习,让跨会话的记忆持续积累价值。这是从”更好的模型”到”更好的系统”的根本转变。
5.2 从 Stateless Tool 到 Stateful Colleague
当前大多数 AI Agent 是无状态的(stateless):每次对话独立,不记得上次合作中的偏好、决策和教训。它们是功能强大的工具,但永远不是”同事”——因为同事会记住,会学习,会随着时间变得更有价值。
Dreaming 让 Agent 具备了成为”同事”的关键能力:
- 记住偏好:不是每次都重新询问编码风格偏好
- 学习错误:犯过一次的错误不会因为”新会话”而重犯
- 积累经验:解决过的问题模式自动固化为未来知识
- 跨会话进化:每次合作都让 Agent 更了解你的工作方式
5.3 Sleeper Agents 与算力利用率
从技术经济学角度看,Dreaming 代表了 “Sleep-time Compute” 的应用——在用户不活跃时(夜间、周末)利用计算资源优化 Agent 状态,而非让 GPU 闲置。这不仅是工程优化,也是一种新的算力商业模式:Agent 在你睡觉时变得更聪明。
六、在 Claude Code 中使用 Dreaming
6.1 当前状态
Dreaming 在 Claude Managed Agents 中作为 Research Preview 提供(需申请访问)。但在 Claude Code 中,AutoDream 功能已在内部构建,通过 Feature Flag (tengu_onyx_plover) 控制发布节奏。
6.2 配置方式
查看当前状态:
/memory
交互式菜单会显示 AutoDream 开关状态。
手动触发:
/dream
或自然语言:”consolidate my memory files”
设置文件中启用:
{
"autoDreamEnabled": true
}
6.3 自动触发条件
当以下四个条件全部满足时,AutoDream 在后台自动运行:
- 距上次 Consolidation ≥ 24 小时
- 累积 ≥ 5 个新会话
- 距上次扫描 ≥ 10 分钟
- 当前没有其他进程在 Dreaming
6.4 实际影响
Dreaming 运行期间,主会话完全不受影响——它是独立的 forked sub-agent,在自己的进程中工作。用户可能注意到的一是 status line 短暂显示 “dreaming”,二是下次打开项目时记忆更精准、更精简——这与我们之前讨论的 Claude Code 记忆系统 形成互补:Memory 在会话中工作,Dreaming 在会话后精炼。
七、局限与展望
7.1 当前局限
- Research Preview 阶段:功能仍在早期测试,Anthropic 明确提示可能会有 Breaking Changes
- 申请制访问:Managed Agents Dreaming 目前需申请,未对所有开发者开放
- 最少 5 会话积累:对于低频使用场景,触发间隔可能过长
- 仅分析最近 100 个会话:对高频 Agent 使用的团队,可能遗漏长期趋势
- 仅 Claude Opus 4.7 和 Sonnet 4.6 支持:不支持较小模型
7.2 未来方向
从已公开的代码和文档可以推测:
- Dreaming 触发将更灵活:可能支持按工作流类型、项目阶段自定义触发条件
- 跨 Agent Team 的 Dreaming:与 Multiagent Orchestration 深度整合,支持 Team-level Memory Consolidation
- 结合 Outcomes 形成自动优化闭环:Dreaming 提取教训 → Outcomes 更新评估标准 → Multiagent 按新标准执行 → 循环迭代
八、结语:Agent 的下一个竞争维度
2026 年 5 月这一周,AI 行业密集释放了关于 Agent 未来的信号。Anthropic 用 Dreaming 说:Agent 应该会学习。OpenAI 用 GPT-5.5 Instant 说:模型应该更准确。Google 用 AlphaEvolve 说:AI 应该会自我优化。
三条路径指向同一个方向:AI 从被动的工具进化为主动的协作者。
Dreaming 的发布之所以值得深入关注,不是因为它完美——Research Preview 阶段的功能离生产就绪还有距离——而是因为它揭示了一个基本趋势:Agent 基础设施的下一个竞争维度,不是更大的模型、更长的上下文、更快的推理,而是Agent 能否随使用时间增长而变得更有价值。
对于那些正在构建或评估 AI Agent 的团队,这个问题值得从现在开始思考:你的 Agent 一年后比今天更聪明吗? 如果不,那它就是一个高级 CLI 工具,不是一个真正的数字同事。Dreaming 是 Anthropic 对这个问题的回答——一个仍在早期但方向明确的回答。
数据来源与参考链接:
- Anthropic 官方博客:New in Claude Managed Agents — claude.com/blog/new-in-claude-managed-agents
- Claude API 文档:Dreams — platform.claude.com/docs/en/managed-agents/dreams
- Claude Wiki:Auto-Dream 技术分析 — claude-wiki.com/auto-dream.html
- Syntax Dispatch:Claude Managed Agents Dreaming 解析 — syntaxdispatch.com
- BuildFastWithAI:Dreaming Explained (2026) — buildfastwithai.com
- ZDNet:Your Claude agents can ‘dream’ now — zdnet.com
- VentureBeat:Anthropic introduces “dreaming” — venturebeat.com
- Agentic Brew:Anthropic’s ‘dreaming’ feature — agenticbrew.ai
- arXiv:2603.07670 — Memory for Autonomous LLM Agents (2026)
- Mem 0:State of AI Agent Memory 2026 — mem 0.ai/blog
- Ry Walker Research:Agent Self-Improvement Tools Compared — rywalker.com
- Anthropic:Higher usage limits and SpaceX compute deal — anthropic.com/news/higher-limits-spacex









