25

5 月

Claude Agents 会做梦了:Anthropic 如何用”睡眠学习”让 AI Agent 从工具进化为同事

Claude Agents 会做梦了:Anthropic 如何用”睡眠学习”让 AI Agent 从工具进化为同事

Key Takeaways

  • 2026 年 5 月 6 日,Anthropic 在 Code with Claude 开发者大会上发布了 Dreaming 功能——让 AI Agent 在会话之间”做梦”:回顾历史、发现模式、自我进化
  • Dreaming 通过四阶段 Consolidation 流程(Orient → Gather → Consolidate → Prune),在后台静默优化 Agent 记忆,将跨会话的学习成果固化为持久知识
  • Harvey 法律 AI 平台接入 Dreaming 后任务完成率提升约 6 倍;技术架构上,Dreaming 与 Memory 形成互补——Memory 在会话中捕获学习,Dreaming 在会话间精炼学习
  • Dreaming 的发布标志着 AI Agent 从”无状态工具”到”持续学习的数字同事”的范式转变,Agent 记忆与自我进化正成为 2026 年 AI 基础设施的新战场

一、一个被命名为”做梦”的工程突破

2026 年 5 月 6 日,旧金山 Code with Claude 开发者大会上,Anthropic 发布了三项 Claude Managed Agents 更新。其中最引人注目的不是技术指标,而是一个名字——Dreaming(做梦)

这个名字并非营销噱头。人类睡眠时,大脑会整合白天经历,将短期记忆转化为长期记忆,剔除噪音,提取模式。Claude 的 Dreaming 做的是同样的事:在 Agent 会话结束后,后台进程自动回顾对话记录和记忆存储,提取跨会话的模式,整理记忆结构,让 Agent 在下次工作时更聪明。

“Dreaming 能发现单个 Agent 自己无法看到的模式,”Anthropic 在官方博客中写道,”包括反复出现的错误、多个 Agent 独立收敛到的工作流,以及团队共享的偏好。”

Dreaming 目前为 Research Preview(开发者需申请访问),同场发布的 Outcomes 和 Multiagent Orchestration 已进入 Public Beta。三者组合形成了一个完整的 Agent 持续改进循环:Outcomes 定义成功标准 → Multiagent 执行复杂任务 → Dreaming 从执行中提取教训,优化下次表现。


二、技术实现:四道门、四个阶段、三层记忆

Dreaming 不是一个简单的定时任务。它的实现包含精密的门控机制、分阶段 Consolidation 流程和层级化记忆架构。

2.1 四道触发门:确保只在值得运行时运行

Dreaming 不会每次会话结束都触发。它需要足够的”数据积累”才有意义——这一设计直接借鉴了 UC Berkeley Sleep-time Compute 论文的核心发现:Consolidation 需要足够的累积数据才能产生价值。

触发条件按计算成本从低到高排列:

门控 条件 成本 设计逻辑
时间门 距上次 Consolidation ≥ 24 小时 几乎为零(时间戳比较) 防止频繁无效触发
会话门 累积新会话 ≥ 5 个 低(扫描文件列表) 确保有足够数据供分析
扫描节流 距上次扫描 ≥ 10 分钟 几乎为零(时间戳比较) 避免重复扫描
锁门 获取文件系统锁(PID 锁文件) 中等 防止多个进程同时 Dreaming

任一门前失败,进程立即退出。 这五会话阈值是关键设计选择——太少则信号不足,太多则记忆滞后。一个实际测试显示,Dream 周期处理 913 个累积会话约需 8-9 分钟,完全在后台运行,不阻塞主会话。

2.2 四阶段 Consolidation:从日志到持久知识

一旦所有门通过,Dreaming 启动一个 forked sub-agent,按照四阶段提示词执行 Consolidation:

Phase 1 — Orient(定向)

Agent 读取 MEMORY.md 索引,浏览主题文件标题,构建当前记忆状态的全局模型。此阶段只读标题和索引,不深入文件内容——目的是快速理解”现在知道什么”,而非重新消化所有知识。

Phase 2 — Gather Signal(收集信号)

这是 Dreaming 最精妙的设计。Agent 不读取完整的会话转录(JSONL 文件可能极庞大),而是用 grep 做针对性搜索:

  • 用户纠正(”你错了”、”不对”)
  • 显式保存指令(”记住这个”、”保存到记忆”)
  • 跨会话的重复主题
  • 重要决策(架构选择、工具选择、工作流变更)

Grep-first, not read-first 的策略确保 Dreaming 在有限 token 预算内定位最有价值的信息。

Phase 3 — Consolidate(整合)

这是核心的”学习”阶段:

  • 将相对时间戳转换为绝对日期(”昨天”→”2026-05-06″)——确保记忆随时间推移仍可解读
  • 删除已被明确推翻的事实
  • 合并重复观察为规范条目
  • 解决不同会话中的矛盾结论
  • 只使用 EditWrite 工具写入;Bash 只读

Phase 4 — Prune and Index(修剪和索引)

  • 重写主题文件,保持内容精简
  • 重建 MEMORY.md,保持在 200 行/25 KB 以内
  • 移除指向过期/被取代记忆的指针
  • 降级过长条目(超过 ~200 字符的索引行 → 内容移到主题文件)
  • 解决文件间的矛盾和冲突

2.3 三层记忆架构:Dreaming 是垃圾回收器

Claude Code 的记忆系统有三层:

层级 内容 加载方式 管理策略
Layer 1 — MEMORY.md 200 行索引,每行 ~150 字符的指针 始终在上下文中 Dreaming 重建
Layer 2 — 主题文件 实际项目知识(用户/项目/反馈/参考类型) 按需加载 Dreaming 合并/更新/删除
Layer 3 — 每日转录 原始会话 JSONL 日志 永不完整重读,仅 grep 特定标识符 Dreaming 从转录中提取信号

Dreaming 是这套架构的垃圾回收器(Garbage Collector)。 没有它:

  • Layer 2 随时间变得陈旧和矛盾
  • Layer 1 膨胀到失去索引作用
  • Layer 3 变得不可导航

2.4 安全边界

Dream 周期中 Agent 对项目代码只读——只能写入 memory 目录。Dream 进程沙盒化到 memory 目录。失败时回滚。sequential() 包装器防止并发运行。原始 memory store 永不被覆盖——Dreaming 始终输出到新的独立 memory store,开发者可审查后决定使用或丢弃。


三、Memory + Dreaming:Agent 自我进化的基础设施

Dreaming 不是孤立功能。它与 Memory 形成互补系统,两者共同构成 Agent 自我进化的基础设施。

3.1 分工:Memory 是采集器,Dreaming 是精炼厂

  • Memory:在会话进行中工作。Agent 捕获上下文、编写笔记、存储学习成果,实时记录。
  • Dreaming:在会话结束后工作。回顾过去会话、提取跨会话模式、整理和优化记忆结构。

用建筑类比:Memory 是工地上的原材料收集,Dreaming 是夜间把这些材料分类、归档、搭建成可用结构。

3.2 Harvey 案例:Completion Rate ↑6 x

Anthropic 官方博客公开了法律 AI 平台 Harvey 的测试数据:

Harvey 使用 Managed Agents 协调复杂法律工作,如长篇起草和文档创建。引入 Dreaming 后,Agent 在不同会话间分享了学到的经验——包括文件类型应对策略和工具特定使用模式——任务完成率在测试中提升了约 6 倍。

这是一组需要认真对待的数字。6 倍的完成率提升并不来自更强的模型,它来自让 Agent 记住并学习过往经验。

3.3 多 Agent 场景的独特价值

Dreaming 在 Multiagent 场景下的价值更为突出。当 20 个 Specialist Agent 并行工作时(Multiagent Orchestration 已进入 Public Beta,最多支持 20 个并行 Specialist),每个 Agent 独立积累经验。Dreaming 是唯一能跨 Agent 提取共享学习的机制——这进一步扩展了我们在 Matt Pocock Skills 项目分析 中讨论的工程化 AI 协作范式:

  • 发现多个 Agent 独立收敛到的相同工作流
  • 识别团队共享的偏好模式
  • 汇总分散在不同 Agent 会话中的错误和修复经验

四、行业竞争格局:Agent 记忆成为新战场

Dreaming 的发布不是孤立事件。2026 年上半年,三大 AI 厂商都在 Agent 记忆领域发力。

4.1 三大厂商记忆方案对比

维度 Anthropic Claude OpenAI Google Gemini
记忆模型 Memory(会话中)+ Dreaming(会话间)双层 store: true + previous_response_id 链式 Agent Engine Sessions + Memory Bank
跨会话学习 Dreaming 自动模式提取(Research Preview) 服务端压缩推理 token 重建上下文 NotebookLM 同步(2026 年 4 月上线)
记忆透明度 完整事件日志,可审查 压缩/不透明的服务端状态 完整可查询历史
多 Agent 记忆 Dreaming 跨 Agent 提取共享学习 每个 Agent 独立 workspace 基础设施级持久上下文
用户控制 自动更新 or 审查后更新,输出独立 store 系统提示不通过 previous_response_id 持久化 background=True 异步执行

4.2 第三方记忆中间件

除了平台原生方案,第三方记忆中间件也在快速发展:

  • Mem 0:市场领导者(GitHub 星标最高),声称 26% 准确度提升和 90% token 节省。提供 Python SDK + 托管 SaaS
  • Zep:在 LongMemEval 基准上声称 18.5% 改进
  • Letta:对 Mem 0 基准方法提出质疑,强调 Agent 自改进指令

但第三方方案面临根本限制:它们只能管理显式存储的数据,无法像 Dreaming 那样访问原始会话转录进行模式发现。

4.3 学术前沿:Agentic Memory

2026 年的学术研究进一步验证了这个方向。Agentic Memory (AgeMem) 论文将五个记忆操作(store、retrieve、update、summarize、discard)作为 RL 可训练动作,通过三阶段训练(监督预热 → 任务级 RL → 步骤级 GRPO)实现了跨五种长周期基准的持续最佳表现。关键是学习到的策略展现出非显而易见的行为:在上下文填满前主动总结中间结果,选择性丢弃语义重复但不增加新信息的记录。

这正是 Dreaming 在工程层面实现的目标——只不过它的做法是让 Agent 审视自己的对话历史,而非通过强化学习训练参数。


五、为什么 Dreaming 改变了 Agent 的游戏规则

Dreaming 最重要的价值不在于技术实现,而在于它改变了 AI Agent 的进化方向

5.1 从”更好的模型”到”更好的系统”

过去两年,AI Agent 的改进几乎完全依赖模型升级:GPT-4 → GPT-5 → GPT-5.5,Claude Opus 4 → 4.5 → 4.7。每次升级都让 Agent 更聪明,但也有一个根本限制:Agent 每次会话都从零开始

Dreaming 代表的改进路径完全不同:放弃在模型层面堆参数,转向在系统层面建基础设施——让 Agent 从自己的经验中学习,让跨会话的记忆持续积累价值。这是从”更好的模型”到”更好的系统”的根本转变。

5.2 从 Stateless Tool 到 Stateful Colleague

当前大多数 AI Agent 是无状态的(stateless):每次对话独立,不记得上次合作中的偏好、决策和教训。它们是功能强大的工具,但永远不是”同事”——因为同事会记住,会学习,会随着时间变得更有价值。

Dreaming 让 Agent 具备了成为”同事”的关键能力:

  • 记住偏好:不是每次都重新询问编码风格偏好
  • 学习错误:犯过一次的错误不会因为”新会话”而重犯
  • 积累经验:解决过的问题模式自动固化为未来知识
  • 跨会话进化:每次合作都让 Agent 更了解你的工作方式

5.3 Sleeper Agents 与算力利用率

从技术经济学角度看,Dreaming 代表了 “Sleep-time Compute” 的应用——在用户不活跃时(夜间、周末)利用计算资源优化 Agent 状态,而非让 GPU 闲置。这不仅是工程优化,也是一种新的算力商业模式:Agent 在你睡觉时变得更聪明。


六、在 Claude Code 中使用 Dreaming

6.1 当前状态

Dreaming 在 Claude Managed Agents 中作为 Research Preview 提供(需申请访问)。但在 Claude Code 中,AutoDream 功能已在内部构建,通过 Feature Flag (tengu_onyx_plover) 控制发布节奏。

6.2 配置方式

查看当前状态:

/memory

交互式菜单会显示 AutoDream 开关状态。

手动触发:

/dream

或自然语言:”consolidate my memory files”

设置文件中启用:

{
  "autoDreamEnabled": true
}

6.3 自动触发条件

当以下四个条件全部满足时,AutoDream 在后台自动运行:

  1. 距上次 Consolidation ≥ 24 小时
  2. 累积 ≥ 5 个新会话
  3. 距上次扫描 ≥ 10 分钟
  4. 当前没有其他进程在 Dreaming

6.4 实际影响

Dreaming 运行期间,主会话完全不受影响——它是独立的 forked sub-agent,在自己的进程中工作。用户可能注意到的一是 status line 短暂显示 “dreaming”,二是下次打开项目时记忆更精准、更精简——这与我们之前讨论的 Claude Code 记忆系统 形成互补:Memory 在会话中工作,Dreaming 在会话后精炼。


七、局限与展望

7.1 当前局限

  • Research Preview 阶段:功能仍在早期测试,Anthropic 明确提示可能会有 Breaking Changes
  • 申请制访问:Managed Agents Dreaming 目前需申请,未对所有开发者开放
  • 最少 5 会话积累:对于低频使用场景,触发间隔可能过长
  • 仅分析最近 100 个会话:对高频 Agent 使用的团队,可能遗漏长期趋势
  • 仅 Claude Opus 4.7 和 Sonnet 4.6 支持:不支持较小模型

7.2 未来方向

从已公开的代码和文档可以推测:

  • Dreaming 触发将更灵活:可能支持按工作流类型、项目阶段自定义触发条件
  • 跨 Agent Team 的 Dreaming:与 Multiagent Orchestration 深度整合,支持 Team-level Memory Consolidation
  • 结合 Outcomes 形成自动优化闭环:Dreaming 提取教训 → Outcomes 更新评估标准 → Multiagent 按新标准执行 → 循环迭代

八、结语:Agent 的下一个竞争维度

2026 年 5 月这一周,AI 行业密集释放了关于 Agent 未来的信号。Anthropic 用 Dreaming 说:Agent 应该会学习。OpenAI 用 GPT-5.5 Instant 说:模型应该更准确。Google 用 AlphaEvolve 说:AI 应该会自我优化。

三条路径指向同一个方向:AI 从被动的工具进化为主动的协作者。

Dreaming 的发布之所以值得深入关注,不是因为它完美——Research Preview 阶段的功能离生产就绪还有距离——而是因为它揭示了一个基本趋势:Agent 基础设施的下一个竞争维度,不是更大的模型、更长的上下文、更快的推理,而是Agent 能否随使用时间增长而变得更有价值

对于那些正在构建或评估 AI Agent 的团队,这个问题值得从现在开始思考:你的 Agent 一年后比今天更聪明吗? 如果不,那它就是一个高级 CLI 工具,不是一个真正的数字同事。Dreaming 是 Anthropic 对这个问题的回答——一个仍在早期但方向明确的回答。


数据来源与参考链接:

分享这篇文章

RELATED

Posts