Google I/O 2026 大会主题视觉
28

5 月

Google I/O 2026 复盘:Gemini 月活 9 亿、全栈 Agent 化、世界模型,Google 用「生态反击」回应了所有人

如果你这周只看了一场发布会,你可能会以为 Anthropic 和 OpenAI 是这个行业唯一的两个玩家。

5 月 20 日 Google I/O 把这种印象彻底打碎了。Pichai 开场用了不到 20 分钟甩出一组数字:Gemini 月活 9 亿(一年前是 4 亿),覆盖 230 个国家 70 种语言,Google Search 的 AI Mode 查询量每季度翻倍。然后才是产品:Gemini 3.5 Flash、Omni 世界模型、Spark 跨应用 Agent、Agent Payments Protocol。

但 Google I/O 2026 真正值得关注的东西不是单一产品,而是一个模式:Google 在用生态宽度打 Anthropic 和 OpenAI 的模型深度。 Anthropic 有最强的编码模型,OpenAI 有最强的消费品牌,Google 的回答是”我有 Search + Workspace + Android + YouTube + Maps + Shopping——然后我把 Agent 嵌进这每一个入口”。

Key Takeaways
– Gemini 3.5 Flash 正式 GA:编码和 Agent 任务速度比竞品快 4 倍,Pichai 说企业换用 Google 模型”每年可省 $10 亿以上”
– Omni 世界模型发布:文本/图片/视频输入→生成可编辑视频,DeepMind 机器人研究转化为消费级产品
– Spark 跨应用 Agent:Gmail + Docs + Slides + Calendar + Search 全打通,beta 下周对 US Ultra 用户开放
– Agent Payments Protocol:让用户在 Agent 自动交易前预设支出限额和购买标准——这是 Agent 经济的支付基础设施

9 亿月活意味着什么?

Anthropic 和 OpenAI 争夺的是能说出 Claude 比 GPT 好在哪的技术用户。Google 的 9 亿 Gemini 用户大部分说不出模型版本号——他们只是打开 Google Search,问一个问题,AI Mode 自动触发了。

这就是 Google 生态战的核心逻辑。Search 每天处理数十亿查询。Google Workspace 有 30 亿用户。Android 有 30 亿设备。YouTube 有 25 亿月活。当 Google 把 Agent 嵌进这些入口——

Search 搜索框现在是 AI Agent 的入口。你可以直接让 Google Search 帮你买演唱会票、检查航班、管理日程。AI Mode 接受照片、视频、文档上传然后自动解读。VP Liz Reid 在台上说 Google Search 查询量”上个月达到历史新高”——这是在和 ChatGPT 正面对抗一年多之后的结果。

引用胶囊:2026 年 5 月 Google I/O 宣布,Gemini 月活跃用户达到 9 亿(一年前约 4 亿),覆盖 230 个国家和 70 种语言。Google Search 的 AI Mode 查询量每季度翻倍。(TechWireAsia,2026 年 5 月)

这里的对比值得细看。Anthropic 走的是企业 Agent 平台 → 付费 API → 利润验证的路线。OpenAI 走的是 ChatGPT 消费品牌 → 5 亿用户 → IPO 融资的路线。Google 走的是第三条:AI 嵌入已有生态 → 零获客成本 → 用量驱动收入。不需要让用户下载一个叫 Gemini 的 App,因为用户已经在用 Google 了。

Gemini 3.5 Flash:不是最强,但是最「够用」

纯技术参数上,Gemini 3.5 Flash 没有在任何单一基准上碾压 Opus 4.7 或 GPT-5.5。但 Google 打的是另一张牌:性价比 + 速度。

Pichai 的表述很精准:企业换用 Google 模型”每年可省 $10 亿以上”,性能相当,成本”可低至竞品的三分之一”。输出速度”比竞品前沿模型快 4 倍”。

这意味着一件事:Google 不在争夺”最强模型”这个称号,它在争夺”每天跑 100 亿次推理”的那个位置。对于 Search、Workspace、YouTube 这种量级的场景来说,4 倍速度差比 2% 的跑分差重要得多。

Gemini 3.5 Flash 同步上线了强化的网络安全保护,减少有害输出和错误拒绝。这一点在 Agent 化场景里比在聊天场景里重要得多——当你的 AI 在帮你自动购物、管理日程、发邮件时,一个误拒绝可以接受,一个误操作则可能造成实际损失。

Omni 世界模型:Google 独有的牌

如果说 Flash 是参与竞争,Omni 是在开一条 Google 独有的赛道。

Omni 是一个”世界模型”——不像 Sora 那样只是生成视频,而是理解物理世界的因果关系。它能接收文本、图片、音频、视频作为输入,生成可编辑的视频,并且在对话中自然修改——”加一个人”、”把背景从白天改成夜晚”、”让汽车左转而不是右转”。

这背后的技术积累来自 DeepMind 多年在机器人领域的强化学习研究。世界模型的核心能力是预测环境如何随时间变化——比如一个球被踢了之后会飞向哪里、一个杯子从桌上掉下来会不会碎。把这套系统重新包装成消费级产品,是 Google 独有的路径。

Omni 的发布轨迹值得关注:先在 Gemini App、Google Flow 和 YouTube Shorts 上线,面向 AI Plus/Pro/Ultra 订阅用户。这和 Anthropic 把 Dreaming 放研究预览、OpenAI 把高级功能锁在 Pro 订阅里的策略完全一致——世界模型生成一帧视频的算力成本远高于文本,不可能免费开放。

但战略信号很清楚:Google 在视频/物理世界这个维度上没有对手。Anthropic 没有视频模型,OpenAI 有 Sora 但没有 DeepMind 的机器人研究做底层支撑。

Spark:跨应用 Agent 的 Google 答案

Spark 是 Google 对”AI Agent 到底怎么用”的回答。

不是一个独立的 Agent 聊天窗口,而是一个可以操作多个 Google 应用的后台 Agent。你可以授权它访问 Gmail、Docs、Slides、Calendar——然后告诉它”帮我把下周的会议材料准备好”或者”整理过去三个月的旅行收据发给会计”。它会自己跨应用查找、整理、执行。

设计上做了明显的安全考量:Agent 在花钱或发邮件之前会主动询问确认。后续通过 MCP 协议接入 Canva、OpenTable、Instacart 等第三方服务——这和 Anthropic 的 Managed Agents 走 MCP 开放生态是同一路线,而不是微软 Copilot 的封闭集成。

Spark 的 beta 下周对 US Ultra 用户开放。Agent Payments Protocol 会在”未来几个月”先接入 Spark,让用户预设支出限额和购买标准——这解决的是 Agent 经济最核心的信任问题:你敢让 AI 帮你花钱吗?

引用胶囊:Google 在 2026 年 I/O 发布了 Spark——一个跨 Gmail、Docs、Slides、Calendar 的通用 AI Agent,用户可选择授权哪些应用,Agent 在执行花钱或发邮件操作前会主动询问确认。后续通过 MCP 接入 Canva、OpenTable、Instacart 等第三方。(TechWireAsia,2026 年 5 月)

三条 Agent 路线的差异

到 2026 年 5 月底,三家公司的 Agent 战略已经完全没有雷同了。

Anthropic OpenAI Google
Agent 定位 企业开发者平台 消费级 AI 助手 生态嵌入式 Agent
核心入口 API + Claude Code ChatGPT App Search + Workspace + Android
分发模式 按 API 调用 按订阅 嵌入已有 30 亿用户
记忆系统 Dreaming(会话间) Memory Sources 多应用上下文
交易能力 Agent Payments Protocol
视频/物理 Sora Omni 世界模型

Anthropic 在做最深的 Agent 引擎。OpenAI 在做最大的消费品牌。Google 在做最广的生态嵌入。

哪个路线能赢?答案是取决于你问”在哪赢”。在开发者工具市场,Anthropic 的深度优势很难被生态宽度替代。在消费端,Google 的 9 亿用户 + Search 里的 Agent 入口对 ChatGPT 构成了真正的威胁。在企业生产力市场,Spark 跨应用 Agent 直接对标了 Microsoft Copilot——而那是一个 Google 必须抢回来的战场。

定价策略的变化信号

Google 同时宣布了调价:AI Ultra 从 $250/月降到 $200/月,新增 Developer/Work 版 $100/月

Pichai 说企业”今年 AI token 用量已经超预期”,暗示需求弹性很大——降价不是缺乏需求,而是加速从 Anthropic/OpenAI 抢量。当 Gemini 3.5 Flash 比竞品快 4 倍、便宜 60% 以上,对于高吞吐场景(Search、推荐、内容审核),切换的经济学已经很清楚。

其他值得关注

发布 时间 意义
Project Aura 智能眼镜 秋季 2026 Samsung + Warby Parker 联名,内透镜显示
Universal Cart 购物 Agent 今夏美国 Google 从搜索中介变成交易平台
Gemini on macOS 已上线 打入 Apple 生态
Antigravity 2.0 编码助手 直接从 Windsurf 挖团队,对标 Claude Code

常见问题

Gemini 3.5 Flash 比 ChatGPT/GPT-5.5 强吗?

在单一基准上不一定更强,但在速度(比竞品快 4 倍)和性价比(成本低至三分之一)上优势明显。对于高吞吐、低延迟场景(搜索、内容生成),Flash 的综合优势很大;对于需要最强推理的单次任务,Opus 4.7 和 GPT-5.5 仍然是更好的选择。

Omni 世界模型和 Sora 有什么区别?

Sora 是视频生成模型,Omni 是”世界模型”——它不只是生成画面,还理解物理因果关系(物体如何运动、环境如何变化)。这得益于 DeepMind 多年的机器人研究积累。用户可以自然语言对话编辑生成的视频。

Spark 和 Anthropic 的 Managed Agents 有什么不同?

Anthropic Managed Agents 面向开发者——你通过 API 定义 Agent 的行为、工具和评估标准。Spark 面向消费者——你授权 Google 应用后,Agent 自动跨 Gmail、Docs、Calendar 执行任务。前者是开发者工具,后者是消费者产品。

Google 的 Agent 策略和微软 Copilot 有什么区别?

Google 走开放路线——Spark 通过 MCP 接入第三方(Canva、OpenTable、Instacart)。微软 Copilot 更封闭——深度集成 Microsoft 365 但对外部生态的开放度较低。

Ultra 订阅降到 $200/月值得吗?

如果你重度使用 Google Workspace + Gemini,$200/月包含 Search AI Mode、Omni 视频生成、Spark Agent、Gemini 3.5 Flash 无限制使用——和单买 OpenAI Pro ($200/月) + Claude Max ($100/月) 比,性价比确实更高。前提是你需要 Google 那一整套生态。

结语

Google I/O 2026 发布的东西太多,很容易被当成”功能列表”扫过去。但如果你把过去几周的三件事串起来看——

Anthropic 盈利了(证明了 Agent 平台的商业模型),OpenAI 申请 IPO 了(用规模换更多弹药),Google I/O 发布了全栈 Agent 化了(用生态宽度打深度)。这是 AI 行业 2026 年 5 月最值得记住的叙事:Agent 不再是一个产品品类,它正在成为所有产品的默认形态。

Google 用 9 亿用户 + 30 亿 Workspace 用户 + 30 亿 Android 设备的入口优势,把 Agent 嵌进了用户的日常行为——不是”来用我们的 Agent”,而是”你已经在这里了,Agent 已经在帮你了”。这条路线不需要说服用户下载新 App、不需要解释 AI 能做什么——它用的是 Google 最擅长的事:让技术在后台默默工作。

相关阅读:Anthropic 首次盈利,AI 行业从烧钱切换到利润验证

参考来源

TechWireAsia, “Google I/O 2026 recap: AI agents, Gemini, smart glasses and more”,检索于 2026-05-28
TechStartups, “Google launches Gemini 3.5 Flash and Omni world model at I/O 2026”,检索于 2026-05-28
Google AI, “Gemini API Release Notes — May 2026”,检索于 2026-05-28

分享这篇文章

RELATED

Posts