Cover image for microsoft-build-2026-mai-polaris
3

6 月

微软 Build 2026 暴击:7 款自研 AI 模型齐发,Project Polaris 替换 GPT-4,微软的「AI 独立宣言」

AI 摘要:微软 Build 2026 一口气发布 7 款自研 MAI 模型:首款推理模型 MAI-Thinking-1 盲测胜 Sonnet 4.6,Project Polaris 自研编码模型 8 月起替代 GitHub Copilot 的 GPT-4 Turbo。Mustafa Suleyman 提出 thinki

AI 摘要 – 微软 Build 2026 发布 7 款自研 MAI 模型:推理、编码、图像、语音、转录全模态覆盖 – Project Polaris:微软自研编码模型,8 月起替代 GPT-4 Turbo 成为 GitHub Copilot 默认引擎 – MAI-Thinking-1 在盲测中胜 Claude Sonnet 4.6,SWE-bench Pro 对标 Opus 4.6

微软为什么要自己造模型?

6 月 2 日,旧金山。微软 Build 2026 的主题演讲台上,Microsoft AI CEO Mustafa Suleyman 一次性发布了七款自研 AI 模型。

如果你只是扫了一眼标题,可能会觉得「又是一场模型发布会」。但真正值得关注的不是模型的参数或跑分——而是微软在做什么。

微软是全球对 OpenAI 投资最多的公司。Azure 是 OpenAI 的独家云服务商。GitHub Copilot 用的是 GPT-4 Turbo。在 AI 圈,所有人都默认微软 = OpenAI 的云外壳。

Build 2026 打破了这种默认。

这不是一场普通的模型发布。这是微软的「AI 独立宣言」——从此以后,微软的核心产品线不再依赖单一的模型供应商。

MAI-Thinking-1:微软的第一张推理牌

先看最受关注的 MAI-Thinking-1。

这是一款 35 B 激活参数(约 1 T 总参数)的稀疏 MoE 模型,128 K 上下文窗口。微软强调了几个关键差异点:

完全从零训练,不使用第三方模型蒸馏。 在当前 AI 版权纠纷不断的背景下,这意味着 MAI-Thinking-1 的训练数据是「企业级、干净、商业授权」的——没有来自 OpenAI、Anthropic 或其他竞品模型的合成数据。

独立盲测胜 Sonnet 4.6。 微软使用了第三方评测平台 Surge 的 1276 个任务进行人工盲测,评估维度是「回答是否有帮助、是否推进了任务」。结果显示人类评审员偏好 MAI-Thinking-1 多于 Claude Sonnet 4.6。

编码能力对标 Opus 4.6。 在 SWE-bench Pro 上,MAI-Thinking-1 与 Claude Opus 4.6 不相上下。一个 35 B 激活参数的模型追上了 Anthropic 最强的旗舰——这个效率比值得关注。

在数学推理方面:AIME 2025 达到 97.0%,AIME 2026 达到 94.5%。这些数字表明微软在训练循环中确实建立了真正的推理能力。

但需要注意:目前 MAI-Thinking-1 仅对 Microsoft Foundry 用户开放私有预览,尚未在公开基准测试中接受独立验证。

Project Polaris:微软要用自己的模型替换 GPT-4

如果说 MAI-Thinking-1 是「秀肌肉」,Project Polaris 才是真正的战术核弹。

微软宣布,从 2026 年 8 月起,Project Polaris——微软自研的编码模型——将成为 GitHub Copilot 的默认推理引擎,替代 GPT-4 Turbo。用户可以享受 3 个月的回退期(到 11 月),之后 Polaris 将成为唯一的默认引擎。

Project Polaris 采用 Mixture-of-Experts 架构,针对不同编程语言有专门的子模块。Chain-of-thought 加 Tree-of-thought 推理在 Azure 定制 Maia 加速器上运行。训练数据使用「允许商业使用的代码」,微软还提供了 Code Content Guarantee——对 Polaris 生成内容的 IP 索赔进行赔偿。

这些细节不会让普通用户兴奋,但对企业法务部门来说价值连城——版权合规是阻止大模型进入企业生产环境的最大阻力之一。

更耐人寻味的战略信号:微软——OpenAI 最大的投资者和最亲密的合作伙伴——选择在自己的旗舰产品中用自研模型替换合作伙伴的模型。这会让每一个企业客户问同一个问题:「如果微软都在自己做,我们何必只绑定一家?」

「Thinking + Coding」:Suleyman 的 Agent 公式

Suleyman 在演讲中提出了一个简洁的框架:「思考(Thinking)+ 编程(Coding)」= 真正的 Agent 系统。

MAI-Thinking-1 负责拆解复杂问题、规划步骤、推理验证。MAI-Code-1-Flash(5 B 参数超高效模型)负责执行代码生成,成本对标 Haiku 级别。

这个分工模式不是微软独有的——Anthropic 有 Opus + Haiku,OpenAI 有 GPT-5.5 Pro + GPT-5.5 Nano。但微软的独特之处在于:它在自己的云平台(Foundry,前 Azure AI Studio)上同时提供 OpenAI、Anthropic 和开源模型的接入,现在又多了一层自研模型。

Copilot 被重新定位为「多模型平台」——不再只有一个模型引擎,而是根据任务智能路由到最合适的模型。Foundry 的模型目录已超过 3000 个。

其他五款模型:覆盖全模态

微软同时发布了:

  • MAI-Image-2.5:图像生成 + 编辑,Arena.ai 图像模型家族排名第 3
  • MAI-Image-2.5 Flash:更快更便宜的版本
  • MAI-Voice-2:多语言 TTS,支持声音克隆,覆盖 15+ 语言
  • MAI-Voice-2 Flash:高效版本
  • MAI-Transcribe-1.5:43 语言语音转文字,FLEURS 基准排名第一

这些模型已经在 Copilot、Bing、PowerPoint、Azure Speech 中运行——微软在用自家产品做模型验证,然后把验证过的模型开放给开发者。

对开发者和企业意味着什么

  1. GitHub Copilot 用户将从 8 月起默认使用 Polaris。如果你依赖 Copilot 的特定行为模式,需要留意模型切换。
  2. Foundry 成为一个多模型市场——3000+ 模型包括 OpenAI、Anthropic、微软自研和开源选项。供应商锁定正在被平台化替代。
  3. MAI 系列的全栈覆盖意味着企业可以在单一平台上完成推理、编码、图像、语音的全流程——但也要接受微软生态的深度绑定。
  4. 版权保障是一个被低估的竞争维度——微软的「干净数据 + 商业授权 + IP 赔偿」可能成为企业采购决策中的决定性因素。

FAQ

Q:MAI-Thinking-1 能替代 GPT-5.5 或 Opus 4.8 吗? A:目前不能。MAI-Thinking-1 在 SWE-bench Pro 上对标 Opus 4.6(非 4.8),综合推理能力尚未与最新旗舰正面比较。但它代表了微软自研的第一代推理模型,方向明确。

Q:Project Polaris 会对我使用的 Copilot 产生什么影响? A:从 2026 年 8 月起,Polaris 成为默认引擎。如果你习惯的编码风格有变化,可以用 3 个月回退期切换回 GPT-4 Turbo。到 11 月后只有 Polaris。

Q:微软这是要和 OpenAI 分手吗? A:不是分手,是「多供应商策略」。微软仍然投资 OpenAI,但不再独家依赖。今年 4 月修改的合作协议已经允许 OpenAI 在非 Azure 云上提供服务——微软现在只是对等回应。


微软 Build 2026 传递的信号很清楚:在 AI 时代,最安全的战略不是依赖最强的合作伙伴,而是自己会造轮子——同时保持平台对所有轮子的兼容。这七款模型的发布,加上 Project Polaris 的战术意义,标志着微软从「OpenAI 的云分销商」向「全栈 AI 平台」的转变正式完成。

RELATED

Posts