阿里Qwen-Robot具身智能三大模型从会聊到会干
17

6 月

阿里 Qwen-Robot 三件套发布:中国具身智能的「会干」转折日

阿里 Qwen-Robot 三大模型拆解:从看懂到动手的逻辑

6 月 16 日阿里巴巴发布的 Qwen-Robot 系列包含三个模型,分别解决具身智能的三个核心问题。操作模型 Qwen-RobotManip 采用 80 维统一动作表征,基于 38100 小时开源操作数据训练,实现跨硬件快速适配。移动模型 Qwen-RobotNav 引入任务自适应观察机制,在宇树科技 Go 2 四足机器人上零样本部署(NVIDIA Jetson Thor,推理延迟 196 ms),仅用单个低分辨率相机就可在陌生公寓中执行多房间任务。世界模型 Qwen-RobotWorld 基于物理规律认知,可预演动作轨迹并生成训练数据,跨操作、驾驶和导航场景预测符合物理规律的未来。

6 月 16 日还有谁在具身智能赛道上出牌?

同日,蚂蚁百灵发布 Ling & Ring 2.6 万亿参数三模型技术报告;理想汽车 Livis Day 定义具身智能汽车=电动车+职业司机+AI 计算机+生活助手;法国 Genesis AI 发布非人形通用机器人 Eno(前 Google CEO Eric Schmidt 投资);韩国 ROBOTIS AI Sapiens 人形机器人 7 天学会走路跳 K-pop。这是全球具身智能同日密集发布的罕见信号。

为什么具身智能在这个时间点集中爆发?

三个结构性因素汇聚。第一,大模型的视觉语言理解能力达到可用阈值,这是具身智能的「大脑」前提。第二,Nvidia 等厂商的仿真训练基础设施成熟,机器人可以在数字世界中尝试数百万次运动变化而不损坏一个伺服电机。第三,中国制造业对自动化升级的庞大需求提供了产业落地场景。

从「会聊」到「会干」:鸿沟有多深?

物理世界交互有三个大模型目前还跨不过的坎。第一是触觉,精细操作需要毫秒级力反馈,而现有模型没有触觉通道。第二是安全,聊天机器人出错只是文字不对,机器人出错可能造成物理伤害。第三是成本,196 ms 延迟在非结构化环境里不够用,而更好硬件=更高成本。星源智创始人比喻得当:行业都在谈 L 4/L 5 自动驾驶,但真正的 L 2 还没大规模落地。预计 2027-2028 年消费级具身智能产品才会小规模上市。

FAQ

Qwen-Robot 是开源的吗?

阿里采取部分开放策略。模型权重和技术论文已公开,但完整训练数据和部署工具链的开源程度尚待观察。这是当前国产大模型通行的「半开源」模式。

普通人什么时候能用上具身智能机器人?

工业场景(仓储、制造)的部署预计 2027 年开始;消费级产品的可靠上市时间在 2028 年之后。当前行业重点仍是降低部署成本和提升特定场景的任务成功率。

Qwen-Robot 与特斯拉 Optimus、Figure AI 相比如何?

方向不同。Optimus 和 Figure AI 是垂直整合——自己做硬件+自己做大脑;Qwen-Robot 是平台模式——做「具身大脑」供各种本体厂商调用。阿里的策略是成为「卖铲子的人」。

RELATED

Posts