具身智能正在敲开AGI的大门,全面引爆属于通用机器人的第四次工业革命。 作者丨岑 峰 编辑丨马晓宁 2026年6月3日,国际机器人与自动化会议(ICRA 2026)在奥地利维也纳进入正会的第二天。在这一天的“行业主题演讲”环节(Industry Keynote Session),具身智能领域知名学者、银河通用(Galbot)创始人和CTO王鹤发表了题为《Towards the AlphaGo and ChatGPT Moments of Embodied AI》的主题演讲。 在演讲中,王鹤指出,具身智能正迈向专属的“AlphaGo时刻”与“ChatGPT时刻”。 他表示,银河通用已通过两大突破触及“AlphaGo时刻”:一是实现完全自主的人形机器人网球对抗,展现了极致的全身协调与Sim2Real能力;二是让灵巧手摆脱遥操作依赖,基于“灵巧世界模型”像人一样使用螺丝刀等工具完成精密装配与复杂操作。 面向更通用的“ChatGPT时刻”,王鹤提出构建结合VLA与世界模型的“世界动作模型(WAM)”。其最新的LDA模型不仅能在隐空间中推演并执行长周期任务,还具备强大的多任务与跨机器人构型泛化能力,目前已在全家便利店、宁德时代及物流仓储等真实场景实现全自主落地。 最后他总结,将WAM“大脑”与端到端控制器“小脑”结合,并在海量多维数据的驱动下,具身智能必将引爆第四次工业革命。 以下是王鹤在 ICRA 2026 大会发表的演讲精编稿,雷峰网·AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑: 《Towards the AlphaGo and ChatGPT Moments of Embodied AI》 主讲人:王鹤(He Wang),银河通用 大家好,我是王鹤,银河通用的创始人和CTO。今天我要演讲的主题是:迈向具身智能的 AlphaGo 时刻与 ChatGPT 时刻。 银河通用(Galbot)是一家致力于开发通用机器人和具身基础模型的独角兽初创公司。我们的使命是:让通用机器人赋能千行百业,并走进千家万户。 带着这个宏大的使命,我们最好先回顾一下“数字AI”的发展历程,因为数字AI的步伐比具身智能领先了几步。 首先,我们经历了 AlphaGo 时刻:AI首次在一个单一但足够复杂的棋类游戏(围棋)中击败了人类。然后,人们从单一任务中找到了规模扩张(Scale up)的方法。这带来了从 GPT-2 到 ChatGPT 时刻的演进,单一模型开始能够处理几乎所有的语言任务。而现在,人们仍在向着 AGI(通用人工智能)时刻 迈进。 如果我们审视具身智能,我们实际上正在完全遵循这条路径,只不过物理世界的情况截然不同。为了实现具身智能的“AlphaGo 时刻”,我们必须选择一个足够复杂的任务。这个任务需要极高的全身协调能力(Whole-body coordination)以及极其复杂的策略,因此,我们选择了网球(Tennis)。 因此,我们首次让完全自主的人形机器人与人类进行真实的对抗,这中间没有任何遥操作,一切都在完全自主模式下进行。 这项突破不仅体现在身体协调上,更体现在高阶策略上。大家可以看到,我们的机器人学会了如何击败人类。它在这里,准备就绪并成功回球。实际上,我们利用了内部的仿真平台来支持强化学习的训练,更重要的是,实现了 Sim2Real的迁移。 实际上,这是与 AlphaGo 最大的不同之处:AlphaGo 是在纯数字世界里下棋,而在物理世界中打网球的 Sim2Real 难度极高。但我们非常自豪,我们的策略模型可以直接部署在现实世界中,无需任何微调。 人们可能会反驳说:“哦,你们还需要展示一些关于手部精细操作的能力,才能真正宣称达到了 AlphaGo 时刻。”。 因此,我们首次让机器人的灵巧手完全像人类一样去使用工具。大家现在看到的是使用螺丝刀进行精密装配。我们后续还会看到更多手中操作(In-hand manipulation)的例子,比如使用刀具、锤子,甚至把桌腿安装到桌子上。我们是如何做到的呢? 我们同样是在仿真器中学习这项技能,但考虑到这个任务具有极高的接触丰富度(Contact-rich),我们需要将模型部署到现实世界中去获取一些展开轨迹,即使初始阶段它的表现可能比较一般。 这些现实轨迹被用来训练一个“灵巧世界模型”,基于神经动力学的残差预测,我们可以利用它进一步大幅改进策略。 接下来是一个与 Figure 机器人的并排对比(Side-by-side comparison)。看看 Figure 是如何用手指拧开瓶盖的——你会发现它其实是抓紧瓶盖,然后整个手腕旋转,再松开。这可能是因为他们依赖遥操作(Teleoperation)来收集数据。然而,如果你使用强化学习(RL),手指之间就能产生自然的协调,做出更加流畅的动作。 此外,像 Nvidia 在 2023 年展示了在仿真器中“转笔(Pen spinning)”,但他们仅仅停留在了仿真阶段。而我们首次在现实世界中实现了这种连续的灵巧盘玩。所以,这就是为什么我认为我们即将迎来具身智能的 AlphaGo 时刻,哪怕很多人目前还觉得这些任务难以企及。 那么,下一步是什么?我们如何才能走向具身智能的 ChatGPT 时刻? 我们需要找到一种方法来定义一个通用模型。这将是一个结合了 VLA(视觉-语言-动作)和世界模型的“世界动作模型”(World Action Model, WAM)。 要知道,虽然“世界动作模型”已经被公认为是具身基础模型 Scale up 最有希望的路径,但银河通用(Galbot)早就在此前的顶级论文(如ICCV)中定义了它。如果你在 arXiv 上搜索 World Action Model,最早的论文之一就是来自银河通用的。 我们最新的世界动作模型被称为 LDA(Latent Dynamics Action Model),它实现了从“在像素空间中想象(Imagining in pixels)”到“在隐空间中想象(Imagining in the latent space,即 DINO 空间)”的跨越。 这个模型允许我们执行超长周期(Long-horizon)的任务。例如,我们可以看到机器人能够完全自主地煎牛排:它加速使用平底锅,抓起牛排,翻面,抽出下面那块,然后移动到盘子里,松开夹子(Tongs),撒上调料——全都是完全自主完成的。 同时,这个单一模型还展现出了强大的多任务能力,从捡起碎玻璃、叠衣服、货架拣货补货,到把肉穿到烤串上(Thread meat onto skewers)。并且,它能够泛化到不同的机器人构型上:包括带轮子的长臂机器人、带腿的短臂机器人,以及宇树(Unitree)的机器人都能适配。左边的机器人同样来自银河通用(Galbot),右边也有宇树的 G1 系列。 我们已经在许多实际场景中部署了我们的机器人。比如,我们接待过一位福克斯新闻(Fox News)的主持人,他参观了第一家由人形机器人运营的全家便利店(Family Mart)。我们的机器人也在不同的物流仓库中工作,在数十万平米的厂区里经过了多次迭代。 此外,我们的重载(Heavy-duty)机器人已经部署在了宁德时代(CATL)。这款机器人可以搬运 50 公斤重的物体,处于完全自主模式下。而且它可以自己更换电池,因此实际有效工作时间是每天24小时。 那么,我们什么时候才能迎来 ChatGPT 时刻呢? 我认为,我们首先需要将“大脑”(Cerebrum)和“小脑”(Cerebellum)结合起来。“大脑”将是 WAM(世界动作模型),而“小脑”将是一个全身、全手的控制器(Whole-body, whole-hand controller)。它们绝大多数都将是通过神经网络进行端到端(End-to-end)训练的。 然后,我们要去吸收海量的数据:包括仿真数据、现实世界的遥操作数据,以及第一人称视角数据(Egocentric data)。在这里,第一人称视角数据是一个极具扩展性的数据源,实际上我们在五年前就开始了第一人称数据收集的研究(即我们的 CVPR 2022 论文)。 这帮助我们构建了一个全面的数据基础设施:从互联网数据、人类第一人称数据、跨构型的仿真数据、现实世界遥操作数据,到基于策略(On-policy)的强化学习奖励数据。这个数据金字塔将成为推动我们迈向 ChatGPT 时刻的核心燃料。 我相信,整个社区的同仁们都会为了 AGI 时刻全力以赴。一旦我们到达那里,我们将见证第四次工业革命——它将伴随着智能手机般的普及规模、汽车般的硬件价格,以及大模型带来的巨大溢价。 欢迎大家来我们的 137号展位(Booth 137) 参观,亲自感受一下机器人打网球和货架拣货的震撼体验。谢谢大家! 去哪看ICRA【演讲/论文】详解? 为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】。 专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。 扫描下方二维码,或点击「阅读原文」关注专区。 与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.