Technology

银河通用创始人王鹤：具身智能正迈向专属的「AlphaGo时刻」与「ChatGPT时刻」 | ICRA 2026

具身智能正在敲开AGI的大门，全面引爆属于通用机器人的第四次工业革命。作者丨岑峰编辑丨马晓宁 2026年6月3日，国际机器人与自动化会议（ICRA 2026）在奥地利维也纳进入正会的第二天。在这一天的“行业主题演讲”环节（Industry Keynote Session），具身智能领域知名学者、银河通用（Galbot）创始人和CTO王鹤发表了题为《Towards the AlphaGo and ChatGPT Moments of Embodied AI》的主题演讲。在演讲中，王鹤指出，具身智能正迈向专属的“AlphaGo时刻”与“ChatGPT时刻”。他表示，银河通用已通过两大突破触及“AlphaGo时刻”：一是实现完全自主的人形机器人网球对抗，展现了极致的全身协调与Sim2Real能力；二是让灵巧手摆脱遥操作依赖，基于“灵巧世界模型”像人一样使用螺丝刀等工具完成精密装配与复杂操作。面向更通用的“ChatGPT时刻”，王鹤提出构建结合VLA与世界模型的“世界动作模型（WAM）”。其最新的LDA模型不仅能在隐空间中推演并执行长周期任务，还具备强大的多任务与跨机器人构型泛化能力，目前已在全家便利店、宁德时代及物流仓储等真实场景实现全自主落地。最后他总结，将WAM“大脑”与端到端控制器“小脑”结合，并在海量多维数据的驱动下，具身智能必将引爆第四次工业革命。以下是王鹤在 ICRA 2026 大会发表的演讲精编稿，雷峰网·AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑：《Towards the AlphaGo and ChatGPT Moments of Embodied AI》主讲人：王鹤（He Wang），银河通用大家好，我是王鹤，银河通用的创始人和CTO。今天我要演讲的主题是：迈向具身智能的 AlphaGo 时刻与 ChatGPT 时刻。银河通用（Galbot）是一家致力于开发通用机器人和具身基础模型的独角兽初创公司。我们的使命是：让通用机器人赋能千行百业，并走进千家万户。带着这个宏大的使命，我们最好先回顾一下“数字AI”的发展历程，因为数字AI的步伐比具身智能领先了几步。首先，我们经历了 AlphaGo 时刻：AI首次在一个单一但足够复杂的棋类游戏（围棋）中击败了人类。然后，人们从单一任务中找到了规模扩张（Scale up）的方法。这带来了从 GPT-2 到 ChatGPT 时刻的演进，单一模型开始能够处理几乎所有的语言任务。而现在，人们仍在向着 AGI（通用人工智能）时刻迈进。如果我们审视具身智能，我们实际上正在完全遵循这条路径，只不过物理世界的情况截然不同。为了实现具身智能的“AlphaGo 时刻”，我们必须选择一个足够复杂的任务。这个任务需要极高的全身协调能力（Whole-body coordination）以及极其复杂的策略，因此，我们选择了网球（Tennis）。因此，我们首次让完全自主的人形机器人与人类进行真实的对抗，这中间没有任何遥操作，一切都在完全自主模式下进行。这项突破不仅体现在身体协调上，更体现在高阶策略上。大家可以看到，我们的机器人学会了如何击败人类。它在这里，准备就绪并成功回球。实际上，我们利用了内部的仿真平台来支持强化学习的训练，更重要的是，实现了 Sim2Real的迁移。实际上，这是与 AlphaGo 最大的不同之处：AlphaGo 是在纯数字世界里下棋，而在物理世界中打网球的 Sim2Real 难度极高。但我们非常自豪，我们的策略模型可以直接部署在现实世界中，无需任何微调。人们可能会反驳说：“哦，你们还需要展示一些关于手部精细操作的能力，才能真正宣称达到了 AlphaGo 时刻。”。因此，我们首次让机器人的灵巧手完全像人类一样去使用工具。大家现在看到的是使用螺丝刀进行精密装配。我们后续还会看到更多手中操作（In-hand manipulation）的例子，比如使用刀具、锤子，甚至把桌腿安装到桌子上。我们是如何做到的呢？我们同样是在仿真器中学习这项技能，但考虑到这个任务具有极高的接触丰富度（Contact-rich），我们需要将模型部署到现实世界中去获取一些展开轨迹，即使初始阶段它的表现可能比较一般。这些现实轨迹被用来训练一个“灵巧世界模型”，基于神经动力学的残差预测，我们可以利用它进一步大幅改进策略。接下来是一个与 Figure 机器人的并排对比（Side-by-side comparison）。看看 Figure 是如何用手指拧开瓶盖的——你会发现它其实是抓紧瓶盖，然后整个手腕旋转，再松开。这可能是因为他们依赖遥操作（Teleoperation）来收集数据。然而，如果你使用强化学习（RL），手指之间就能产生自然的协调，做出更加流畅的动作。此外，像 Nvidia 在 2023 年展示了在仿真器中“转笔（Pen spinning）”，但他们仅仅停留在了仿真阶段。而我们首次在现实世界中实现了这种连续的灵巧盘玩。所以，这就是为什么我认为我们即将迎来具身智能的 AlphaGo 时刻，哪怕很多人目前还觉得这些任务难以企及。那么，下一步是什么？我们如何才能走向具身智能的 ChatGPT 时刻？我们需要找到一种方法来定义一个通用模型。这将是一个结合了 VLA（视觉-语言-动作）和世界模型的“世界动作模型”（World Action Model, WAM）。要知道，虽然“世界动作模型”已经被公认为是具身基础模型 Scale up 最有希望的路径，但银河通用（Galbot）早就在此前的顶级论文（如ICCV）中定义了它。如果你在 arXiv 上搜索 World Action Model，最早的论文之一就是来自银河通用的。我们最新的世界动作模型被称为 LDA（Latent Dynamics Action Model），它实现了从“在像素空间中想象（Imagining in pixels）”到“在隐空间中想象（Imagining in the latent space，即 DINO 空间）”的跨越。这个模型允许我们执行超长周期（Long-horizon）的任务。例如，我们可以看到机器人能够完全自主地煎牛排：它加速使用平底锅，抓起牛排，翻面，抽出下面那块，然后移动到盘子里，松开夹子（Tongs），撒上调料——全都是完全自主完成的。同时，这个单一模型还展现出了强大的多任务能力，从捡起碎玻璃、叠衣服、货架拣货补货，到把肉穿到烤串上（Thread meat onto skewers）。并且，它能够泛化到不同的机器人构型上：包括带轮子的长臂机器人、带腿的短臂机器人，以及宇树（Unitree）的机器人都能适配。左边的机器人同样来自银河通用（Galbot），右边也有宇树的 G1 系列。我们已经在许多实际场景中部署了我们的机器人。比如，我们接待过一位福克斯新闻（Fox News）的主持人，他参观了第一家由人形机器人运营的全家便利店（Family Mart）。我们的机器人也在不同的物流仓库中工作，在数十万平米的厂区里经过了多次迭代。此外，我们的重载（Heavy-duty）机器人已经部署在了宁德时代（CATL）。这款机器人可以搬运 50 公斤重的物体，处于完全自主模式下。而且它可以自己更换电池，因此实际有效工作时间是每天24小时。那么，我们什么时候才能迎来 ChatGPT 时刻呢？我认为，我们首先需要将“大脑”（Cerebrum）和“小脑”（Cerebellum）结合起来。“大脑”将是 WAM（世界动作模型），而“小脑”将是一个全身、全手的控制器（Whole-body, whole-hand controller）。它们绝大多数都将是通过神经网络进行端到端（End-to-end）训练的。然后，我们要去吸收海量的数据：包括仿真数据、现实世界的遥操作数据，以及第一人称视角数据（Egocentric data）。在这里，第一人称视角数据是一个极具扩展性的数据源，实际上我们在五年前就开始了第一人称数据收集的研究（即我们的 CVPR 2022 论文）。这帮助我们构建了一个全面的数据基础设施：从互联网数据、人类第一人称数据、跨构型的仿真数据、现实世界遥操作数据，到基于策略（On-policy）的强化学习奖励数据。这个数据金字塔将成为推动我们迈向 ChatGPT 时刻的核心燃料。我相信，整个社区的同仁们都会为了 AGI 时刻全力以赴。一旦我们到达那里，我们将见证第四次工业革命——它将伴随着智能手机般的普及规模、汽车般的硬件价格，以及大模型带来的巨大溢价。欢迎大家来我们的 137号展位（Booth 137）参观，亲自感受一下机器人打网球和货架拣货的震撼体验。谢谢大家！去哪看ICRA【演讲/论文】详解？为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货，雷峰网已全面上线【ICRA 2026 深度专区】。专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲，更将持续更新前方记者的第一手会议动态。扫描下方二维码，或点击「阅读原文」关注专区。与全球 8000 名顶尖大脑同步呼吸，抢先透视具身智能的下一个五年！

雷峰雷峰网Updated 8h ago1 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.