科技
斯坦福Jeannette Bohg教授:抛弃“人手崇拜”,灵巧手要「解构物理」 | ICRA 2026
2026年6月3日,ICRA 2026维也纳会议“操作、控制与具身设计”主题Keynote环节,斯坦福大学计算机科学系的副教授,同时也是斯坦福交互式感知实验室(Interactive Perception Lab)的负责人Jeannette Bohg以一个反问开场——“我们还需要灵巧手吗?” 这个问题之所以有力,恰恰因为它指向了当下机器人操作领域最真实的张力:二指夹爪(two-finger gripper)配合端到端大模型,已经能完成Rubik魔方、精细拼装等令人叹服的任务。那么,高自由度、高复杂度的灵巧手(dexterous hand)的价值究竟在哪里? Jeannette Bohg给出了清晰的回答:灵巧手的价值不在于“像人类一样”,而在于吞吐量(throughput)与可控子空间(controllable subspace)这两个维度上不可替代的优势。她举了一个例子: 一名制表大师用小指稳定工具、用腕部旋转螺丝,是经过两年训练后才涌现的高效策略——这种能力,夹爪永远无法复现。 然而,灵巧手的困境同样清晰:22个自由度、多接触状态的切换,让远程操控(teleop)数据采集极其困难且低效。对此,Bohg提出了她实验室的核心方法论——不从人手学,从物体轨迹学。 她的研究路线分两步走: 第一步:Sim-tool-real的统一操作策略(UniSim-Real)。 在仿真中对基元物体集合训练单一RL策略,驱动策略的“目标信号”不是人手姿态,而是物体的目标位姿序列——这个目标序列来自人类视频,但经由基础模型提取出“物体在做什么”,与“人手如何移动”完全解耦。结果是一个零样本(zero-shot)迁移泛化到大量工具与任务的单一策略。 第二步:Play-to-Effect的精细化微调。 上述“泛化探索策略(Play Policy)虽然掌握了原子级技能,但对精度要求极高的装配任务(如公差极小的插孔)表现不足。团队将该预训练策略作为起点,通过精调(fine-tune)实现高精度插拔、家具组装等任务——比从头训练更快、更鲁棒,对外力干扰的抵抗力也更强。 Bohg最后坦诚地提出了尚未解决的核心问题:如何弥合“低维度RL物体表征”与“自我中心视频中蕴含的丰富视觉-物理复杂性”之间的鸿沟? 这是她实验室目前正在攻坚的开放问题,也是灵巧手走向真正通用的最后一块拼图。 以下是Jeannette Bohg在ICRA 2026大会上发表的演讲精编稿,雷峰网·AI科技评论基于原英文演讲内容进行了不改原意的翻译编辑: 《Do We Still Need Dexterous Hands?》 主讲人:Jeannette Bohg,斯坦福大学 一、反问开场:二指夹爪已经这么强了,灵巧手还有位置吗? 今天我想提出一个问题:我们还需要灵巧手吗? 我之所以问这个,是因为两指夹爪(two-finger gripper)所能做到的事情确实令人印象深刻。我举两个例子:一个来自Generalist团队,大家应该都见过,他们用两只手两个夹爪能做出相当惊艳的操作;另一个是我周一录下来的视频——一名研究人员展示的,一个人在解那个Gearboard的拼板,可以看到这个人操作得很吃力;而右边,那个两指夹爪机器人却把这个任务完成得相当出色。把皮带套到齿轮上,这个任务其实相当难。 然而,我确实认为灵巧手有它不可替代的位置。 二、为什么需要灵巧手:吞吐量与可控子空间 那么,我们究竟为什么要研究灵巧手? 首先,吞吐量(throughput)。我来展示一个视频——我的一个学生找到的,一个人抓起工具然后用它拧紧螺丝,速度相当快。我们仔细看:首先是用灵巧手抓起桌上的工具,然后是“手内操作”(in-hand manipulation),旋转工具对齐方向,再一次手内操作,确保工具和螺槽精确对齐。这整套动作,夹爪根本无法做到——而灵巧手能以极快的速度把它完成。 其次,可控子空间(controllable subspace)。这里我想引用LASA实验室的一项研究,她非常好地与我分享了视频。她的工作研究的是瑞士制表师如何在任务中变得精通。左边是一个初学者——可以看到他需要用另一只手来辅助定位工具与螺丝的对齐;右边是一位专家,速度完全不同。这位专家在定位螺丝时,用的是小指来稳定工具完成对齐,完全不需要第二只手。这是一种经过两年训练才涌现出来的能力和策略。 这是夹爪永远做不到的。 三、核心挑战:22个自由度,遥操作太难——不要从人手学 说了这么多优势,我们也必须直面现实:控制一个22自由度、6个驱动轴的灵巧手,并处理多接触状态的切换,是极其复杂的事情。 目前有一条很流行的路线——从遥操作数据中学习。但遥操作灵巧手本身就是一个极难的问题,操控起来非常不直觉。你可以从某个团队的视频里看到,用遥操作训练出来的策略行为,和我们刚才看到的那个人类操作截然不同——动作很慢,非常谨慎。这正是因为遥操作本身就极难操控。 所以,我们坚定地不走这条路。 相反,我们选择sim-tool-real。 当然,sim-tool-real近年来因为大量计算资源的投入取得了很大进展。但有一点我必须指出:大多数现有工作,每个技能对应一个单独的策略——旋转用一个,稳定握持用一个,工具使用用一个。我们想做的是把这些独立的技能策略统一成一个策略。 四、UniSim-Real:从物体轨迹学,而非从人手学 那么,我们是怎么做的? 关键洞察是:我们可以将操作与物体的目标位姿统一起来。 在屏幕右侧,你会看到一个绿色的“幽灵物体”——那是这个策略需要追踪的目标位姿,策略需要通过所有这些手内操作和抓取来让物体匹配这个目标。 在训练阶段,我们在仿真里生成一组基元(primitive)物体,并训练一个单一的RL策略,让它能够把每个物体操控到随机的目标位姿。这个策略在仿真里只有一个,输入是:手的本体感受状态(通过传感器获取)、物体的包围盒、物体当前位姿(用包围盒上的40个关键点表示),以及一个目标位姿序列。 那目标位姿序列从哪里来? 我们确实录制了人类视频示范,然后使用基础模型从视频里提取物体的位姿序列。重点在于:我们模仿的不是人手,我们只关心物体在做什么。 提取出来的目标位姿由闭环手部跟踪来追踪执行。 有了这个洞察,我们得到了一个单一策略,可以零样本完成大量操作任务——包括大量从未见过的工具和任务。与基线方法相比:固定抓取不work,因为完成任务必须改变物体的手内朝向;运动学重定向(kinematic retargeting)也通常不稳定。 如果你有兴趣,可以扫我PPT上的二维码,访问我们的网页,有一个交互式demo,你可以自己改变目标位姿、改变朝向,甚至让物体掉落,探索这个策略的边界。 五、Play-to-Effect:从"游玩"到"精确插拔" 现在我们有了这个能干很多事情的策略,能在灵巧手上通过RL学到各种有趣的行为。但我们也发现:它并不能很好地完成装配任务(assembly)。 装配任务需要精确度。我们的测试表明:如果两个零件之间的间隙比较宽松,这个策略有时能成功,但成功率不够高;间隙越紧,成功率越低。 于是我们问:能不能把这个已经内嵌了所有原子技能的“游玩策略(Play Policy)”作为预训练起点,再微调它去做更精确的操作? 我们将“游玩策略”作为预训练基础,针对一系列精确插拔任务进行微调(fine-tune)。在推理时,我们使用基础模型来追踪待操作零件和固定件的位姿,以关键点序列和目标抓取朝向作为输入。 测试结果包括:插销任务、宜家基准测试(IKEA benchmark)的铰链组装(插入填充物、抓取横梁并放置)、家具基准测试(将桌腿插入桌面的榫眼)。“Play-to-Effect”在所有这些任务上都有出色表现——比起游玩策略有明显提升,训练速度也很快(甚至比从头用稠密奖励训练还快),同时对引入外力干扰的抵抗力也更强。 另一个让我个人特别兴奋的地方是:这是一个闭环策略,当物体从手里掉落,它会主动捡起来再试。这种恢复行为,正是闭环策略的本质优势。 六、尚未解决的问题:低维RL与富信息视频之间的鸿沟 好,让我以几点反思来结束这个演讲。 我们用RL在这个拟人手(anthropomorphic hand)上学习到了这些非常有趣的行为。我很喜欢的一点是:我们根本不关心人手的历史动作轨迹,我们只关心物体是否在沿着轨迹运动、是否完成了任务。 因为我们用了RL,实际上我们并不需要绑定在拟人手上。完全可以使用那些具有仿生主动表面的非拟人设计的手——这些手不需要像拟人手那样做接触状态切换。而且,对于这样的手,你永远没办法通过模仿人手来驱动它。所以,同样的方法论——先游玩再精确,再完成任务——对非拟人手同样适用。 但RL也有它的局限性: 通过模仿学习,已经有人在用人类视频做训练,但他们是在模仿人手本身,而这条路正受制于运动学重定向的天花板。 今天上午我们还展示了另一项成果——《Masquerade》。我们不是直接模仿人类的动作,而是在人类视频中用机器人手替换掉人类的手,从而让数据完美包含任务需求,并以此训练视觉编码器。这种方法彻底弥合了域偏移(Domain Gap)带来的差距,在分布外泛化(OOD Generalization)上表现特别优异。 最终,我们正在思考的开放问题是:如何弥合“在任何手上都能学到的全套行为”与“自我中心视频中蕴藏的丰富视觉-物理复杂性”之间的鸿沟? 这是我和实验室学生们接下来要一起攻克的课题。 感谢所有合作者,也特别感Sharpa赞助并提供了这些灵巧手。谢谢大家! Q&A 问答环节 听众A(主持人): 您在谈到弥合仿真到现实的差距时,尤其是针对仿真中难以处理的物体(比如柔性物体或有复杂交互的物体,如挤压喷瓶),您怎么看待这个问题? Jeannette Bohg: 让我简单介绍一下我们是怎么做这个sim-to-real迁移的。我们使用了域随机化(domain randomization)——不仅随机化物体本身(形状、大小),也随机化环境的物理属性。更关键的是,我们还必须在仿真里模拟有噪声的物体检测和位姿估计,以及传感器延迟——这些对于真正把仿真策略迁移到真实世界至关重要,包括对外力扰动的模拟。 对于铰接物体,我完全可以想象用同样的方法,只是提高物体表征的维度——比如用物体的关节状态(如关节角度)来代表物体状态。视觉社区能不能为我们提供鲁棒的位姿估计,是关键的外部依赖。 对于布料、面团这类厨房场景里的柔性物体——坦率说,我暂时还不知道怎么做。一个猜想是:也许可以在刚体和铰接物体上预训练,然后结合已有的示范数据(比如折叠衣物的工作),进行微调。或者,如果有人能提供更快的柔性体仿真框架,我们仍然可以走RL这条路。 听众B: 您认为如何把这些策略功能化,整合进一个用于各类物体操作的基础模型?我看到这里所有的策略都是相对专一的,下一步是否可以把它们作为模块,嵌入到类似Action Expert这样的更大型操控模型里? Jeannette Bohg: 很好的问题。首先澄清一下:我们选择工具不是因为我们要专门做工具操作——而是因为工具是灵巧手最难操作的对象之一,对技能要求最高。同样的训练框架,完全可以扩展到更多类型的物体,我们只是还没来得及做。 关于“能不能把这个策略作为VLA模型的Action Head”——这个想法很有意思,我之前还没想到过。一个可能的方向是:把策略蒸馏到以RGB或深度图像为输入,然后输入到VLA的某个表征层,再微调。但这需要更多时间讨论,目前还只是直觉。 (编者按:Jeannette Bohg领导的斯坦福大学机器人学实验室目前正积极招募博士生及合作研究者。)
雷峰 雷峰网更新于 10小时前1 分钟阅读
2026年6月3日,ICRA 2026维也纳会议“操作、控制与具身设计”主题Keynote环节,斯坦福大学计算机科学系的副教授,同时也是斯坦福交互式感知实验室(Interactive Perception Lab)的负责人Jeannette Bohg以一个反问开场——“我们还需要灵巧手吗?” 这个问题之所以有力,恰恰因为它指向了当下机器人操作领域最真实的张力:二指夹爪(two-finger gripper)配合端到端大模型,已经能完成Rubik魔方、精细拼装等令人叹服的任务。那么,高自由度、高复杂度的灵巧手(dexterous hand)的价值究竟在哪里? Jeannette Bohg给出了清晰的回答:灵巧手的价值不在于“像人类一样”,而在于吞吐量(throughput)与可控子空间(controllable subspace)这两个维度上不可替代的优势。她举了一个例子: 一名制表大师用小指稳定工具、用腕部旋转螺丝,是经过两年训练后才涌现的高效策略——这种能力,夹爪永远无法复现。 然而,灵巧手的困境同样清晰:22个自由度、多接触状态的切换,让远程操控(teleop)数据采集极其困难且低效。对此,Bohg提出了她实验室的核心方法论——不从人手学,从物体轨迹学。 她的研究路线分两步走: 第一步:Sim-tool-real的统一操作策略(UniSim-Real)。 在仿真中对基元物体集合训练单一RL策略,驱动策略的“目标信号”不是人手姿态,而是物体的目标位姿序列——这个目标序列来自人类视频,但经由基础模型提取出“物体在做什么”,与“人手如何移动”完全解耦。结果是一个零样本(zero-shot)迁移泛化到大量工具与任务的单一策略。 第二步:Play-to-Effect的精细化微调。 上述“泛化探索策略(Play Policy)虽然掌握了原子级技能,但对精度要求极高的装配任务(如公差极小的插孔)表现不足。团队将该预训练策略作为起点,通过精调(fine-tune)实现高精度插拔、家具组装等任务——比从头训练更快、更鲁棒,对外力干扰的抵抗力也更强。 Bohg最后坦诚地提出了尚未解决的核心问题:如何弥合“低维度RL物体表征”与“自我中心视频中蕴含的丰富视觉-物理复杂性”之间的鸿沟? 这是她实验室目前正在攻坚的开放问题,也是灵巧手走向真正通用的最后一块拼图。 以下是Jeannette Bohg在ICRA 2026大会上发表的演讲精编稿,雷峰网·AI科技评论基于原英文演讲内容进行了不改原意的翻译编辑: 《Do We Still Need Dexterous Hands?》 主讲人:Jeannette Bohg,斯坦福大学 一、反问开场:二指夹爪已经这么强了,灵巧手还有位置吗? 今天我想提出一个问题:我们还需要灵巧手吗? 我之所以问这个,是因为两指夹爪(two-finger gripper)所能做到的事情确实令人印象深刻。我举两个例子:一个来自Generalist团队,大家应该都见过,他们用两只手两个夹爪能做出相当惊艳的操作;另一个是我周一录下来的视频——一名研究人员展示的,一个人在解那个Gearboard的拼板,可以看到这个人操作得很吃力;而右边,那个两指夹爪机器人却把这个任务完成得相当出色。把皮带套到齿轮上,这个任务其实相当难。 然而,我确实认为灵巧手有它不可替代的位置。 二、为什么需要灵巧手:吞吐量与可控子空间 那么,我们究竟为什么要研究灵巧手? 首先,吞吐量(throughput)。我来展示一个视频——我的一个学生找到的,一个人抓起工具然后用它拧紧螺丝,速度相当快。我们仔细看:首先是用灵巧手抓起桌上的工具,然后是“手内操作”(in-hand manipulation),旋转工具对齐方向,再一次手内操作,确保工具和螺槽精确对齐。这整套动作,夹爪根本无法做到——而灵巧手能以极快的速度把它完成。 其次,可控子空间(controllable subspace)。这里我想引用LASA实验室的一项研究,她非常好地与我分享了视频。她的工作研究的是瑞士制表师如何在任务中变得精通。左边是一个初学者——可以看到他需要用另一只手来辅助定位工具与螺丝的对齐;右边是一位专家,速度完全不同。这位专家在定位螺丝时,用的是小指来稳定工具完成对齐,完全不需要第二只手。这是一种经过两年训练才涌现出来的能力和策略。 这是夹爪永远做不到的。 三、核心挑战:22个自由度,遥操作太难——不要从人手学 说了这么多优势,我们也必须直面现实:控制一个22自由度、6个驱动轴的灵巧手,并处理多接触状态的切换,是极其复杂的事情。 目前有一条很流行的路线——从遥操作数据中学习。但遥操作灵巧手本身就是一个极难的问题,操控起来非常不直觉。你可以从某个团队的视频里看到,用遥操作训练出来的策略行为,和我们刚才看到的那个人类操作截然不同——动作很慢,非常谨慎。这正是因为遥操作本身就极难操控。 所以,我们坚定地不走这条路。 相反,我们选择sim-tool-real。 当然,sim-tool-real近年来因为大量计算资源的投入取得了很大进展。但有一点我必须指出:大多数现有工作,每个技能对应一个单独的策略——旋转用一个,稳定握持用一个,工具使用用一个。我们想做的是把这些独立的技能策略统一成一个策略。 四、UniSim-Real:从物体轨迹学,而非从人手学 那么,我们是怎么做的? 关键洞察是:我们可以将操作与物体的目标位姿统一起来。 在屏幕右侧,你会看到一个绿色的“幽灵物体”——那是这个策略需要追踪的目标位姿,策略需要通过所有这些手内操作和抓取来让物体匹配这个目标。 在训练阶段,我们在仿真里生成一组基元(primitive)物体,并训练一个单一的RL策略,让它能够把每个物体操控到随机的目标位姿。这个策略在仿真里只有一个,输入是:手的本体感受状态(通过传感器获取)、物体的包围盒、物体当前位姿(用包围盒上的40个关键点表示),以及一个目标位姿序列。 那目标位姿序列从哪里来? 我们确实录制了人类视频示范,然后使用基础模型从视频里提取物体的位姿序列。重点在于:我们模仿的不是人手,我们只关心物体在做什么。 提取出来的目标位姿由闭环手部跟踪来追踪执行。 有了这个洞察,我们得到了一个单一策略,可以零样本完成大量操作任务——包括大量从未见过的工具和任务。与基线方法相比:固定抓取不work,因为完成任务必须改变物体的手内朝向;运动学重定向(kinematic retargeting)也通常不稳定。 如果你有兴趣,可以扫我PPT上的二维码,访问我们的网页,有一个交互式demo,你可以自己改变目标位姿、改变朝向,甚至让物体掉落,探索这个策略的边界。 五、Play-to-Effect:从"游玩"到"精确插拔" 现在我们有了这个能干很多事情的策略,能在灵巧手上通过RL学到各种有趣的行为。但我们也发现:它并不能很好地完成装配任务(assembly)。 装配任务需要精确度。我们的测试表明:如果两个零件之间的间隙比较宽松,这个策略有时能成功,但成功率不够高;间隙越紧,成功率越低。 于是我们问:能不能把这个已经内嵌了所有原子技能的“游玩策略(Play Policy)”作为预训练起点,再微调它去做更精确的操作? 我们将“游玩策略”作为预训练基础,针对一系列精确插拔任务进行微调(fine-tune)。在推理时,我们使用基础模型来追踪待操作零件和固定件的位姿,以关键点序列和目标抓取朝向作为输入。 测试结果包括:插销任务、宜家基准测试(IKEA benchmark)的铰链组装(插入填充物、抓取横梁并放置)、家具基准测试(将桌腿插入桌面的榫眼)。“Play-to-Effect”在所有这些任务上都有出色表现——比起游玩策略有明显提升,训练速度也很快(甚至比从头用稠密奖励训练还快),同时对引入外力干扰的抵抗力也更强。 另一个让我个人特别兴奋的地方是:这是一个闭环策略,当物体从手里掉落,它会主动捡起来再试。这种恢复行为,正是闭环策略的本质优势。 六、尚未解决的问题:低维RL与富信息视频之间的鸿沟 好,让我以几点反思来结束这个演讲。 我们用RL在这个拟人手(anthropomorphic hand)上学习到了这些非常有趣的行为。我很喜欢的一点是:我们根本不关心人手的历史动作轨迹,我们只关心物体是否在沿着轨迹运动、是否完成了任务。 因为我们用了RL,实际上我们并不需要绑定在拟人手上。完全可以使用那些具有仿生主动表面的非拟人设计的手——这些手不需要像拟人手那样做接触状态切换。而且,对于这样的手,你永远没办法通过模仿人手来驱动它。所以,同样的方法论——先游玩再精确,再完成任务——对非拟人手同样适用。 但RL也有它的局限性: 通过模仿学习,已经有人在用人类视频做训练,但他们是在模仿人手本身,而这条路正受制于运动学重定向的天花板。 今天上午我们还展示了另一项成果——《Masquerade》。我们不是直接模仿人类的动作,而是在人类视频中用机器人手替换掉人类的手,从而让数据完美包含任务需求,并以此训练视觉编码器。这种方法彻底弥合了域偏移(Domain Gap)带来的差距,在分布外泛化(OOD Generalization)上表现特别优异。 最终,我们正在思考的开放问题是:如何弥合“在任何手上都能学到的全套行为”与“自我中心视频中蕴藏的丰富视觉-物理复杂性”之间的鸿沟? 这是我和实验室学生们接下来要一起攻克的课题。 感谢所有合作者,也特别感Sharpa赞助并提供了这些灵巧手。谢谢大家! Q&A 问答环节 听众A(主持人): 您在谈到弥合仿真到现实的差距时,尤其是针对仿真中难以处理的物体(比如柔性物体或有复杂交互的物体,如挤压喷瓶),您怎么看待这个问题? Jeannette Bohg: 让我简单介绍一下我们是怎么做这个sim-to-real迁移的。我们使用了域随机化(domain randomization)——不仅随机化物体本身(形状、大小),也随机化环境的物理属性。更关键的是,我们还必须在仿真里模拟有噪声的物体检测和位姿估计,以及传感器延迟——这些对于真正把仿真策略迁移到真实世界至关重要,包括对外力扰动的模拟。 对于铰接物体,我完全可以想象用同样的方法,只是提高物体表征的维度——比如用物体的关节状态(如关节角度)来代表物体状态。视觉社区能不能为我们提供鲁棒的位姿估计,是关键的外部依赖。 对于布料、面团这类厨房场景里的柔性物体——坦率说,我暂时还不知道怎么做。一个猜想是:也许可以在刚体和铰接物体上预训练,然后结合已有的示范数据(比如折叠衣物的工作),进行微调。或者,如果有人能提供更快的柔性体仿真框架,我们仍然可以走RL这条路。 听众B: 您认为如何把这些策略功能化,整合进一个用于各类物体操作的基础模型?我看到这里所有的策略都是相对专一的,下一步是否可以把它们作为模块,嵌入到类似Action Expert这样的更大型操控模型里? Jeannette Bohg: 很好的问题。首先澄清一下:我们选择工具不是因为我们要专门做工具操作——而是因为工具是灵巧手最难操作的对象之一,对技能要求最高。同样的训练框架,完全可以扩展到更多类型的物体,我们只是还没来得及做。 关于“能不能把这个策略作为VLA模型的Action Head”——这个想法很有意思,我之前还没想到过。一个可能的方向是:把策略蒸馏到以RGB或深度图像为输入,然后输入到VLA的某个表征层,再微调。但这需要更多时间讨论,目前还只是直觉。 (编者按:Jeannette Bohg领导的斯坦福大学机器人学实验室目前正积极招募博士生及合作研究者。)
正在拉取原文正文,下次刷新即可看到完整段落。当前仅展示摘要与 AI 分析。