雷峰网讯 2026 年 6 月 1 日,国际机器人与自动化会议(ICRA)在奥地利维也纳召开。次日上午的自动驾驶与导航报告环节,雷峰网GAIR 2021大会嘉宾、上海交通大学教授王贺升发表了题为《Learning to Navigate: From Scene Understanding to Decision Makin》的演讲。 找到自己的位置,并理解周围环境,一直是机器人能够落地的先决条件。此前的导航系统大多建立在”环境静止、结构稳定”的假设之上,但随着具身智能从实验室走向真实场景,现实世界的动态变化让传统 SLAM(同步定位与建图)逐渐迫近天花板,无力应对自动驾驶中的车辆行人,或是手术机器人面前多变的人体组织。运动、遮挡甚至形变问题,是新一代 SLAM 需要解决的全新问题。 围绕这一挑战,王贺升教授系统介绍了从感知、建图、定位到规划的完整技术路线。在感知层面,研究团队提出结合激光雷达与视觉传感器进行多模态融合,并通过光流、场景流和四维重建技术理解动态环境的方案,在建图层面,则提出通过动态 Gaussian SLAM 和可变形三维高斯地图,实现对运动目标和可变形环境的持续建模。王贺升教授特别提到,“人体这种非常可变形的环境”是当前研究主要的对象,以期解决手术机器人场景中的定位与建图难题。 此外,针对具身智能普遍缺乏长期记忆和环境理解能力的问题,团队还尝试引入 NeRF 记忆机制以及视觉语言模型推理能力,让机器人不仅知道“自己在哪里”,还能利用历史经验和语义关系辅助导航决策。 据王贺升教授介绍,相关技术已在矿卡、仓储机器人、自动泊车、移动通信平台和割草机器人等场景中落地应用。可以看到,面对真实世界中的动态变化、复杂语义和环境形变等挑战,机器人导航正从传统 SLAM 走向融合世界模型、大模型推理与可变形环境感知的具身智能基础设施。 以下是王贺升在 ICRA 2026 大会发表的演讲精编稿,AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑: 《Learning to Navigate: From Scene Understanding to Decision Makin》 主讲人:王贺升(Hesheng Wang),上海交通大学 01 学习导航:从场景理解到决策制定 大家早上好。很荣幸向大家介绍我们最近的一些研究工作。我的研究方向主要是机器人导航与操作,今天的报告将重点聚焦于导航部分。 正如大家所了解的那样,近年来移动机器人平台的种类越来越丰富,机器人导航技术已经广泛应用于物流机器人、自动驾驶、家庭机器人,甚至手术机器人等场景。 今天我将介绍机器人导航中的一些核心技术。首先是里程计部分,机器人利用传感器估计自身位姿,随后考虑动态环境中的运动目标,同时考虑语义信息以及环境可变形的情况。在构建系统之后,我们会获得全局地图,然后基于全局地图进行定位,最后完成路径规划。下面我将依次介绍这些内容。 首先介绍里程计部分。 我们同时考虑了激光雷达传感器和视觉传感器两类数据。首先是将激光雷达点云投影到标准鸟瞰图平面。由于我们已知激光雷达坐标系与相机坐标系之间的外参,因此可以将三维激光雷达点投影到图像平面上。获得这些三维投影点的中心点,并对图像中的特征进行聚类,提取两类不同特征之后,接着我们采用一种称为 Local-to-Global 的特征融合网络,对这两类特征进行融合,最终得到全局特征表示。 在此基础上,就可以通过位姿解码器获得初始位姿估计。之后进一步进行优化,我们采用类似于 RANSAC 的思路,通过迭代方式逐步精炼结果,最终获得精确的位姿估计。 接下来考虑动态场景。我们的研究工作从二维扩展到三维,再进一步扩展到四维表示。 在二维场景中,我们首先研究光流估计,因为它是运动估计中的关键算法之一,随后扩展到三维场景流估计,进一步研究四维重建,最终实现四维建图与 SLAM。 对于二维光流估计,我们首先使用 Memory Bank 存储历史光流信息,然后利用连续性约束预测下一时刻的光流。结合当前图像,通过基于 DRU 的网络进行优化。在多尺度设置下,我们采用尺度为 4 和 2 的特征表示,并结合 Transformer 结构进一步优化光流估计结果。最终将更新后的结果重新写入 Memory Bank。 我们在 nuScenes、Waymo 等数据集上进行了验证。即使模型没有在这些数据集上进行训练,结果显示依然具备了较强的零样本泛化能力,并取得了较好的性能。 下一步是三维场景流估计,整体采用两阶段框架。第一阶段利用两帧点云直接进行粗略场景流估计,第二阶段利用生成式扩散模型进行精细优化。 这里我们将几何特征、流特征嵌入以及代价体作为条件信号,用于控制扩散模型输出结果的多样性,最终得到精炼后的场景流估计结果。 随后我们将估计得到的场景流作为监督信号,进一步监控和优化流估计过程,并将结果输入到四维混合表示(4D Hybrid Representation)中,利用 Neural Rendering 技术完成动态场景重建。 接下来进一步研究动态场景 SLAM。我们同时对前景和背景进行建图。对于背景部分,采用传统三维高斯表示方法,利用 Gaussian SLAM 完成背景建图。 对于前景部分,我们考虑了两类对象。第一类是非刚体目标,例如人类和动物。我们设计了可变形高斯网络,在人体动力学约束下预测人体的位置、姿态和朝向,这里采用 FMPTL 框架约束人体运动规律。对于刚体目标,则利用检测结果和光流信息估计连续运动状态。 在完成前景和背景重建之后,我们进一步进行当前帧定位。 此外,由于背景部分采用了三维高斯表示,因此可以进行渲染,获得二维观测中心,同时投影三维高斯中心后获得几何中心,这两类中心可以共同作为相机位姿估计约束。 由于连续帧之间存在运动关系,因此可以计算光流向量,同时我们将三维高斯中心投影到图像平面后,也会形成对应向量。通过最小化这两类向量之间的误差,即重投影误差(Reprojection Error),对相机位姿进行优化,从而获得更精确的定位结果。 接下来,就是构建完整地图。由于系统中存在大量局部地图,因此需要进行统一优化。我们引入了两类约束:一类是几何约束,另一类是一致性约束。通过联合优化,最终获得完整的三维高斯地图。 这里展示的是 Gaussian SLAM 的结果。 系统不仅恢复了相机轨迹,同时还恢复了人体运动轨迹。 不过一个问题是,高斯表示占用较多存储空间,计算效率也较低。为了解决这一问题,我们进一步设计了紧凑型三维高斯 SLAM。 首先采用体素化方式组织高斯表示,然后设计滑动窗口机制,去除三维高斯表示中的冗余信息,同时引入 3D Gaussian ICP Loss,作为全局 Bundle Adjustment 的约束项,最后利用残差向量优化(Residual Vector Optimization)进一步压缩三维高斯存储。 实验结果表明,系统运行速度能够提升约一倍,同时显著提高整体效率,实现接近实时运行。 下一步我们考虑语义 SLAM。在导航任务中,语义信息同样非常重要,因此我们将语义信息引入系统。 首先提取几何特征、外观特征以及语义特征,然后利用 Attention 机制进行特征融合,实现语义场景表示。在语义 SLAM 中,我们采用从粗到细(Coarse-to-Fine)的层次化框架。粗层级主要关注整体结构和语义信息,细层级进一步引入颜色信息、边界信息等更细粒度特征,最后通过构建层次图并进行图优化,实现完整语义 SLAM 系统。 这里展示了 RGB-D 数据和语义信息融合后的结果。可以看到,不同语义类别之间具有非常清晰的边界。 另一个具有挑战性的问题是:如果背景本身也是可变形的,那么特征跟踪和对应关系建立都会变得非常困难。为了解决这一问题,我们提出了可变形三维高斯地图(Deformable 3D Gaussian Map)。 首先定义可变形体元(Deformable Primitives),我们采用不同颜色表示对象的不同属性,例如刚体、半刚体或完全可变形物体。随后定义时变形变场(Temporal Deformation Field),利用基函数和权重表示形变特征。 三维高斯被输入到形变场后,可以根据形变信息改变其形状和颜色。当输入二维 RGB-D 图像时,由于地图是可变形的,其中部分区域变化非常剧烈,这些区域难以作为稳定定位依据。因此,我们基于所构建的地图计算连续性地图(Continuity Map),并利用其进行相机位姿优化,同时不断更新地图中的相关参数。 完成关键帧定位之后,后续流程与传统 SLAM 类似,但额外考虑了形变概率因素,从而最终完成整体建图。尤其在手术机器人场景中,这种系统能够有效应对高度可变形环境。 在构建地图之后,另一个关键问题是如何利用地图进行定位。 建图时,我们可以获得包含丰富三维信息的高精度地图;但实际部署时,可能只有一个廉价摄像头,只能获取二维图像。因此问题变成了二维到三维的跨模态定位(Cross-modal Localization)。 我们首先提取图像和点云特征,然后建立二维到三维对应关系。具体来说,先将三维点投影到图像平面,再建立与邻近图像特征之间的关联。由于这些区域已经与对应特征建立关联,因此进一步结合邻域点特征进行特征聚合,最终获得稳定的二维—三维关联关系。之后利用鲁棒匹配机制去除噪声,再通过位姿回归(Pose Regression)获得三维定位结果。 实验表明,该方法能够实现非常高的定位精度,同时具备实时性能,每帧推理时间仅为 14 毫秒。 最后介绍规划部分。 在人类进行导航时,通常会利用记忆记住关键帧或关键地点。当遇到从未经历过的场景时,也会利用已有经验进行推理,判断下一步应该如何行动。 对于记忆模块,我们利用 NeRF 存储关键帧信息,并建立检索机制。系统会重点关注记忆中的相关内容。如果当前场景与过去见过的场景相似,那么系统会更多依赖历史经验进行决策,这样能够提高导航效率。如果某一区域已经探索过,并且目标位置曾经出现过,那么机器人就能够更直接地向目标方向移动。 同时,我们也尝试引入推理能力。例如利用大型视觉语言模型理解图像内容,建立语义关系图谱。对于每一帧观测信息,都存储到记忆模块中。 整个系统采用双层图结构。系统学习对象之间的关联规则和关系,并完成关系绑定。 这里展示了系统的工作过程。有时候两个目标在视觉上看似无关,但借助大语言模型,系统能够理解它们之间存在潜在联系,因此会更加关注相关目标。这种推理能力同样能够帮助导航决策。 最后我介绍几个商业化应用案例。 首先,我们为矿卡设计了导航系统,目前已经稳定运行超过一年,能够在复杂矿区环境中自主导航。在仓储场景中,我们开发了适用于动态变化环境的清洁机器人。由于货物和设备持续变化,因此导航系统需要不断适应环境变化。 在自动泊车场景中,高精度地图信息同样十分重要,以支持车辆自主导航。此外,我们还结合移动平台和移动通信平台开展相关应用,地图信息和导航定位信息对于通信设备精准部署至关重要。 在割草机器人(Lawn Mower Robot)场景中,机器人通常需要在非常大的开放区域工作。此时定位误差容易积累,同时需要进行地图匹配,系统需要判断边界位置,并识别运动目标等需要重点关注的区域。 以上就是我们近期在 SLAM 领域的一些研究工作。 展望未来,我们将进一步关注世界模型与环境建模,希望能够预测长时间序列中未来将发生的情况。同时,感知、规划与决策之间是紧密耦合的。一个很小的感知误差,最终可能导致非常大的决策误差,因此需要联合考虑这些问题。 此外,还需要解决长期任务中的复杂决策问题。决策过程应基于完整序列进行,而不仅仅是即时反应式决策。 更重要的是,所有系统最终都必须在真实世界中运行。真实世界是不可预测的,因此我们需要面对大量边缘案例和各种复杂问题。 我的报告就到这里,谢谢大家。 02 Q&A 问答环节 提问:您的报告中关于可变形 SLAM 的部分非常有意思。请问你们是否尝试过在室外农业环境中运行这套系统?例如树叶会持续摆动变形,而传统 SLAM 算法在这类环境中的定位效果通常较差。 王贺升:这是一个非常好的问题。目前我们还没有尝试过这样的场景。我们当前主要面向手术机器人开展研究,因为在手术过程中,人体组织本身就是高度可变形的环境。 你提到的树叶等农业场景其实也非常有趣,我认为与我们当前研究的问题具有一定相似性,因为它们同样会持续发生形变。我们目前也有一些相关想法,希望能够利用连续性地图进行建图。不过具体在真实农业场景中应用时会遇到什么问题,目前我还不确定,未来我们会尝试验证这一方向。 03 去哪看 ICRA 核心【演讲/论文】详解? 为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】。 专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。 扫描下方二维码,或点击「阅读原文」关注专区。 与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年! 雷峰网文章

正在拉取原文正文,下次刷新即可看到完整段落。当前仅展示摘要与 AI 分析。