科技

上海交大王贺升教授：从画地图到预测未来，传统 SLAM 正走出静态世界 | ICRA 2026

雷峰网讯 2026 年 6 月 1 日，国际机器人与自动化会议（ICRA）在奥地利维也纳召开。次日上午的自动驾驶与导航报告环节，雷峰网GAIR 2021大会嘉宾、上海交通大学教授王贺升发表了题为《Learning to Navigate: From Scene Understanding to Decision Makin》的演讲。找到自己的位置，并理解周围环境，一直是机器人能够落地的先决条件。此前的导航系统大多建立在”环境静止、结构稳定”的假设之上，但随着具身智能从实验室走向真实场景，现实世界的动态变化让传统 SLAM（同步定位与建图）逐渐迫近天花板，无力应对自动驾驶中的车辆行人，或是手术机器人面前多变的人体组织。运动、遮挡甚至形变问题，是新一代 SLAM 需要解决的全新问题。围绕这一挑战，王贺升教授系统介绍了从感知、建图、定位到规划的完整技术路线。在感知层面，研究团队提出结合激光雷达与视觉传感器进行多模态融合，并通过光流、场景流和四维重建技术理解动态环境的方案，在建图层面，则提出通过动态 Gaussian SLAM 和可变形三维高斯地图，实现对运动目标和可变形环境的持续建模。王贺升教授特别提到，“人体这种非常可变形的环境”是当前研究主要的对象，以期解决手术机器人场景中的定位与建图难题。此外，针对具身智能普遍缺乏长期记忆和环境理解能力的问题，团队还尝试引入 NeRF 记忆机制以及视觉语言模型推理能力，让机器人不仅知道“自己在哪里”，还能利用历史经验和语义关系辅助导航决策。据王贺升教授介绍，相关技术已在矿卡、仓储机器人、自动泊车、移动通信平台和割草机器人等场景中落地应用。可以看到，面对真实世界中的动态变化、复杂语义和环境形变等挑战，机器人导航正从传统 SLAM 走向融合世界模型、大模型推理与可变形环境感知的具身智能基础设施。以下是王贺升在 ICRA 2026 大会发表的演讲精编稿，AI 科技评论基于原英文演讲内容进行了不改原意的翻译编辑：《Learning to Navigate: From Scene Understanding to Decision Makin》主讲人：王贺升（Hesheng Wang），上海交通大学 01 学习导航：从场景理解到决策制定大家早上好。很荣幸向大家介绍我们最近的一些研究工作。我的研究方向主要是机器人导航与操作，今天的报告将重点聚焦于导航部分。正如大家所了解的那样，近年来移动机器人平台的种类越来越丰富，机器人导航技术已经广泛应用于物流机器人、自动驾驶、家庭机器人，甚至手术机器人等场景。今天我将介绍机器人导航中的一些核心技术。首先是里程计部分，机器人利用传感器估计自身位姿，随后考虑动态环境中的运动目标，同时考虑语义信息以及环境可变形的情况。在构建系统之后，我们会获得全局地图，然后基于全局地图进行定位，最后完成路径规划。下面我将依次介绍这些内容。首先介绍里程计部分。我们同时考虑了激光雷达传感器和视觉传感器两类数据。首先是将激光雷达点云投影到标准鸟瞰图平面。由于我们已知激光雷达坐标系与相机坐标系之间的外参，因此可以将三维激光雷达点投影到图像平面上。获得这些三维投影点的中心点，并对图像中的特征进行聚类，提取两类不同特征之后，接着我们采用一种称为 Local-to-Global 的特征融合网络，对这两类特征进行融合，最终得到全局特征表示。在此基础上，就可以通过位姿解码器获得初始位姿估计。之后进一步进行优化，我们采用类似于 RANSAC 的思路，通过迭代方式逐步精炼结果，最终获得精确的位姿估计。接下来考虑动态场景。我们的研究工作从二维扩展到三维，再进一步扩展到四维表示。在二维场景中，我们首先研究光流估计，因为它是运动估计中的关键算法之一，随后扩展到三维场景流估计，进一步研究四维重建，最终实现四维建图与 SLAM。对于二维光流估计，我们首先使用 Memory Bank 存储历史光流信息，然后利用连续性约束预测下一时刻的光流。结合当前图像，通过基于 DRU 的网络进行优化。在多尺度设置下，我们采用尺度为 4 和 2 的特征表示，并结合 Transformer 结构进一步优化光流估计结果。最终将更新后的结果重新写入 Memory Bank。我们在 nuScenes、Waymo 等数据集上进行了验证。即使模型没有在这些数据集上进行训练，结果显示依然具备了较强的零样本泛化能力，并取得了较好的性能。下一步是三维场景流估计，整体采用两阶段框架。第一阶段利用两帧点云直接进行粗略场景流估计，第二阶段利用生成式扩散模型进行精细优化。这里我们将几何特征、流特征嵌入以及代价体作为条件信号，用于控制扩散模型输出结果的多样性，最终得到精炼后的场景流估计结果。随后我们将估计得到的场景流作为监督信号，进一步监控和优化流估计过程，并将结果输入到四维混合表示（4D Hybrid Representation）中，利用 Neural Rendering 技术完成动态场景重建。接下来进一步研究动态场景 SLAM。我们同时对前景和背景进行建图。对于背景部分，采用传统三维高斯表示方法，利用 Gaussian SLAM 完成背景建图。对于前景部分，我们考虑了两类对象。第一类是非刚体目标，例如人类和动物。我们设计了可变形高斯网络，在人体动力学约束下预测人体的位置、姿态和朝向，这里采用 FMPTL 框架约束人体运动规律。对于刚体目标，则利用检测结果和光流信息估计连续运动状态。在完成前景和背景重建之后，我们进一步进行当前帧定位。此外，由于背景部分采用了三维高斯表示，因此可以进行渲染，获得二维观测中心，同时投影三维高斯中心后获得几何中心，这两类中心可以共同作为相机位姿估计约束。由于连续帧之间存在运动关系，因此可以计算光流向量，同时我们将三维高斯中心投影到图像平面后，也会形成对应向量。通过最小化这两类向量之间的误差，即重投影误差（Reprojection Error），对相机位姿进行优化，从而获得更精确的定位结果。接下来，就是构建完整地图。由于系统中存在大量局部地图，因此需要进行统一优化。我们引入了两类约束：一类是几何约束，另一类是一致性约束。通过联合优化，最终获得完整的三维高斯地图。这里展示的是 Gaussian SLAM 的结果。系统不仅恢复了相机轨迹，同时还恢复了人体运动轨迹。不过一个问题是，高斯表示占用较多存储空间，计算效率也较低。为了解决这一问题，我们进一步设计了紧凑型三维高斯 SLAM。首先采用体素化方式组织高斯表示，然后设计滑动窗口机制，去除三维高斯表示中的冗余信息，同时引入 3D Gaussian ICP Loss，作为全局 Bundle Adjustment 的约束项，最后利用残差向量优化（Residual Vector Optimization）进一步压缩三维高斯存储。实验结果表明，系统运行速度能够提升约一倍，同时显著提高整体效率，实现接近实时运行。下一步我们考虑语义 SLAM。在导航任务中，语义信息同样非常重要，因此我们将语义信息引入系统。首先提取几何特征、外观特征以及语义特征，然后利用 Attention 机制进行特征融合，实现语义场景表示。在语义 SLAM 中，我们采用从粗到细（Coarse-to-Fine）的层次化框架。粗层级主要关注整体结构和语义信息，细层级进一步引入颜色信息、边界信息等更细粒度特征，最后通过构建层次图并进行图优化，实现完整语义 SLAM 系统。这里展示了 RGB-D 数据和语义信息融合后的结果。可以看到，不同语义类别之间具有非常清晰的边界。另一个具有挑战性的问题是：如果背景本身也是可变形的，那么特征跟踪和对应关系建立都会变得非常困难。为了解决这一问题，我们提出了可变形三维高斯地图（Deformable 3D Gaussian Map）。首先定义可变形体元（Deformable Primitives），我们采用不同颜色表示对象的不同属性，例如刚体、半刚体或完全可变形物体。随后定义时变形变场（Temporal Deformation Field），利用基函数和权重表示形变特征。三维高斯被输入到形变场后，可以根据形变信息改变其形状和颜色。当输入二维 RGB-D 图像时，由于地图是可变形的，其中部分区域变化非常剧烈，这些区域难以作为稳定定位依据。因此，我们基于所构建的地图计算连续性地图（Continuity Map），并利用其进行相机位姿优化，同时不断更新地图中的相关参数。完成关键帧定位之后，后续流程与传统 SLAM 类似，但额外考虑了形变概率因素，从而最终完成整体建图。尤其在手术机器人场景中，这种系统能够有效应对高度可变形环境。在构建地图之后，另一个关键问题是如何利用地图进行定位。建图时，我们可以获得包含丰富三维信息的高精度地图；但实际部署时，可能只有一个廉价摄像头，只能获取二维图像。因此问题变成了二维到三维的跨模态定位（Cross-modal Localization）。我们首先提取图像和点云特征，然后建立二维到三维对应关系。具体来说，先将三维点投影到图像平面，再建立与邻近图像特征之间的关联。由于这些区域已经与对应特征建立关联，因此进一步结合邻域点特征进行特征聚合，最终获得稳定的二维—三维关联关系。之后利用鲁棒匹配机制去除噪声，再通过位姿回归（Pose Regression）获得三维定位结果。实验表明，该方法能够实现非常高的定位精度，同时具备实时性能，每帧推理时间仅为 14 毫秒。最后介绍规划部分。在人类进行导航时，通常会利用记忆记住关键帧或关键地点。当遇到从未经历过的场景时，也会利用已有经验进行推理，判断下一步应该如何行动。对于记忆模块，我们利用 NeRF 存储关键帧信息，并建立检索机制。系统会重点关注记忆中的相关内容。如果当前场景与过去见过的场景相似，那么系统会更多依赖历史经验进行决策，这样能够提高导航效率。如果某一区域已经探索过，并且目标位置曾经出现过，那么机器人就能够更直接地向目标方向移动。同时，我们也尝试引入推理能力。例如利用大型视觉语言模型理解图像内容，建立语义关系图谱。对于每一帧观测信息，都存储到记忆模块中。整个系统采用双层图结构。系统学习对象之间的关联规则和关系，并完成关系绑定。这里展示了系统的工作过程。有时候两个目标在视觉上看似无关，但借助大语言模型，系统能够理解它们之间存在潜在联系，因此会更加关注相关目标。这种推理能力同样能够帮助导航决策。最后我介绍几个商业化应用案例。首先，我们为矿卡设计了导航系统，目前已经稳定运行超过一年，能够在复杂矿区环境中自主导航。在仓储场景中，我们开发了适用于动态变化环境的清洁机器人。由于货物和设备持续变化，因此导航系统需要不断适应环境变化。在自动泊车场景中，高精度地图信息同样十分重要，以支持车辆自主导航。此外，我们还结合移动平台和移动通信平台开展相关应用，地图信息和导航定位信息对于通信设备精准部署至关重要。在割草机器人（Lawn Mower Robot）场景中，机器人通常需要在非常大的开放区域工作。此时定位误差容易积累，同时需要进行地图匹配，系统需要判断边界位置，并识别运动目标等需要重点关注的区域。以上就是我们近期在 SLAM 领域的一些研究工作。展望未来，我们将进一步关注世界模型与环境建模，希望能够预测长时间序列中未来将发生的情况。同时，感知、规划与决策之间是紧密耦合的。一个很小的感知误差，最终可能导致非常大的决策误差，因此需要联合考虑这些问题。此外，还需要解决长期任务中的复杂决策问题。决策过程应基于完整序列进行，而不仅仅是即时反应式决策。更重要的是，所有系统最终都必须在真实世界中运行。真实世界是不可预测的，因此我们需要面对大量边缘案例和各种复杂问题。我的报告就到这里，谢谢大家。 02 Q&A 问答环节提问：您的报告中关于可变形 SLAM 的部分非常有意思。请问你们是否尝试过在室外农业环境中运行这套系统？例如树叶会持续摆动变形，而传统 SLAM 算法在这类环境中的定位效果通常较差。王贺升：这是一个非常好的问题。目前我们还没有尝试过这样的场景。我们当前主要面向手术机器人开展研究，因为在手术过程中，人体组织本身就是高度可变形的环境。你提到的树叶等农业场景其实也非常有趣，我认为与我们当前研究的问题具有一定相似性，因为它们同样会持续发生形变。我们目前也有一些相关想法，希望能够利用连续性地图进行建图。不过具体在真实农业场景中应用时会遇到什么问题，目前我还不确定，未来我们会尝试验证这一方向。 03 去哪看 ICRA 核心【演讲/论文】详解？为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货，雷峰网已全面上线【ICRA 2026 深度专区】。专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲，更将持续更新前方记者的第一手会议动态。扫描下方二维码，或点击「阅读原文」关注专区。与全球 8000 名顶尖大脑同步呼吸，抢先透视具身智能的下一个五年！雷峰网文章

雷峰雷峰网更新于 8小时前1 分钟阅读

🤖 AI AI 摘要 & AI 点评

⟳ AI 正在分析这篇文章…

正在拉取原文正文，下次刷新即可看到完整段落。当前仅展示摘要与 AI 分析。