Technology

ICRA 2026 | 像素级相对 3D 地图领航！MASt3R-Nav：打造高精度无全局重建视觉导航新范式

原文作者：公众号“视觉语言导航” 原文链接：https://mp.weixin.qq.com/s/4dTxzJyX4bWfaNjziaQ3nQ 作者：Vansh Garg¹†, Rohit Jayanti¹∗, Krish Pandya¹∗, Sarthak Chittawar¹∗, Siddharth Tourani²,³, Muhammad Haris Khan³, Sourav Garg¹‡, Madhava Krishna¹‡ 单位：¹印度海德拉巴国际信息技术研究所机器人研究中心，²德国海德堡大学，³穆罕默德·本·扎耶德人工智能大学论文标题：MASt3R-Nav: WayPixel Navigation in Relative 3D Maps 论文链接：https://arxiv.org/abs/2605.24111 项目主页：https://mast3r-nav.github.io/ 代码链接：https://github.com/vanshg1729/mast3r-nav 研究背景视觉导航是自主机器人、智能移动设备的核心能力，而环境表征方式直接决定导航精度、鲁棒性与落地门槛。

当前主流视觉导航方案各有致命短板，始终难以兼顾精度、效率与通用性： ? 经典全局度量3D地图：依托占据栅格、SLAM重建全局一致几何地图，虽能实现精准路径规划，但高度依赖高精度全局位姿配准、完整3D点云重建，算力开销大、对环境变化敏感，一旦匹配误差累积直接导航失效。 ? 图像相对拓扑导航：以关键帧图像为地图节点，依靠帧间视觉相似度构建拓扑边，完全弱化三维几何约束。优势是轻量化，但功能极度受限，仅能实现简单示教-复现，无法自主规划新路径、应对未知岔路与场景变化。 ? 物体相对语义导航：将环境抽象为柜子、墙面、桌椅等语义物体，以物体为子目标做路径规划。虽能提升规划容错性，但过度语义抽象丢失底层几何细节，墙面边界、斜坡、微小障碍物等信息被抹平，极易出现决策偏差、走错路线、碰撞风险。除此之外，现有方案普遍存在规划与控制割裂痛点：控制器只能接收单一粗粒度子目标，没有连续的局部代价梯度引导，无法自主修正规划路径的微小误差，复杂室内场景适应性极差。在此背景下，论文立足像素级局部相对几何，跳出全局重建与高层抽象的固有思维，打造全新的像素级导航范式。主要贡献全新像素级地图表征：提出MASt3R-Nav拓扑导航流水线，构建像素-相对3D连通性地图，仅利用像素间局部相对几何关系，无需全局坐标一致性、无需精准位姿估计、无需额外深度传感器，大幅降低建图与导航门槛。首创WayPixel代价图中间表征：设计稠密像素级WayPixel Costmap，作为路径规划与控制器的通用接口。完整保留墙面、坡度、遮挡物等精细几何梯度，弥补图像级、物体级表征细节丢失的硬伤。定制化PixelReact学习控制器：专为WayPixel代价图设计轨迹预测控制器，利用像素稠密代价梯度自主修正路径偏差，对规划瑕疵具备强鲁棒性，精准输出机器人局部鸟瞰视角轨迹路点。全场景严苛验证：在4类高难度导航任务中全面超越GNM、ObjectReact等SOTA算法；仿真训练模型可直接部署真实P3DX移动机器人，实现零微调仿真到现实迁移，落地实用性拉满。研究方法 MASt3R-Nav整体架构分为骨干模型、离线建图、在线执行、控制器训练四大核心环节，同时引入图结构精简策略，在保证几何精度的前提下严控计算开销。 1. 核心骨干：MASt3R 3D基础模型全程采用冻结预训练的MASt3R作为视觉感知骨干，输入任意RGB图像对，即可输出两大核心能力：跨帧稠密像素匹配关系；逐像素相对3D坐标。定义像素与之间3D欧氏距离：仅靠单目RGB图像+基础模型，就能获取可靠的相对三维几何，摆脱硬件依赖。 2. 离线建图：像素级拓扑地图构建机器人遍历环境采集图像序列，构建像素拓扑图：节点N：只保留参与跨帧匹配的有效像素，过滤无几何关联冗余像素；边E：分为两类：帧间边：不同图像中匹配的同一物理像素，代价置为0，实现跨帧坐标关联；，像素互为匹配点帧内边：同一张图像内的有效像素互连，代价由3D欧氏距离决定；为解决百万级像素图计算爆炸问题，采用三重优化：仅保留有匹配像素、用欧氏最小生成树EMST替代全连接、运行时动态激活孤立像素，在保留几何完整性的同时，大幅压缩图规模。 3. 在线执行：定位 + WayPixel稠密代价图生成这是导航的核心环节，三步生成全覆盖像素代价梯度：像素级定位：当前实时图像与历史子图做稠密匹配，选取匹配度最高的子图完成机器人定位；稀疏代价初始化：用Dijkstra算法预计算地图所有像素到目标的最短路径代价，实时匹配像素直接继承地图像素规划代价；全局代价传播：将稀疏匹配像素的代价，扩散至整张图像所有未匹配像素，生成WayPixel代价图。最终画面中每一个像素都拥有指向目标的连续代价梯度，为控制器提供细粒度决策依据。 4. 训练阶段：PixelReact控制器沿用成熟的模仿学习框架，网络由卷积编码器+MLP解码器组成：编码器输入WayPixel代价图，提取稠密几何特征；解码器一次性预测未来10个局部2D轨迹路点；以真实最优路径为监督，采用L2回归损失训练，完美拟合最优导航轨迹，兼容各类室内布局。实验设置为公平对比算法性能，论文搭建标准化、多维度的实验评测体系：评测数据集：采用HM3D-IIN数据集验证集，包含36个独立室内场景，单场景设置独立导航任务，覆盖住宅、办公等复杂环境；四大高难度导航任务轨迹模仿：复刻机器人历史遍历路径；陌生目标导航：前往见过但未走到的目标，需自主规划新路线；捷径规划：避开原遍历路线，自主寻找更短通行路径；反向遍历：逆着历史轨迹完成导航，考验大视角匹配能力；核心评估指标采用机器人导航通用权威指标：SPL（路径加权成功率）、SSPL（软路径加权成功率），兼顾任务完成度与路径效率；成功判定标准：机器人300步内抵达目标1米范围内，判定导航成功；软硬件部署：仿真基于Habitat平台；真实硬件采用P3DX移动机器人+RealSense RGB相机；算法评测服务器配置AMD Ryzen 9 7950X + RTX A4000 16GB。实验结果 1. 表征维度 ablation 对比单纯更换图像匹配器，无法提升物体级导航上限；而像素级WayPixel表征+PixelReact控制器组合，SPL从传统物体级51.51%飙升至81.77% ，证明像素细粒度几何表征才是性能突破关键。 2. 与SOTA算法全方位PK MASt3R-Nav在轨迹模仿、陌生目标、捷径规划三大任务上大幅领跑：模仿任务SPL高达93.94% ，超过往最优模型10个百分点；陌生目标、捷径任务性能较物体级基线近乎翻倍；仅反向遍历任务受大视角匹配歧义影响性能略低，四项任务平均SPL 52.79% ，综合实力断层领先。 3. 图结构效率权衡采用EMST精简策略后，帧内边数从466万骤减至2.4万，Dijkstra规划耗时从9.0s压缩至1.4s，算力大幅下降的同时，导航性能无任何衰减；冗余全像素匹配反而会引入噪声、降低成功率，充分验证稀疏像素几何的有效性。 4. 大规模环境可扩展性环境从1层扩展至3层大型办公楼宇，算法运行耗时、内存占用均呈线性增长；即便拥有8万像素节点的超大地图，总运行时长不足5分钟，存储仅540.18MB，完全支持大型园区、楼宇规模化部署。 5. 真实机器人落地实测仅在仿真HM3D数据集训练的模型，无需任何微调，可直接部署真实未知室内环境。机器人依托WayPixel代价图精准感知障碍物、预判通行方向，平稳规划轨迹抵达目标，仿真迁移现实能力极强。总结与未来工作研究核心总结 MASt3R-Nav的诞生，彻底打破了机器人视觉导航的固有设计思路：摒弃全局3D重建与繁琐位姿标定，依托像素相对3D连通性轻量化建图； WayPixel代价图锁住精细几何细节，解决物体级表征抽象过度、决策失误痛点； PixelReact控制器利用稠密梯度容错规划误差，导航更稳定、更智能；兼顾精度、算力、可扩展性与落地性，仿真、真实机器人双场景全面验证价值。未来研究方向探索像素几何+物体语义混合表征，融合两者优势，补齐反向轨迹导航短板；优化MASt3R大视角图像匹配策略，提升极端视角、低重叠场景下的定位规划精度；进一步轻量化模型与图结构，适配小型无人机、家用服务机器人等低算力终端设备。雷峰网

雷峰雷峰网Updated 6h ago1 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.