当前主流视觉导航方案各有致命短板,始终难以兼顾精度、效率与通用性: ? 经典全局度量3D地图: 依托占据栅格、SLAM重建全局一致几何地图,虽能实现精准路径规划,但高度依赖高精度全局位姿配准、完整3D点云重建,算力开销大、对环境变化敏感,一旦匹配误差累积直接导航失效。 ? 图像相对拓扑导航: 以关键帧图像为地图节点,依靠帧间视觉相似度构建拓扑边,完全弱化三维几何约束。优势是轻量化,但功能极度受限,仅能实现简单示教-复现,无法自主规划新路径、应对未知岔路与场景变化。 ? 物体相对语义导航: 将环境抽象为柜子、墙面、桌椅等语义物体,以物体为子目标做路径规划。虽能提升规划容错性,但过度语义抽象丢失底层几何细节,墙面边界、斜坡、微小障碍物等信息被抹平,极易出现决策偏差、走错路线、碰撞风险。 除此之外,现有方案普遍存在规划与控制割裂痛点:控制器只能接收单一粗粒度子目标,没有连续的局部代价梯度引导,无法自主修正规划路径的微小误差,复杂室内场景适应性极差。 在此背景下,论文立足像素级局部相对几何,跳出全局重建与高层抽象的固有思维,打造全新的像素级导航范式。 主要贡献 全新像素级地图表征: 提出MASt3R-Nav拓扑导航流水线,构建像素-相对3D连通性地图,仅利用像素间局部相对几何关系,无需全局坐标一致性、无需精准位姿估计、无需额外深度传感器,大幅降低建图与导航门槛。 首创WayPixel代价图中间表征: 设计稠密像素级WayPixel Costmap,作为路径规划与控制器的通用接口。完整保留墙面、坡度、遮挡物等精细几何梯度,弥补图像级、物体级表征细节丢失的硬伤。 定制化PixelReact学习控制器: 专为WayPixel代价图设计轨迹预测控制器,利用像素稠密代价梯度自主修正路径偏差,对规划瑕疵具备强鲁棒性,精准输出机器人局部鸟瞰视角轨迹路点。 全场景严苛验证: 在4类高难度导航任务中全面超越GNM、ObjectReact等SOTA算法;仿真训练模型可直接部署真实P3DX移动机器人,实现零微调仿真到现实迁移,落地实用性拉满。 研究方法 MASt3R-Nav整体架构分为骨干模型、离线建图、在线执行、控制器训练四大核心环节,同时引入图结构精简策略,在保证几何精度的前提下严控计算开销。 1. 核心骨干:MASt3R 3D基础模型 全程采用冻结预训练的MASt3R作为视觉感知骨干,输入任意RGB图像对,即可输出两大核心能力: 跨帧稠密像素匹配关系; 逐像素相对3D坐标 。 定义像素 与 之间3D欧氏距离: 仅靠单目RGB图像+基础模型,就能获取可靠的相对三维几何,摆脱硬件依赖。 2. 离线建图:像素级拓扑地图构建 机器人遍历环境采集图像序列,构建像素拓扑图 : 节点N:只保留参与跨帧匹配的有效像素,过滤无几何关联冗余像素; 边E: 分为两类: 帧间边:不同图像中匹配的同一物理像素,代价置为0,实现跨帧坐标关联; ,像素互为匹配点 帧内边:同一张图像内的有效像素互连,代价由3D欧氏距离决定; 为解决百万级像素图计算爆炸问题,采用三重优化:仅保留有匹配像素、用欧氏最小生成树EMST替代全连接、运行时动态激活孤立像素,在保留几何完整性的同时,大幅压缩图规模。 3. 在线执行:定位 + WayPixel稠密代价图生成 这是导航的核心环节,三步生成全覆盖像素代价梯度: 像素级定位:当前实时图像与历史子图做稠密匹配,选取匹配度最高的子图完成机器人定位; 稀疏代价初始化:用Dijkstra算法预计算地图所有像素到目标的最短路径代价,实时匹配像素直接继承地图像素规划代价; 全局代价传播:将稀疏匹配像素的代价,扩散至整张图像所有未匹配像素,生成WayPixel代价图。 最终画面中每一个像素都拥有指向目标的连续代价梯度,为控制器提供细粒度决策依据。 4. 训练阶段:PixelReact控制器 沿用成熟的模仿学习框架,网络由卷积编码器+MLP解码器组成: 编码器输入WayPixel代价图,提取稠密几何特征; 解码器一次性预测未来10个局部2D轨迹路点; 以真实最优路径为监督,采用L2回归损失训练,完美拟合最优导航轨迹,兼容各类室内布局。 实验设置 为公平对比算法性能,论文搭建标准化、多维度的实验评测体系: 评测数据集:采用HM3D-IIN数据集验证集,包含36个独立室内场景,单场景设置独立导航任务,覆盖住宅、办公等复杂环境; 四大高难度导航任务 轨迹模仿:复刻机器人历史遍历路径; 陌生目标导航:前往见过但未走到的目标,需自主规划新路线; 捷径规划:避开原遍历路线,自主寻找更短通行路径; 反向遍历:逆着历史轨迹完成导航,考验大视角匹配能力; 核心评估指标采用机器人导航通用权威指标:SPL(路径加权成功率)、SSPL(软路径加权成功率),兼顾任务完成度与路径效率; 成功判定标准:机器人300步内抵达目标1米范围内,判定导航成功; 软硬件部署:仿真基于Habitat平台;真实硬件采用P3DX移动机器人+RealSense RGB相机;算法评测服务器配置AMD Ryzen 9 7950X + RTX A4000 16GB。 实验结果 1. 表征维度 ablation 对比 单纯更换图像匹配器,无法提升物体级导航上限;而像素级WayPixel表征+PixelReact控制器组合,SPL从传统物体级51.51%飙升至81.77% ,证明像素细粒度几何表征才是性能突破关键。 2. 与SOTA算法全方位PK MASt3R-Nav在轨迹模仿、陌生目标、捷径规划三大任务上大幅领跑: 模仿任务SPL高达93.94% ,超过往最优模型10个百分点; 陌生目标、捷径任务性能较物体级基线近乎翻倍; 仅反向遍历任务受大视角匹配歧义影响性能略低,四项任务平均SPL 52.79% ,综合实力断层领先。 3. 图结构效率权衡 采用EMST精简策略后,帧内边数从466万骤减至2.4万,Dijkstra规划耗时从9.0s压缩至1.4s,算力大幅下降的同时,导航性能无任何衰减;冗余全像素匹配反而会引入噪声、降低成功率,充分验证稀疏像素几何的有效性。 4. 大规模环境可扩展性 环境从1层扩展至3层大型办公楼宇,算法运行耗时、内存占用均呈线性增长;即便拥有8万像素节点的超大地图,总运行时长不足5分钟,存储仅540.18MB,完全支持大型园区、楼宇规模化部署。 5. 真实机器人落地实测 仅在仿真HM3D数据集训练的模型,无需任何微调,可直接部署真实未知室内环境。机器人依托WayPixel代价图精准感知障碍物、预判通行方向,平稳规划轨迹抵达目标,仿真迁移现实能力极强。 总结与未来工作 研究核心总结 MASt3R-Nav的诞生,彻底打破了机器人视觉导航的固有设计思路: 摒弃全局3D重建与繁琐位姿标定,依托像素相对3D连通性轻量化建图; WayPixel代价图锁住精细几何细节,解决物体级表征抽象过度、决策失误痛点; PixelReact控制器利用稠密梯度容错规划误差,导航更稳定、更智能; 兼顾精度、算力、可扩展性与落地性,仿真、真实机器人双场景全面验证价值。 未来研究方向 探索像素几何+物体语义混合表征,融合两者优势,补齐反向轨迹导航短板; 优化MASt3R大视角图像匹配策略,提升极端视角、低重叠场景下的定位规划精度; 进一步轻量化模型与图结构,适配小型无人机、家用服务机器人等低算力终端设备。 雷峰网

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.