科技
港科广陈昶昊团队:只用一张 RGB 图像,让机器读懂室内 3D 空间丨CVPR 2026
LegoOcc:无需语义体素标注,也能识别开放类别。 作者丨郑佳美 编辑丨岑 峰 真正的室内空间智能,并不只是让机器认出画面里有一张桌子,而是让它理解真实三维物理空间内:哪里可以通行、哪里存在遮挡、哪些物体能够交互。 对于未来的家庭机器人和护理机器人来说,理解一个房间并不只是完成图像分类。它意味着,机器人能够根据一句自然语言找到玄关柜旁的雨伞,能够在夜间识别走廊中的充电线是否可能绊倒老人,也能够在厨房中理解台面、水杯与边缘之间的空间关系,并在陌生环境中快速建立可行动的三维空间认知。 但室内环境,恰恰是 3D 感知最难落地的场景之一。相比之下,自动驾驶虽然复杂,却仍然拥有相对稳定的道路结构与交通参与者,而室内空间更像一个持续变化的开放世界。物体摆放随时可能变化,遮挡关系更密集,许多目标并不属于数据集中预定义的类别。如果希望模型真正理解三维空间,通常需要昂贵的 3D 语义标注,即在空间中逐点或逐体素标注每个位置属于什么物体。这种高昂成本,很难支撑家庭、办公与公共室内场景的机器人大规模部署。 在这样的背景下,香港科技大学(广州)陈昶昊团队提出了 LegoOcc,该成果《Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes》被 CVPR 2026 接收,并入选大会口头报告。 这项研究关注更接近真实应用的问题:仅使用一张普通室内 RGB 图像,不依赖多视角图像或激光雷达,也不使用 3D 语义标签,依然能够预测空间中的占用情况,并进一步支持基于自然语言的开放类别查询。 换句话说,LegoOcc 解决的,不再是让机器在固定类别中“做选择”,而是让机器真正开始“理解房间”,并把人的语言映射到三维空间中的具体目标。对于家庭机器人、辅助机器人以及 AR / VR 设备等应用,这意味着室内感知正在从“看见物体”,迈向“理解空间”。 论文地址:https://arxiv.org/pdf/2602.22667 01 少标注,强理解 leu'feng'wa的核心思想是:在完全不使用 3D 语义体素标注、仅使用几何占用标签的情况下,模型依然能够实现高质量的室内单目开放词汇 3D 占用预测。模型输入只有一张普通 RGB 图像,不依赖多视角图像、深度图或激光雷达点云;“3D 占用预测”关注的是室内空间中每个小立方体(体素)是否被墙体、桌椅、地板等物体占据;而“开放词汇”则进一步要求模型突破固定类别限制,不仅能识别椅子、桌子、墙等常见类别,还能够根据自然语言查询 鞋子、纸、垃圾桶、包 等更加自由的长尾物体。 该研究在 Occ-ScanNet 数据集验证:每个样本对应一个局部 3D 空间,模型需要同时预测空间占用与语义类别。LegoOcc 在开放词汇设置下达到 59.50 IoU 与 21.05 mIoU,其中:IoU 体现几何占用预测能力,即模型是否知道“哪里有东西”; mIoU 体现语义预测能力,即模型是否知道“这些位置是什么”。 相比开放词汇基线方法,POP-3D的35.32 IoU / 5.96 mIoU 和LOcc:36.70 IoU / 9.25 mIoU。LegoOcc 同时提升几何结构预测和开放词汇语义理解能力,尤其 mIoU 从 9.25 提升到 21.05,说明模型的语义识别能力获得了较大突破。雷峰网 研究团队还将 LegoOcc 与 TPVFormer、GaussianFormer、MonoScene、ISO、SurroundOcc、EmbodiedOcc、EmbodiedOcc++、RoboOcc 等闭集方法进行了比较。这些闭集方法使用完整语义体素标注训练,其中表现较强的 RoboOcc 达到 56.48 IoU 与 47.76 mIoU。虽然 LegoOcc 的 mIoU 仍低于 RoboOcc,但它在完全不使用 3D 语义标签的前提下,实现了超过所有闭集方法的 59.50 IoU。这说明,LegoOcc 在“空间哪里被占据”这一核心几何问题上已经非常强,而开放词汇 3D 语义理解本身仍然是一个极具挑战性的任务。 原因在于,室内类别天然更加细碎且边界模糊。椅子、沙发、其他家具等类别本身就容易混淆;开放词汇模型依赖 3D 特征与文本特征对齐,其类别边界不如闭集分类器稳定,同时还会受到2D 开放词汇分割质量、遮挡关系 、投影误差和单目深度歧义等因素影响。 02 两个关键设计 消融实验进一步说明,LegoOcc 的性能提升主要来自两个关键设计。 第一个关键设计,是高斯分布到体素占用(Poisson-based Gaussian-to-Occupancy)的转换方法。GaussianFormer2 在开放词汇训练下几乎直接失败,结果为 0.00 的交并比与 0.00 的平均交并比。原因在于,它没有充分利用高斯分布的透明度信息。伯努利方法虽然引入了透明度,性能提升至 46.65 的交并比与 17.25 的平均交并比,但在多个高斯分布重叠时,透明度仍然容易被平均化,导致语义特征对齐不稳定。提出的基于泊松分布的高斯到占用转换方法,最终达到 59.50 的交并比与 21.05 的平均交并比。将每个高斯分布视为空间中的一种占用证据,多个高斯分布的证据能够自然累积,共同决定某个位置是否被占据。相比简单叠加或平均,这种方式更稳定地解决二值几何监督下的三维占用转换问题。雷峰网 第二个关键设计,是渐进式温度衰减策略(Progressive Temperature Decay)。问题来源于语义特征混合,在三维高斯分布渲染到二维图像时,同一条视线上往往同时包含椅子边缘、桌腿、墙面背景等多个结构。如果直接进行加权融合,不同物体的语义会相互混杂。实验表明,温度始终较高时,训练虽然稳定,但语义混合严重;一开始就使用低温会导致训练直接崩溃;而训练阶段高温、测试阶段低温,则会因为训练与测试不一致导致性能下降。效果最好的是指数式温度衰减,最终达到 59.50 的交并比与 21.05 的平均交并比。这意味着模型需要先稳定学习场景结构与语义对齐,再逐渐减少特征混合,让每个高斯分布更加明确地对应具体物体或区域。 03 LegoOcc 的推理效率 在单张 RTX 4090 显卡上,LegoOcc 达到每秒 22.47 帧,而 ISO 为每秒 3.81 帧,EmbodiedOcc 为每秒 11.48 帧,POP-3D 为每秒 10.21 帧,LOcc 为每秒 8.93 帧。 LegoOcc不仅依赖复杂后处理或多阶段推理,而是借助紧凑的三维高斯表示,在速度与准确率之间取得了良好平衡。可视化结果同样支持这一点。相比 LOcc,LegoOcc 对墙体、地板、家具、桌椅等结构的三维预测更加完整,空间结构更加连续。 在开放词汇查询中,模型还能根据背包、自行车、窗帘、鞋子、纸张、垃圾桶等自然语言类别,在三维空间中定位对应物体,而这些类别并不一定属于 Occ-ScanNet 固定定义的 11 个语义类别。因此,LegoOcc 不仅提升数据集指标,而是让模型更接近自然语言驱动的三维场景理解。 04 传统方法的两个局限 第一个限制是“闭集类别”问题,也就是模型只能识别训练数据中预先定义好的类别。例如,在 Occ-ScanNet 数据集中,主要评估的类别包括天花板、地板、墙壁、窗户、椅子、床、沙发、桌子、电视、家具以及杂项物体等。但真实室内环境远比数据集复杂,还存在书包、鞋子、垃圾桶、纸张、遥控器、衣服、玩具等大量长尾物体,而这些目标往往并不在固定类别列表中。 第二个限制是对昂贵三维语义标注的依赖。传统三维语义占用模型通常需要知道每一个三维体素具体属于什么类别。然而,室内环境中的物体往往高度密集、遮挡严重、类别繁多,如果采用人工逐点或逐体素标注,成本极高,也很难扩展到大规模真实场景。 因此,研究团队采用更符合实际应用的训练方式:训练阶段只使用二值占用标签,仅告诉模型“这里是否有物体”,而不提供具体语义类别。模型的语义能力则通过开放词汇二维分割模型与语言特征对齐来获得。 虽然训练阶段不使用语义体素标签,但在评估阶段,仍然会利用语义标签检验模型是否能够正确识别空间中的物体类别。评估主要采用两个指标:交并比用于衡量占用预测能力,即模型是否知道“哪里有东西”;平均交并比则用于衡量语义预测能力,即模型是否知道“这些位置分别属于什么类别”。 05 带语言特征的三维高斯表示 LegoOcc 的核心中间表示是带语言特征的三维高斯表示,这里的三维高斯不仅是空间点或模糊椭球,而同时携带几何信息与语言语义信息。 几何信息包括它在三维空间中的位置、形状、大小以及透明度,用于判断空间中哪些区域被物体占据;语言语义信息则是一个能够与文本特征对齐的向量,用于支持开放词汇查询。几何与语义被统一绑定在同一个三维表示之中。模型不再是“先预测三维结构、再额外贴语义标签”,而是在每个三维高斯中同时保存“它在哪里”以及“它可能代表什么”。 传统的“高斯到占用”方法容易出现两个问题。首先,几何分支没有充分利用透明度,而语义渲染过程却依赖透明度信息,导致几何学习与语义学习之间存在不一致;其次,室内场景中的物体十分密集,多个高斯可能同时影响同一个体素,如果简单叠加贡献,容易出现饱和或训练不稳定的问题。 为此,研究团队提出基于泊松建模的高斯到占用转换方法。该方法将每个高斯对空间位置的影响理解为一种“这里可能存在物体”的证据,一个位置是否被占据,由所有相关高斯的证据共同决定。这样不仅能够更自然地处理多个高斯重叠的问题,也能够让透明度真正参与几何占用判断。训练过程中,几何分支采用二值占用监督,并结合占用损失与深度约束,使模型能够学习稳定的三维空间结构。 06 不依赖三维语义标注的语义学习 语义分支的目标,是让每个高斯的语言特征能够与文本类别实现对齐。 研究团队并没有使用人工标注的三维语义标签,而是借助已经训练好的开放词汇二维分割模型,从图像中提取语言对齐的语义特征。研究中采用了类似 Trident 的开放词汇分割模型。 LegoOcc 先从输入图像预测带语言特征的三维高斯,再将这些高斯的语义特征重新渲染回二维图像平面,从而得到每个像素位置上的渲染语义特征。随后,再利用开放词汇二维分割模型从原始图像中提取语言对齐的二维特征,并让两者尽可能保持一致。这样,模型便能够借助二维视觉语言模型获得语义监督,而无需人工为每个三维体素逐一标注类别。 07 渐进式温度衰减 室内场景中容易出现“特征混合”问题。比如,一张图像中可能同时包含桌子、椅子、墙壁和地板。某个像素从二维图像上看主要属于椅子,但沿着视线进入三维空间后,可能会同时经过椅子边缘、桌腿以及背景墙面等多个结构。在渲染过程中,多个高斯的语义特征会被加权融合到同一个像素中。如果直接利用这种混合特征去对齐二维开放词汇特征,模型虽然能够让最终结果“看起来像椅子”,却无法保证真正属于椅子的那些高斯本身学到了清晰的椅子语义。最终映射回三维空间时,语义边界就会变得模糊。 为了缓解特征混合问题,研究团队提出渐进式温度衰减的策略,用于控制高斯渲染时特征融合的软硬程度。在训练初期,模型尚未学好几何结构与语义特征。如果一开始就让每个高斯的贡献非常尖锐,训练过程会变得不稳定,梯度也可能难以优化。因此,早期需要采用较平滑的特征融合方式,让模型先学习整体场景结构。而到了训练后期,模型已经具备较稳定的几何基础。如果仍然保持过于平滑的融合,不同物体的语义就会持续混杂。因此,需要逐渐降低温度,让重要高斯的贡献更加突出,不相关高斯的影响进一步减弱,从而让每个高斯对应的语义更加清晰。 研究团队比较了多种策略,包括不使用温度衰减、固定低温度、线性衰减以及指数衰减。实验结果表明,指数式温度衰减效果最好,因为它能够让模型在低温阶段停留更长时间,从而更充分地学习每个高斯对应的清晰语义。 08 从固定识别到自然交互 训练完成后,LegoOcc 可以直接进行自然语言查询。推理阶段,模型首先从单张室内图像预测带语言特征的三维高斯表示,再进一步生成三维占用空间。对于每一个被占据的位置,系统都会保留对应的语言对齐特征。当用户输入一个文本类别,例如“纸张”或“鞋子”时,系统会先将文本转换成语言特征,再与三维空间中的特征进行匹配。匹配程度越高的位置,就越有可能属于对应类别。开放词汇的类别并不是固定写死在模型最后一层分类器中的,而是通过文本特征动态查询得到。因此,模型能够处理训练阶段没有明确出现在固定类别表中的物体。 LegoOcc 证明,室内场景同样能够实现开放词汇三维占用预测。这对于服务机器人、家庭机器人、增强现实 / 虚拟现实以及室内导航等方向,都具有重要意义。对于普通用户而言,这意味着未来的机器人不再只是“识别固定类别”,而是真正能够理解人的自然语言。它可以根据一句话找到地上的纸、桌子旁边的背包、椅子后面的鞋子,也能够在收纳、找物、避障、陪护以及室内导航等任务中更加实用。 这项研究显著降低了三维语义理解的训练成本。相比二维图像标注,三维语义标注需要在空间中逐点或逐体素进行类别标注,工作量更大,而室内物体类别又高度长尾,很难依靠人工穷尽。LegoOcc 通过“二值占用学习几何 + 二维开放词汇模型提供语义监督”的方式,使未来构建大规模三维语义理解系统的成本显著降低。 当然,这项研究仍然存在一定局限。例如,其语义平均交并比仍低于使用完整语义监督的闭集方法,说明开放词汇三维语义对齐仍不够精确。模型还依赖二维开放词汇分割模型的质量,而单目输入本身也存在深度歧义。此外,不同文本提示词,例如“椅子”“座椅”“办公椅”等,可能影响最终查询结果的稳定性。 LegoOcc推动室内三维理解从固定类别识别,进一步迈向更加灵活、更加自然的语言交互,为未来真正实用的家庭机器人、辅助设备以及增强现实 / 虚拟现实系统提供了重要基础。 09 LegoOcc 背后的研究者 第一作者:周常青,香港科技大学(广州)博士生,致力于高效且稳定的三维场景理解方法研究,当前重点关注端到端轨迹生成模型,以及面向导航任务的高效世界模型构建。 通讯作者:陈昶昊,香港科技大学(广州)智能交通学域和人工智能学域助理教授,副研究员,博士生导师,担任香港科技大学(清水湾校区)跨学科学院联署助理教授。 获英国牛津大学计算机科学博士学位,并在英国工程和自然科学研究委员会(EPSRC)资助下从事博士后研究。担任香港科技大学(广州)具身智能PEAK实验室独立PI. 其研究聚焦具身智能和自主无人系统前沿探索,致力于构建开放环境交互的具身智能体,服务低空经济、智能交通和智慧城市。 先后入选全球前2%顶尖科学家榜单、中国科协青年人才托举工程和国际机器人科学与系统大会先锋者,主持国家自然科学基金面上、青年以及省教育厅重点等纵向项目7项。 在NeurIPS、AAAI、CVPR、ICCV、ECCV、ICRA、IROS、WWW、TNNLS、TIP、TITS、RA-L等人工智能、机器人和智能交通领域高水平期刊和顶级会议上发表论文50余篇,谷歌学术引用超过3800次。 国际机器人与自动化会议(ICRA)和IEEE机器人与自动化快报(RA-L)副编辑(Associate Editor),中国自动化学会机器人专委会和具身智能专委会委员。已授权国家发明专利、国际PCT专利、美国、欧洲、澳大利亚专利共14项,包含1项在英国成功成果转化。 参考链接:https://changhao-chen.github.io/
雷峰 雷峰网更新于 4小时前2 分钟阅读
LegoOcc:无需语义体素标注,也能识别开放类别。 作者丨郑佳美 编辑丨岑 峰 真正的室内空间智能,并不只是让机器认出画面里有一张桌子,而是让它理解真实三维物理空间内:哪里可以通行、哪里存在遮挡、哪些物体能够交互。 对于未来的家庭机器人和护理机器人来说,理解一个房间并不只是完成图像分类。它意味着,机器人能够根据一句自然语言找到玄关柜旁的雨伞,能够在夜间识别走廊中的充电线是否可能绊倒老人,也能够在厨房中理解台面、水杯与边缘之间的空间关系,并在陌生环境中快速建立可行动的三维空间认知。 但室内环境,恰恰是 3D 感知最难落地的场景之一。相比之下,自动驾驶虽然复杂,却仍然拥有相对稳定的道路结构与交通参与者,而室内空间更像一个持续变化的开放世界。物体摆放随时可能变化,遮挡关系更密集,许多目标并不属于数据集中预定义的类别。如果希望模型真正理解三维空间,通常需要昂贵的 3D 语义标注,即在空间中逐点或逐体素标注每个位置属于什么物体。这种高昂成本,很难支撑家庭、办公与公共室内场景的机器人大规模部署。 在这样的背景下,香港科技大学(广州)陈昶昊团队提出了 LegoOcc,该成果《Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes》被 CVPR 2026 接收,并入选大会口头报告。 这项研究关注更接近真实应用的问题:仅使用一张普通室内 RGB 图像,不依赖多视角图像或激光雷达,也不使用 3D 语义标签,依然能够预测空间中的占用情况,并进一步支持基于自然语言的开放类别查询。 换句话说,LegoOcc 解决的,不再是让机器在固定类别中“做选择”,而是让机器真正开始“理解房间”,并把人的语言映射到三维空间中的具体目标。对于家庭机器人、辅助机器人以及 AR / VR 设备等应用,这意味着室内感知正在从“看见物体”,迈向“理解空间”。 论文地址:https://arxiv.org/pdf/2602.22667 01 少标注,强理解 leu'feng'wa的核心思想是:在完全不使用 3D 语义体素标注、仅使用几何占用标签的情况下,模型依然能够实现高质量的室内单目开放词汇 3D 占用预测。模型输入只有一张普通 RGB 图像,不依赖多视角图像、深度图或激光雷达点云;“3D 占用预测”关注的是室内空间中每个小立方体(体素)是否被墙体、桌椅、地板等物体占据;而“开放词汇”则进一步要求模型突破固定类别限制,不仅能识别椅子、桌子、墙等常见类别,还能够根据自然语言查询 鞋子、纸、垃圾桶、包 等更加自由的长尾物体。 该研究在 Occ-ScanNet 数据集验证:每个样本对应一个局部 3D 空间,模型需要同时预测空间占用与语义类别。LegoOcc 在开放词汇设置下达到 59.50 IoU 与 21.05 mIoU,其中:IoU 体现几何占用预测能力,即模型是否知道“哪里有东西”; mIoU 体现语义预测能力,即模型是否知道“这些位置是什么”。 相比开放词汇基线方法,POP-3D的35.32 IoU / 5.96 mIoU 和LOcc:36.70 IoU / 9.25 mIoU。LegoOcc 同时提升几何结构预测和开放词汇语义理解能力,尤其 mIoU 从 9.25 提升到 21.05,说明模型的语义识别能力获得了较大突破。雷峰网 研究团队还将 LegoOcc 与 TPVFormer、GaussianFormer、MonoScene、ISO、SurroundOcc、EmbodiedOcc、EmbodiedOcc++、RoboOcc 等闭集方法进行了比较。这些闭集方法使用完整语义体素标注训练,其中表现较强的 RoboOcc 达到 56.48 IoU 与 47.76 mIoU。虽然 LegoOcc 的 mIoU 仍低于 RoboOcc,但它在完全不使用 3D 语义标签的前提下,实现了超过所有闭集方法的 59.50 IoU。这说明,LegoOcc 在“空间哪里被占据”这一核心几何问题上已经非常强,而开放词汇 3D 语义理解本身仍然是一个极具挑战性的任务。 原因在于,室内类别天然更加细碎且边界模糊。椅子、沙发、其他家具等类别本身就容易混淆;开放词汇模型依赖 3D 特征与文本特征对齐,其类别边界不如闭集分类器稳定,同时还会受到2D 开放词汇分割质量、遮挡关系 、投影误差和单目深度歧义等因素影响。 02 两个关键设计 消融实验进一步说明,LegoOcc 的性能提升主要来自两个关键设计。 第一个关键设计,是高斯分布到体素占用(Poisson-based Gaussian-to-Occupancy)的转换方法。GaussianFormer2 在开放词汇训练下几乎直接失败,结果为 0.00 的交并比与 0.00 的平均交并比。原因在于,它没有充分利用高斯分布的透明度信息。伯努利方法虽然引入了透明度,性能提升至 46.65 的交并比与 17.25 的平均交并比,但在多个高斯分布重叠时,透明度仍然容易被平均化,导致语义特征对齐不稳定。提出的基于泊松分布的高斯到占用转换方法,最终达到 59.50 的交并比与 21.05 的平均交并比。将每个高斯分布视为空间中的一种占用证据,多个高斯分布的证据能够自然累积,共同决定某个位置是否被占据。相比简单叠加或平均,这种方式更稳定地解决二值几何监督下的三维占用转换问题。雷峰网 第二个关键设计,是渐进式温度衰减策略(Progressive Temperature Decay)。问题来源于语义特征混合,在三维高斯分布渲染到二维图像时,同一条视线上往往同时包含椅子边缘、桌腿、墙面背景等多个结构。如果直接进行加权融合,不同物体的语义会相互混杂。实验表明,温度始终较高时,训练虽然稳定,但语义混合严重;一开始就使用低温会导致训练直接崩溃;而训练阶段高温、测试阶段低温,则会因为训练与测试不一致导致性能下降。效果最好的是指数式温度衰减,最终达到 59.50 的交并比与 21.05 的平均交并比。这意味着模型需要先稳定学习场景结构与语义对齐,再逐渐减少特征混合,让每个高斯分布更加明确地对应具体物体或区域。 03 LegoOcc 的推理效率 在单张 RTX 4090 显卡上,LegoOcc 达到每秒 22.47 帧,而 ISO 为每秒 3.81 帧,EmbodiedOcc 为每秒 11.48 帧,POP-3D 为每秒 10.21 帧,LOcc 为每秒 8.93 帧。 LegoOcc不仅依赖复杂后处理或多阶段推理,而是借助紧凑的三维高斯表示,在速度与准确率之间取得了良好平衡。可视化结果同样支持这一点。相比 LOcc,LegoOcc 对墙体、地板、家具、桌椅等结构的三维预测更加完整,空间结构更加连续。 在开放词汇查询中,模型还能根据背包、自行车、窗帘、鞋子、纸张、垃圾桶等自然语言类别,在三维空间中定位对应物体,而这些类别并不一定属于 Occ-ScanNet 固定定义的 11 个语义类别。因此,LegoOcc 不仅提升数据集指标,而是让模型更接近自然语言驱动的三维场景理解。 04 传统方法的两个局限 第一个限制是“闭集类别”问题,也就是模型只能识别训练数据中预先定义好的类别。例如,在 Occ-ScanNet 数据集中,主要评估的类别包括天花板、地板、墙壁、窗户、椅子、床、沙发、桌子、电视、家具以及杂项物体等。但真实室内环境远比数据集复杂,还存在书包、鞋子、垃圾桶、纸张、遥控器、衣服、玩具等大量长尾物体,而这些目标往往并不在固定类别列表中。 第二个限制是对昂贵三维语义标注的依赖。传统三维语义占用模型通常需要知道每一个三维体素具体属于什么类别。然而,室内环境中的物体往往高度密集、遮挡严重、类别繁多,如果采用人工逐点或逐体素标注,成本极高,也很难扩展到大规模真实场景。 因此,研究团队采用更符合实际应用的训练方式:训练阶段只使用二值占用标签,仅告诉模型“这里是否有物体”,而不提供具体语义类别。模型的语义能力则通过开放词汇二维分割模型与语言特征对齐来获得。 虽然训练阶段不使用语义体素标签,但在评估阶段,仍然会利用语义标签检验模型是否能够正确识别空间中的物体类别。评估主要采用两个指标:交并比用于衡量占用预测能力,即模型是否知道“哪里有东西”;平均交并比则用于衡量语义预测能力,即模型是否知道“这些位置分别属于什么类别”。 05 带语言特征的三维高斯表示 LegoOcc 的核心中间表示是带语言特征的三维高斯表示,这里的三维高斯不仅是空间点或模糊椭球,而同时携带几何信息与语言语义信息。 几何信息包括它在三维空间中的位置、形状、大小以及透明度,用于判断空间中哪些区域被物体占据;语言语义信息则是一个能够与文本特征对齐的向量,用于支持开放词汇查询。几何与语义被统一绑定在同一个三维表示之中。模型不再是“先预测三维结构、再额外贴语义标签”,而是在每个三维高斯中同时保存“它在哪里”以及“它可能代表什么”。 传统的“高斯到占用”方法容易出现两个问题。首先,几何分支没有充分利用透明度,而语义渲染过程却依赖透明度信息,导致几何学习与语义学习之间存在不一致;其次,室内场景中的物体十分密集,多个高斯可能同时影响同一个体素,如果简单叠加贡献,容易出现饱和或训练不稳定的问题。 为此,研究团队提出基于泊松建模的高斯到占用转换方法。该方法将每个高斯对空间位置的影响理解为一种“这里可能存在物体”的证据,一个位置是否被占据,由所有相关高斯的证据共同决定。这样不仅能够更自然地处理多个高斯重叠的问题,也能够让透明度真正参与几何占用判断。训练过程中,几何分支采用二值占用监督,并结合占用损失与深度约束,使模型能够学习稳定的三维空间结构。 06 不依赖三维语义标注的语义学习 语义分支的目标,是让每个高斯的语言特征能够与文本类别实现对齐。 研究团队并没有使用人工标注的三维语义标签,而是借助已经训练好的开放词汇二维分割模型,从图像中提取语言对齐的语义特征。研究中采用了类似 Trident 的开放词汇分割模型。 LegoOcc 先从输入图像预测带语言特征的三维高斯,再将这些高斯的语义特征重新渲染回二维图像平面,从而得到每个像素位置上的渲染语义特征。随后,再利用开放词汇二维分割模型从原始图像中提取语言对齐的二维特征,并让两者尽可能保持一致。这样,模型便能够借助二维视觉语言模型获得语义监督,而无需人工为每个三维体素逐一标注类别。 07 渐进式温度衰减 室内场景中容易出现“特征混合”问题。比如,一张图像中可能同时包含桌子、椅子、墙壁和地板。某个像素从二维图像上看主要属于椅子,但沿着视线进入三维空间后,可能会同时经过椅子边缘、桌腿以及背景墙面等多个结构。在渲染过程中,多个高斯的语义特征会被加权融合到同一个像素中。如果直接利用这种混合特征去对齐二维开放词汇特征,模型虽然能够让最终结果“看起来像椅子”,却无法保证真正属于椅子的那些高斯本身学到了清晰的椅子语义。最终映射回三维空间时,语义边界就会变得模糊。 为了缓解特征混合问题,研究团队提出渐进式温度衰减的策略,用于控制高斯渲染时特征融合的软硬程度。在训练初期,模型尚未学好几何结构与语义特征。如果一开始就让每个高斯的贡献非常尖锐,训练过程会变得不稳定,梯度也可能难以优化。因此,早期需要采用较平滑的特征融合方式,让模型先学习整体场景结构。而到了训练后期,模型已经具备较稳定的几何基础。如果仍然保持过于平滑的融合,不同物体的语义就会持续混杂。因此,需要逐渐降低温度,让重要高斯的贡献更加突出,不相关高斯的影响进一步减弱,从而让每个高斯对应的语义更加清晰。 研究团队比较了多种策略,包括不使用温度衰减、固定低温度、线性衰减以及指数衰减。实验结果表明,指数式温度衰减效果最好,因为它能够让模型在低温阶段停留更长时间,从而更充分地学习每个高斯对应的清晰语义。 08 从固定识别到自然交互 训练完成后,LegoOcc 可以直接进行自然语言查询。推理阶段,模型首先从单张室内图像预测带语言特征的三维高斯表示,再进一步生成三维占用空间。对于每一个被占据的位置,系统都会保留对应的语言对齐特征。当用户输入一个文本类别,例如“纸张”或“鞋子”时,系统会先将文本转换成语言特征,再与三维空间中的特征进行匹配。匹配程度越高的位置,就越有可能属于对应类别。开放词汇的类别并不是固定写死在模型最后一层分类器中的,而是通过文本特征动态查询得到。因此,模型能够处理训练阶段没有明确出现在固定类别表中的物体。 LegoOcc 证明,室内场景同样能够实现开放词汇三维占用预测。这对于服务机器人、家庭机器人、增强现实 / 虚拟现实以及室内导航等方向,都具有重要意义。对于普通用户而言,这意味着未来的机器人不再只是“识别固定类别”,而是真正能够理解人的自然语言。它可以根据一句话找到地上的纸、桌子旁边的背包、椅子后面的鞋子,也能够在收纳、找物、避障、陪护以及室内导航等任务中更加实用。 这项研究显著降低了三维语义理解的训练成本。相比二维图像标注,三维语义标注需要在空间中逐点或逐体素进行类别标注,工作量更大,而室内物体类别又高度长尾,很难依靠人工穷尽。LegoOcc 通过“二值占用学习几何 + 二维开放词汇模型提供语义监督”的方式,使未来构建大规模三维语义理解系统的成本显著降低。 当然,这项研究仍然存在一定局限。例如,其语义平均交并比仍低于使用完整语义监督的闭集方法,说明开放词汇三维语义对齐仍不够精确。模型还依赖二维开放词汇分割模型的质量,而单目输入本身也存在深度歧义。此外,不同文本提示词,例如“椅子”“座椅”“办公椅”等,可能影响最终查询结果的稳定性。 LegoOcc推动室内三维理解从固定类别识别,进一步迈向更加灵活、更加自然的语言交互,为未来真正实用的家庭机器人、辅助设备以及增强现实 / 虚拟现实系统提供了重要基础。 09 LegoOcc 背后的研究者 第一作者:周常青,香港科技大学(广州)博士生,致力于高效且稳定的三维场景理解方法研究,当前重点关注端到端轨迹生成模型,以及面向导航任务的高效世界模型构建。 通讯作者:陈昶昊,香港科技大学(广州)智能交通学域和人工智能学域助理教授,副研究员,博士生导师,担任香港科技大学(清水湾校区)跨学科学院联署助理教授。 获英国牛津大学计算机科学博士学位,并在英国工程和自然科学研究委员会(EPSRC)资助下从事博士后研究。担任香港科技大学(广州)具身智能PEAK实验室独立PI. 其研究聚焦具身智能和自主无人系统前沿探索,致力于构建开放环境交互的具身智能体,服务低空经济、智能交通和智慧城市。 先后入选全球前2%顶尖科学家榜单、中国科协青年人才托举工程和国际机器人科学与系统大会先锋者,主持国家自然科学基金面上、青年以及省教育厅重点等纵向项目7项。 在NeurIPS、AAAI、CVPR、ICCV、ECCV、ICRA、IROS、WWW、TNNLS、TIP、TITS、RA-L等人工智能、机器人和智能交通领域高水平期刊和顶级会议上发表论文50余篇,谷歌学术引用超过3800次。 国际机器人与自动化会议(ICRA)和IEEE机器人与自动化快报(RA-L)副编辑(Associate Editor),中国自动化学会机器人专委会和具身智能专委会委员。已授权国家发明专利、国际PCT专利、美国、欧洲、澳大利亚专利共14项,包含1项在英国成功成果转化。 参考链接:https://changhao-chen.github.io/
本文仅展示摘要与 AI 分析。完整原文请点击上方“阅读原文”访问来源网站。