科技
从「座上宾」到「主战场」:具身智能如何完成对计算机视觉的「范式夺权」?| CVPR 2026
当机器从识别图像走向介入现实,视觉研究的边界也被重新划定。 作者丨郑佳美 编辑丨马晓宁 如果您漫步在 CVPR 2026 的会场,会产生一种强烈的错觉:自己是不是跑错了场馆,误入了 ICRA 或者 IROS 的现场?满屏的机械臂抓取、足式机器人的越野导航、以及在虚拟沙盒中进行千亿次迭代的物理模拟。 具身智能(Embodied AI)已经不再是视觉领域的一个“边缘分支”,而是以一种占据主舞台的姿态,成为视觉顶会最难被忽视的叙事之一。 这种范式的易位,让人们不禁回想起 2017 年机器人学界的顶级盛会 IROS。当时,机器人专家们打破了固守多年的运动学控制圈层,邀请计算机视觉泰斗、ImageNet 奠基人李飞飞做主题演讲。 在那个时刻,视觉对于机器人而言,更像是一个“尊贵的外部插件”:机器人学是主,计算机视觉是客。机器人真正的知识核心,仍然是运动学、动力学、控制、规划、执行器和系统工程;视觉负责把外部世界翻译成机器人能够使用的状态信息,却并不真正决定机器人学的问题边界。 九年之后,机器人和计算机视觉的融合已进入新的里程碑。在计算机视觉领域,我们甚至可以看到具身智能“反客为主”的表现。 这种“反客为主”,并不是说机器人论文在视觉顶会中数量变多了,也不是说 CVPR 正在变成另一个 ICRA 或 IROS。真正重要的是,具身智能正在改变计算机视觉判断自身价值的方式。 过去,视觉研究的中心问题是:机器如何从图像中提取语义,从视频中理解事件,从多视角中还原三维结构。今天,具身智能把问题推进到了另一层:视觉系统不仅要看懂世界,还要支持一个智能体进入世界、改变世界,并在行动反馈中重新校正自己对世界的理解。 这才是所谓“范式夺权”的本质。一个方向真正完成“夺权”,从来不是靠论文数量取胜,而是靠重新定义整个领域的问题入口、评价标准和技术路线。 如果说过去的计算机视觉是在屏幕中理解世界,那么具身智能正在迫使它走出屏幕,在真实空间、真实物体和真实动作中重新证明自己。 01 Ted Xiao「三大时代」里的具身智能拐点 要理解具身智能为什么会在 CVPR 2026 中形成如此强的存在感,不能只从这一届会议本身看起。更准确的切口,是 Ted Xiao 对机器人学习过去十年发展的三阶段复盘:存在性证明时代、基础模型时代和 Scaling 时代。 这个框架之所以重要,是因为它解释了一个关键问题:具身智能并不是突然进入计算机视觉中心的,而是在机器人学习自身演进到某个阶段之后,必然开始向视觉研究索取更深层的能力。 换句话说,CVPR 2026 所呈现出的变化,不是一个会议热点的偶然轮换,而是机器人学习从控制问题、数据问题,进一步演变成世界理解问题后的自然结果。 第一个阶段是存在性证明时代。这个阶段的核心问题是:端到端的数据驱动方法到底能不能在真实机器人上工作?强化学习能不能控制机械臂?模仿学习能不能完成抓取?真实硬件采集的数据能不能训练出稳定策略? 这一时期的机器人学习还带有很强的“实验室证明”色彩。研究者需要先证明,深度学习不只是能在 Atari、围棋和图像分类中奏效,也能面对真实世界中连续、高维、噪声极强的物理系统。 在这个阶段,视觉当然重要,但它更多是机器人系统中的输入模块。机器人需要视觉来感知物体位置、场景状态和外部环境,但机器人学习的主要压力仍然来自控制稳定性、硬件误差、样本效率、数据采集成本和真实环境不确定性。视觉是必要条件,却还不是范式重组的中心。 第二个阶段是基础模型时代。随着大语言模型、视觉语言模型和多模态大模型的发展,机器人学习开始发生第一次重要转向。机器人不再只是学习某个单一技能,而是开始吸收互联网规模数据中形成的语义理解能力。 它不仅要知道机械臂如何移动,还要理解“把红色杯子放到盘子旁边”这样的自然语言指令;不仅要识别物体,还要理解开放词汇、空间关系、任务意图和人类常识。 SayCan、RT-1、RT-2 这类路线的意义正在于此。它们并不只是让机器人“听懂更多话”,而是让视觉、语言和动作第一次被压进同一个建模框架中:语言给出目标,视觉理解状态,模型生成动作,动作改变世界,世界反馈又回到视觉输入之中。 到了这个阶段,计算机视觉和机器人学习的关系已经开始变化。机器人对视觉的需求,不再只是“帮我看见物体在哪里”,而是“帮我理解一个开放世界,并把这种理解转化为行动”。这已经不是传统意义上的视觉模块调用,而是对视觉研究提出了更高层的要求。 第三个阶段是 Scaling 时代。也正是在这个阶段,CVPR 的位置变得不可替代。因为一旦机器人学习进入规模化,它需要的基础设施几乎全部与计算机视觉深度绑定: 它需要从海量视频中学习人类动作和物体交互,需要用 3D 场景理解支撑空间推理,需要用世界模型预测动作后果,需要通过仿真和合成数据弥补真实机器人数据的稀缺,需要把语言目标映射到视觉状态和动作序列,也需要在长程任务中维持对场景、记忆和目标的持续理解。雷峰网 这就是为什么具身智能会在 CVPR 2026 中显得像一次集中爆发。机器人学习早期更像是在解决“能不能让机器人动起来”;基础模型时代开始解决“能不能让机器人理解指令和场景”;而到了 Scaling 时代,真正的问题变成了“能不能让机器人在开放世界中规模化地学习、泛化和行动”。 这个问题已经不再是机器人学单独能够完成的,它必须借助计算机视觉在视觉表征、视频理解、三维重建、多模态对齐、生成建模和世界建模上的长期积累。因此,Ted Xiao 的三大时代复盘实际上揭示了这场“范式夺权”的历史条件:只有当机器人学习进入 Scaling 阶段,视觉才会从机器人系统中的外部插件,变成物理智能的底层基础设施。 02 三重「夺权」: 问题、标准与路线的重写 有了 Ted Xiao 的时间线,再回到 CVPR 2026,很多现象就不再显得孤立。 VLA、机器人操作、移动导航、人形机器人、世界模型、Sim2Real、物理仿真、3D 空间智能和自动驾驶等主题集中出现,并不是多个热点并排爆发,而是同一条范式迁移链路在视觉顶会中的集中显影。 过去,CVPR 的很多核心任务可以被理解为从视觉输入到视觉表征的映射:图像到类别,图像到框,图像到 mask,图像到 depth,图像到 3D,视频到事件,文本到图像。 具身智能则要求建立一条更长的链路:视觉输入进入语言理解,语言目标进入任务规划,任务规划进入动作生成,动作结果回到视觉反馈,反馈再更新模型对世界的判断。 这条链路一旦成为主流,计算机视觉的研究对象就会发生变化。图像不再只是被理解的对象,而是行动决策的起点;视频不再只是时间序列,而是动作、变化和因果后果的载体;三维重建不再只是几何恢复,而是智能体导航、操作和交互的空间底座;生成模型不再只是为了生成逼真的内容,而是要生成可用于训练、预测和评估行动策略的世界。 这就是 CVPR 2026 的标志性意义。它不是具身智能第一次出现在视觉顶会中,却可能是具身智能第一次如此清晰地改变视觉顶会的叙事重心。过去,机器人是视觉技术的应用场景;现在,机器人问题开始成为视觉研究重新定义自身的一面镜子。 而所谓具身智能的“范式夺权”,正是从这里开始的:它首先改变了计算机视觉的问题定义。 传统计算机视觉最常问的是:这是什么?它在哪里?这个场景如何重建?这段视频发生了什么?这些问题共同指向一个目标:让机器更好地表征世界。 具身智能把问题改写了。一个机器人看见桌上的杯子,任务并不会停在“识别这是杯子”。它还要判断杯子的重心、材质、杯柄朝向、可抓取区域、周围障碍物、机械臂运动路径,以及拿起之后世界状态会如何改变。也就是说,具身智能真正问的是:我能对它做什么? 这一步改变了视觉研究的底层对象。物体不再只是类别标签,而是可抓取、可推动、可打开、可阻挡、可支撑的实体;空间不再只是几何结构,而是可导航、可探索、可交互的任务场;视频不再只是时间序列,而是动作、变化和因果后果的线索。 问题一旦被改写,评价标准也会随之变化。传统视觉的成功大多建立在离线数据集上:分类看准确率,检测看 mAP,分割看 IoU,重建看误差,生成看保真度和语义一致性。具身智能带来的标准更苛刻:模型“看对了”并不等于任务成功。 机器人识别出了杯子,但抓取失败,视觉理解仍然不够;模型重建出了房间,但机器人无法安全导航,空间表征仍然不够;视频生成看起来逼真,但不能预测动作后果,世界模型仍然不够。 所以,具身智能把评价标准从“输出是否正确”,推向“行动是否有效”。计算机视觉过去可以在视觉空间内部自洽,现在则必须接受物理世界的检验。 当问题定义和评价标准都发生变化,方法路线也会被重写。VLA 模型之所以重要,并不是因为它把 Vision、Language、Action 三个词放在一起,而是因为它重建了智能系统的基本接口:人类用语言表达目标,机器人通过视觉理解当前世界,再把语言目标和视觉状态转化为动作序列。 世界模型和物理仿真解决的,则是行动之前的后果预测。机器人拿起杯子,桌面状态会改变;推开箱子,路径可达性会改变;打开抽屉,新的物体会出现。如果视觉模型不能推演这些变化,它就很难支撑规划。 3D 空间智能也因此被重新赋予意义。过去,三维重建关注几何是否准确、纹理是否真实;现在,具身智能要求三维世界是可行动的:哪里能走,哪里能抓,哪里会撞,哪里需要探索。 这就是具身智能对计算机视觉方法路线的重写。它把视觉模型从“感知器”推向“行动系统的一部分”,把 3D 从几何恢复推向空间决策,把视频生成从内容合成推向物理预测,把多模态模型从视觉问答推向任务执行。 而学术范式的变化,最终还需要产业现实来确认。过去,计算机视觉的产业化多发生在相对可控的感知和内容场景中。安防识别、工业检测、自动驾驶感知、手机影像和 AIGC,都可以在一定程度上把视觉输出作为独立结果来使用。 但机器人不同。机器人要求视觉结果直接进入行动链条。模型不能只是“看起来理解了”,它必须把货箱搬起来,把零件放到位,把路线走通,把门打开,把错误恢复过来。 这使得视觉模型的错误成本发生了变化。一次识别错误可能导致抓取失败,一次空间误判可能导致碰撞,一次物理预测错误可能让策略失效。 因此,产业需要的不是单点视觉能力,而是一整套面向物理世界的视觉基础设施:稳定的 3D 世界表征、低延迟动作生成、高质量机器人数据、可交互仿真环境、可靠的 Sim2Real 迁移,以及失败后的恢复机制。 只要 AI 继续从屏幕走向物理世界,计算机视觉就必然从“感知模型”走向“行动基础设施”。这也是具身智能夺取范式解释权的现实基础。 03 从开放世界之桥,到物理智能底座 回到 2017 年 IROS 的历史现场,李飞飞的出现象征着机器人学界对视觉智能的主动拥抱。那时,机器人如果要进入开放世界,就必须借助视觉理解对象、场景和人类意图。视觉是机器人通往开放世界的一座桥。 而现在 CVPR 2026 的具身智能热潮构成了另一个历史镜像:机器人问题开始反过来迫使计算机视觉重新理解自身。没有视觉,机器人无法理解开放世界;但没有行动,视觉智能也很容易停留在描述世界的层面,无法证明自己是否真正理解世界。 这就是“从座上宾到主战场”的真正含义。 它不是机器人取代计算机视觉,也不是 CVPR 变成机器人会议,而是具身智能夺取了计算机视觉的范式解释权。它重新定义了什么是重要问题,什么是有效方法,什么是成功结果,也重新定义了视觉智能必须面对的世界。雷峰网 过去,计算机视觉的核心是让机器看见世界;后来,它变成让机器理解世界;现在,具身智能正在要求机器进入世界。看见是感知,理解是表征,行动才是对理解的最终检验。
雷峰 雷峰网更新于 4小时前1 分钟阅读
当机器从识别图像走向介入现实,视觉研究的边界也被重新划定。 作者丨郑佳美 编辑丨马晓宁 如果您漫步在 CVPR 2026 的会场,会产生一种强烈的错觉:自己是不是跑错了场馆,误入了 ICRA 或者 IROS 的现场?满屏的机械臂抓取、足式机器人的越野导航、以及在虚拟沙盒中进行千亿次迭代的物理模拟。 具身智能(Embodied AI)已经不再是视觉领域的一个“边缘分支”,而是以一种占据主舞台的姿态,成为视觉顶会最难被忽视的叙事之一。 这种范式的易位,让人们不禁回想起 2017 年机器人学界的顶级盛会 IROS。当时,机器人专家们打破了固守多年的运动学控制圈层,邀请计算机视觉泰斗、ImageNet 奠基人李飞飞做主题演讲。 在那个时刻,视觉对于机器人而言,更像是一个“尊贵的外部插件”:机器人学是主,计算机视觉是客。机器人真正的知识核心,仍然是运动学、动力学、控制、规划、执行器和系统工程;视觉负责把外部世界翻译成机器人能够使用的状态信息,却并不真正决定机器人学的问题边界。 九年之后,机器人和计算机视觉的融合已进入新的里程碑。在计算机视觉领域,我们甚至可以看到具身智能“反客为主”的表现。 这种“反客为主”,并不是说机器人论文在视觉顶会中数量变多了,也不是说 CVPR 正在变成另一个 ICRA 或 IROS。真正重要的是,具身智能正在改变计算机视觉判断自身价值的方式。 过去,视觉研究的中心问题是:机器如何从图像中提取语义,从视频中理解事件,从多视角中还原三维结构。今天,具身智能把问题推进到了另一层:视觉系统不仅要看懂世界,还要支持一个智能体进入世界、改变世界,并在行动反馈中重新校正自己对世界的理解。 这才是所谓“范式夺权”的本质。一个方向真正完成“夺权”,从来不是靠论文数量取胜,而是靠重新定义整个领域的问题入口、评价标准和技术路线。 如果说过去的计算机视觉是在屏幕中理解世界,那么具身智能正在迫使它走出屏幕,在真实空间、真实物体和真实动作中重新证明自己。 01 Ted Xiao「三大时代」里的具身智能拐点 要理解具身智能为什么会在 CVPR 2026 中形成如此强的存在感,不能只从这一届会议本身看起。更准确的切口,是 Ted Xiao 对机器人学习过去十年发展的三阶段复盘:存在性证明时代、基础模型时代和 Scaling 时代。 这个框架之所以重要,是因为它解释了一个关键问题:具身智能并不是突然进入计算机视觉中心的,而是在机器人学习自身演进到某个阶段之后,必然开始向视觉研究索取更深层的能力。 换句话说,CVPR 2026 所呈现出的变化,不是一个会议热点的偶然轮换,而是机器人学习从控制问题、数据问题,进一步演变成世界理解问题后的自然结果。 第一个阶段是存在性证明时代。这个阶段的核心问题是:端到端的数据驱动方法到底能不能在真实机器人上工作?强化学习能不能控制机械臂?模仿学习能不能完成抓取?真实硬件采集的数据能不能训练出稳定策略? 这一时期的机器人学习还带有很强的“实验室证明”色彩。研究者需要先证明,深度学习不只是能在 Atari、围棋和图像分类中奏效,也能面对真实世界中连续、高维、噪声极强的物理系统。 在这个阶段,视觉当然重要,但它更多是机器人系统中的输入模块。机器人需要视觉来感知物体位置、场景状态和外部环境,但机器人学习的主要压力仍然来自控制稳定性、硬件误差、样本效率、数据采集成本和真实环境不确定性。视觉是必要条件,却还不是范式重组的中心。 第二个阶段是基础模型时代。随着大语言模型、视觉语言模型和多模态大模型的发展,机器人学习开始发生第一次重要转向。机器人不再只是学习某个单一技能,而是开始吸收互联网规模数据中形成的语义理解能力。 它不仅要知道机械臂如何移动,还要理解“把红色杯子放到盘子旁边”这样的自然语言指令;不仅要识别物体,还要理解开放词汇、空间关系、任务意图和人类常识。 SayCan、RT-1、RT-2 这类路线的意义正在于此。它们并不只是让机器人“听懂更多话”,而是让视觉、语言和动作第一次被压进同一个建模框架中:语言给出目标,视觉理解状态,模型生成动作,动作改变世界,世界反馈又回到视觉输入之中。 到了这个阶段,计算机视觉和机器人学习的关系已经开始变化。机器人对视觉的需求,不再只是“帮我看见物体在哪里”,而是“帮我理解一个开放世界,并把这种理解转化为行动”。这已经不是传统意义上的视觉模块调用,而是对视觉研究提出了更高层的要求。 第三个阶段是 Scaling 时代。也正是在这个阶段,CVPR 的位置变得不可替代。因为一旦机器人学习进入规模化,它需要的基础设施几乎全部与计算机视觉深度绑定: 它需要从海量视频中学习人类动作和物体交互,需要用 3D 场景理解支撑空间推理,需要用世界模型预测动作后果,需要通过仿真和合成数据弥补真实机器人数据的稀缺,需要把语言目标映射到视觉状态和动作序列,也需要在长程任务中维持对场景、记忆和目标的持续理解。雷峰网 这就是为什么具身智能会在 CVPR 2026 中显得像一次集中爆发。机器人学习早期更像是在解决“能不能让机器人动起来”;基础模型时代开始解决“能不能让机器人理解指令和场景”;而到了 Scaling 时代,真正的问题变成了“能不能让机器人在开放世界中规模化地学习、泛化和行动”。 这个问题已经不再是机器人学单独能够完成的,它必须借助计算机视觉在视觉表征、视频理解、三维重建、多模态对齐、生成建模和世界建模上的长期积累。因此,Ted Xiao 的三大时代复盘实际上揭示了这场“范式夺权”的历史条件:只有当机器人学习进入 Scaling 阶段,视觉才会从机器人系统中的外部插件,变成物理智能的底层基础设施。 02 三重「夺权」: 问题、标准与路线的重写 有了 Ted Xiao 的时间线,再回到 CVPR 2026,很多现象就不再显得孤立。 VLA、机器人操作、移动导航、人形机器人、世界模型、Sim2Real、物理仿真、3D 空间智能和自动驾驶等主题集中出现,并不是多个热点并排爆发,而是同一条范式迁移链路在视觉顶会中的集中显影。 过去,CVPR 的很多核心任务可以被理解为从视觉输入到视觉表征的映射:图像到类别,图像到框,图像到 mask,图像到 depth,图像到 3D,视频到事件,文本到图像。 具身智能则要求建立一条更长的链路:视觉输入进入语言理解,语言目标进入任务规划,任务规划进入动作生成,动作结果回到视觉反馈,反馈再更新模型对世界的判断。 这条链路一旦成为主流,计算机视觉的研究对象就会发生变化。图像不再只是被理解的对象,而是行动决策的起点;视频不再只是时间序列,而是动作、变化和因果后果的载体;三维重建不再只是几何恢复,而是智能体导航、操作和交互的空间底座;生成模型不再只是为了生成逼真的内容,而是要生成可用于训练、预测和评估行动策略的世界。 这就是 CVPR 2026 的标志性意义。它不是具身智能第一次出现在视觉顶会中,却可能是具身智能第一次如此清晰地改变视觉顶会的叙事重心。过去,机器人是视觉技术的应用场景;现在,机器人问题开始成为视觉研究重新定义自身的一面镜子。 而所谓具身智能的“范式夺权”,正是从这里开始的:它首先改变了计算机视觉的问题定义。 传统计算机视觉最常问的是:这是什么?它在哪里?这个场景如何重建?这段视频发生了什么?这些问题共同指向一个目标:让机器更好地表征世界。 具身智能把问题改写了。一个机器人看见桌上的杯子,任务并不会停在“识别这是杯子”。它还要判断杯子的重心、材质、杯柄朝向、可抓取区域、周围障碍物、机械臂运动路径,以及拿起之后世界状态会如何改变。也就是说,具身智能真正问的是:我能对它做什么? 这一步改变了视觉研究的底层对象。物体不再只是类别标签,而是可抓取、可推动、可打开、可阻挡、可支撑的实体;空间不再只是几何结构,而是可导航、可探索、可交互的任务场;视频不再只是时间序列,而是动作、变化和因果后果的线索。 问题一旦被改写,评价标准也会随之变化。传统视觉的成功大多建立在离线数据集上:分类看准确率,检测看 mAP,分割看 IoU,重建看误差,生成看保真度和语义一致性。具身智能带来的标准更苛刻:模型“看对了”并不等于任务成功。 机器人识别出了杯子,但抓取失败,视觉理解仍然不够;模型重建出了房间,但机器人无法安全导航,空间表征仍然不够;视频生成看起来逼真,但不能预测动作后果,世界模型仍然不够。 所以,具身智能把评价标准从“输出是否正确”,推向“行动是否有效”。计算机视觉过去可以在视觉空间内部自洽,现在则必须接受物理世界的检验。 当问题定义和评价标准都发生变化,方法路线也会被重写。VLA 模型之所以重要,并不是因为它把 Vision、Language、Action 三个词放在一起,而是因为它重建了智能系统的基本接口:人类用语言表达目标,机器人通过视觉理解当前世界,再把语言目标和视觉状态转化为动作序列。 世界模型和物理仿真解决的,则是行动之前的后果预测。机器人拿起杯子,桌面状态会改变;推开箱子,路径可达性会改变;打开抽屉,新的物体会出现。如果视觉模型不能推演这些变化,它就很难支撑规划。 3D 空间智能也因此被重新赋予意义。过去,三维重建关注几何是否准确、纹理是否真实;现在,具身智能要求三维世界是可行动的:哪里能走,哪里能抓,哪里会撞,哪里需要探索。 这就是具身智能对计算机视觉方法路线的重写。它把视觉模型从“感知器”推向“行动系统的一部分”,把 3D 从几何恢复推向空间决策,把视频生成从内容合成推向物理预测,把多模态模型从视觉问答推向任务执行。 而学术范式的变化,最终还需要产业现实来确认。过去,计算机视觉的产业化多发生在相对可控的感知和内容场景中。安防识别、工业检测、自动驾驶感知、手机影像和 AIGC,都可以在一定程度上把视觉输出作为独立结果来使用。 但机器人不同。机器人要求视觉结果直接进入行动链条。模型不能只是“看起来理解了”,它必须把货箱搬起来,把零件放到位,把路线走通,把门打开,把错误恢复过来。 这使得视觉模型的错误成本发生了变化。一次识别错误可能导致抓取失败,一次空间误判可能导致碰撞,一次物理预测错误可能让策略失效。 因此,产业需要的不是单点视觉能力,而是一整套面向物理世界的视觉基础设施:稳定的 3D 世界表征、低延迟动作生成、高质量机器人数据、可交互仿真环境、可靠的 Sim2Real 迁移,以及失败后的恢复机制。 只要 AI 继续从屏幕走向物理世界,计算机视觉就必然从“感知模型”走向“行动基础设施”。这也是具身智能夺取范式解释权的现实基础。 03 从开放世界之桥,到物理智能底座 回到 2017 年 IROS 的历史现场,李飞飞的出现象征着机器人学界对视觉智能的主动拥抱。那时,机器人如果要进入开放世界,就必须借助视觉理解对象、场景和人类意图。视觉是机器人通往开放世界的一座桥。 而现在 CVPR 2026 的具身智能热潮构成了另一个历史镜像:机器人问题开始反过来迫使计算机视觉重新理解自身。没有视觉,机器人无法理解开放世界;但没有行动,视觉智能也很容易停留在描述世界的层面,无法证明自己是否真正理解世界。 这就是“从座上宾到主战场”的真正含义。 它不是机器人取代计算机视觉,也不是 CVPR 变成机器人会议,而是具身智能夺取了计算机视觉的范式解释权。它重新定义了什么是重要问题,什么是有效方法,什么是成功结果,也重新定义了视觉智能必须面对的世界。雷峰网 过去,计算机视觉的核心是让机器看见世界;后来,它变成让机器理解世界;现在,具身智能正在要求机器进入世界。看见是感知,理解是表征,行动才是对理解的最终检验。
本文仅展示摘要与 AI 分析。完整原文请点击上方“阅读原文”访问来源网站。