科技

从「座上宾」到「主战场」：具身智能如何完成对计算机视觉的「范式夺权」？| CVPR 2026

当机器从识别图像走向介入现实，视觉研究的边界也被重新划定。作者丨郑佳美编辑丨马晓宁如果您漫步在 CVPR 2026 的会场，会产生一种强烈的错觉：自己是不是跑错了场馆，误入了 ICRA 或者 IROS 的现场？满屏的机械臂抓取、足式机器人的越野导航、以及在虚拟沙盒中进行千亿次迭代的物理模拟。具身智能（Embodied AI）已经不再是视觉领域的一个“边缘分支”，而是以一种占据主舞台的姿态，成为视觉顶会最难被忽视的叙事之一。这种范式的易位，让人们不禁回想起 2017 年机器人学界的顶级盛会 IROS。当时，机器人专家们打破了固守多年的运动学控制圈层，邀请计算机视觉泰斗、ImageNet 奠基人李飞飞做主题演讲。在那个时刻，视觉对于机器人而言，更像是一个“尊贵的外部插件”：机器人学是主，计算机视觉是客。机器人真正的知识核心，仍然是运动学、动力学、控制、规划、执行器和系统工程；视觉负责把外部世界翻译成机器人能够使用的状态信息，却并不真正决定机器人学的问题边界。九年之后，机器人和计算机视觉的融合已进入新的里程碑。在计算机视觉领域，我们甚至可以看到具身智能“反客为主”的表现。这种“反客为主”，并不是说机器人论文在视觉顶会中数量变多了，也不是说 CVPR 正在变成另一个 ICRA 或 IROS。真正重要的是，具身智能正在改变计算机视觉判断自身价值的方式。过去，视觉研究的中心问题是：机器如何从图像中提取语义，从视频中理解事件，从多视角中还原三维结构。今天，具身智能把问题推进到了另一层：视觉系统不仅要看懂世界，还要支持一个智能体进入世界、改变世界，并在行动反馈中重新校正自己对世界的理解。这才是所谓“范式夺权”的本质。一个方向真正完成“夺权”，从来不是靠论文数量取胜，而是靠重新定义整个领域的问题入口、评价标准和技术路线。如果说过去的计算机视觉是在屏幕中理解世界，那么具身智能正在迫使它走出屏幕，在真实空间、真实物体和真实动作中重新证明自己。 01 Ted Xiao「三大时代」里的具身智能拐点要理解具身智能为什么会在 CVPR 2026 中形成如此强的存在感，不能只从这一届会议本身看起。更准确的切口，是 Ted Xiao 对机器人学习过去十年发展的三阶段复盘：存在性证明时代、基础模型时代和 Scaling 时代。这个框架之所以重要，是因为它解释了一个关键问题：具身智能并不是突然进入计算机视觉中心的，而是在机器人学习自身演进到某个阶段之后，必然开始向视觉研究索取更深层的能力。换句话说，CVPR 2026 所呈现出的变化，不是一个会议热点的偶然轮换，而是机器人学习从控制问题、数据问题，进一步演变成世界理解问题后的自然结果。第一个阶段是存在性证明时代。这个阶段的核心问题是：端到端的数据驱动方法到底能不能在真实机器人上工作？强化学习能不能控制机械臂？模仿学习能不能完成抓取？真实硬件采集的数据能不能训练出稳定策略？这一时期的机器人学习还带有很强的“实验室证明”色彩。研究者需要先证明，深度学习不只是能在 Atari、围棋和图像分类中奏效，也能面对真实世界中连续、高维、噪声极强的物理系统。在这个阶段，视觉当然重要，但它更多是机器人系统中的输入模块。机器人需要视觉来感知物体位置、场景状态和外部环境，但机器人学习的主要压力仍然来自控制稳定性、硬件误差、样本效率、数据采集成本和真实环境不确定性。视觉是必要条件，却还不是范式重组的中心。第二个阶段是基础模型时代。随着大语言模型、视觉语言模型和多模态大模型的发展，机器人学习开始发生第一次重要转向。机器人不再只是学习某个单一技能，而是开始吸收互联网规模数据中形成的语义理解能力。它不仅要知道机械臂如何移动，还要理解“把红色杯子放到盘子旁边”这样的自然语言指令；不仅要识别物体，还要理解开放词汇、空间关系、任务意图和人类常识。 SayCan、RT-1、RT-2 这类路线的意义正在于此。它们并不只是让机器人“听懂更多话”，而是让视觉、语言和动作第一次被压进同一个建模框架中：语言给出目标，视觉理解状态，模型生成动作，动作改变世界，世界反馈又回到视觉输入之中。到了这个阶段，计算机视觉和机器人学习的关系已经开始变化。机器人对视觉的需求，不再只是“帮我看见物体在哪里”，而是“帮我理解一个开放世界，并把这种理解转化为行动”。这已经不是传统意义上的视觉模块调用，而是对视觉研究提出了更高层的要求。第三个阶段是 Scaling 时代。也正是在这个阶段，CVPR 的位置变得不可替代。因为一旦机器人学习进入规模化，它需要的基础设施几乎全部与计算机视觉深度绑定：它需要从海量视频中学习人类动作和物体交互，需要用 3D 场景理解支撑空间推理，需要用世界模型预测动作后果，需要通过仿真和合成数据弥补真实机器人数据的稀缺，需要把语言目标映射到视觉状态和动作序列，也需要在长程任务中维持对场景、记忆和目标的持续理解。雷峰网这就是为什么具身智能会在 CVPR 2026 中显得像一次集中爆发。机器人学习早期更像是在解决“能不能让机器人动起来”；基础模型时代开始解决“能不能让机器人理解指令和场景”；而到了 Scaling 时代，真正的问题变成了“能不能让机器人在开放世界中规模化地学习、泛化和行动”。这个问题已经不再是机器人学单独能够完成的，它必须借助计算机视觉在视觉表征、视频理解、三维重建、多模态对齐、生成建模和世界建模上的长期积累。因此，Ted Xiao 的三大时代复盘实际上揭示了这场“范式夺权”的历史条件：只有当机器人学习进入 Scaling 阶段，视觉才会从机器人系统中的外部插件，变成物理智能的底层基础设施。 02 三重「夺权」：问题、标准与路线的重写有了 Ted Xiao 的时间线，再回到 CVPR 2026，很多现象就不再显得孤立。 VLA、机器人操作、移动导航、人形机器人、世界模型、Sim2Real、物理仿真、3D 空间智能和自动驾驶等主题集中出现，并不是多个热点并排爆发，而是同一条范式迁移链路在视觉顶会中的集中显影。过去，CVPR 的很多核心任务可以被理解为从视觉输入到视觉表征的映射：图像到类别，图像到框，图像到 mask，图像到 depth，图像到 3D，视频到事件，文本到图像。具身智能则要求建立一条更长的链路：视觉输入进入语言理解，语言目标进入任务规划，任务规划进入动作生成，动作结果回到视觉反馈，反馈再更新模型对世界的判断。这条链路一旦成为主流，计算机视觉的研究对象就会发生变化。图像不再只是被理解的对象，而是行动决策的起点；视频不再只是时间序列，而是动作、变化和因果后果的载体；三维重建不再只是几何恢复，而是智能体导航、操作和交互的空间底座；生成模型不再只是为了生成逼真的内容，而是要生成可用于训练、预测和评估行动策略的世界。这就是 CVPR 2026 的标志性意义。它不是具身智能第一次出现在视觉顶会中，却可能是具身智能第一次如此清晰地改变视觉顶会的叙事重心。过去，机器人是视觉技术的应用场景；现在，机器人问题开始成为视觉研究重新定义自身的一面镜子。而所谓具身智能的“范式夺权”，正是从这里开始的：它首先改变了计算机视觉的问题定义。传统计算机视觉最常问的是：这是什么？它在哪里？这个场景如何重建？这段视频发生了什么？这些问题共同指向一个目标：让机器更好地表征世界。具身智能把问题改写了。一个机器人看见桌上的杯子，任务并不会停在“识别这是杯子”。它还要判断杯子的重心、材质、杯柄朝向、可抓取区域、周围障碍物、机械臂运动路径，以及拿起之后世界状态会如何改变。也就是说，具身智能真正问的是：我能对它做什么？这一步改变了视觉研究的底层对象。物体不再只是类别标签，而是可抓取、可推动、可打开、可阻挡、可支撑的实体；空间不再只是几何结构，而是可导航、可探索、可交互的任务场；视频不再只是时间序列，而是动作、变化和因果后果的线索。问题一旦被改写，评价标准也会随之变化。传统视觉的成功大多建立在离线数据集上：分类看准确率，检测看 mAP，分割看 IoU，重建看误差，生成看保真度和语义一致性。具身智能带来的标准更苛刻：模型“看对了”并不等于任务成功。机器人识别出了杯子，但抓取失败，视觉理解仍然不够；模型重建出了房间，但机器人无法安全导航，空间表征仍然不够；视频生成看起来逼真，但不能预测动作后果，世界模型仍然不够。所以，具身智能把评价标准从“输出是否正确”，推向“行动是否有效”。计算机视觉过去可以在视觉空间内部自洽，现在则必须接受物理世界的检验。当问题定义和评价标准都发生变化，方法路线也会被重写。VLA 模型之所以重要，并不是因为它把 Vision、Language、Action 三个词放在一起，而是因为它重建了智能系统的基本接口：人类用语言表达目标，机器人通过视觉理解当前世界，再把语言目标和视觉状态转化为动作序列。世界模型和物理仿真解决的，则是行动之前的后果预测。机器人拿起杯子，桌面状态会改变；推开箱子，路径可达性会改变；打开抽屉，新的物体会出现。如果视觉模型不能推演这些变化，它就很难支撑规划。 3D 空间智能也因此被重新赋予意义。过去，三维重建关注几何是否准确、纹理是否真实；现在，具身智能要求三维世界是可行动的：哪里能走，哪里能抓，哪里会撞，哪里需要探索。这就是具身智能对计算机视觉方法路线的重写。它把视觉模型从“感知器”推向“行动系统的一部分”，把 3D 从几何恢复推向空间决策，把视频生成从内容合成推向物理预测，把多模态模型从视觉问答推向任务执行。而学术范式的变化，最终还需要产业现实来确认。过去，计算机视觉的产业化多发生在相对可控的感知和内容场景中。安防识别、工业检测、自动驾驶感知、手机影像和 AIGC，都可以在一定程度上把视觉输出作为独立结果来使用。但机器人不同。机器人要求视觉结果直接进入行动链条。模型不能只是“看起来理解了”，它必须把货箱搬起来，把零件放到位，把路线走通，把门打开，把错误恢复过来。这使得视觉模型的错误成本发生了变化。一次识别错误可能导致抓取失败，一次空间误判可能导致碰撞，一次物理预测错误可能让策略失效。因此，产业需要的不是单点视觉能力，而是一整套面向物理世界的视觉基础设施：稳定的 3D 世界表征、低延迟动作生成、高质量机器人数据、可交互仿真环境、可靠的 Sim2Real 迁移，以及失败后的恢复机制。只要 AI 继续从屏幕走向物理世界，计算机视觉就必然从“感知模型”走向“行动基础设施”。这也是具身智能夺取范式解释权的现实基础。 03 从开放世界之桥，到物理智能底座回到 2017 年 IROS 的历史现场，李飞飞的出现象征着机器人学界对视觉智能的主动拥抱。那时，机器人如果要进入开放世界，就必须借助视觉理解对象、场景和人类意图。视觉是机器人通往开放世界的一座桥。而现在 CVPR 2026 的具身智能热潮构成了另一个历史镜像：机器人问题开始反过来迫使计算机视觉重新理解自身。没有视觉，机器人无法理解开放世界；但没有行动，视觉智能也很容易停留在描述世界的层面，无法证明自己是否真正理解世界。这就是“从座上宾到主战场”的真正含义。它不是机器人取代计算机视觉，也不是 CVPR 变成机器人会议，而是具身智能夺取了计算机视觉的范式解释权。它重新定义了什么是重要问题，什么是有效方法，什么是成功结果，也重新定义了视觉智能必须面对的世界。雷峰网过去，计算机视觉的核心是让机器看见世界；后来，它变成让机器理解世界；现在，具身智能正在要求机器进入世界。看见是感知，理解是表征，行动才是对理解的最终检验。

雷峰雷峰网更新于 4小时前1 分钟阅读

🤖 AI AI 摘要 & AI 点评

⟳ AI 正在分析这篇文章…

本文仅展示摘要与 AI 分析。完整原文请点击上方“阅读原文”访问来源网站。