科技

硬氪专访 | 智源研究院院长王仲远：VLA不会死，但世界模型是未来

作者 | 邱晓芬编辑 | 袁斯来过去几个月，“世界模型”（World Model）从学术黑话迅速膨胀成AI和机器人行业里的关键词。行业的目光转向背后是切实的焦虑。一方面，经过了过去两年的野蛮生长，具身智能暴露了当前AI在物理世界中的短板——机器人能识别物体，却不懂“推杯子会掉”；能听懂指令，却无法预判“拧瓶盖需要多大的力”。世界模型正是试图补上这个短板，让机器人学会物理世界的规律、因果。也就是说，世界模型与具身智能的关系，本质上是“大脑”与“身体”的关系。另一面，大模型在经历了大语言、视觉模型、多模态的探索之后，需要从虚拟走向真实世界的下一阶段。只是，当资本、技术专家、产业资源都倾注于此，世界模型到底如何上岸，人们没有答案。在智源研究院院长王仲远看来，眼下全球围绕世界模型的探索，正被撕扯成四条截然不同的分岔路—— 第一类是以语言为中心的世界模型，包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果；第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成类模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型，不过模型重建3D空间不等于理解世界，几何结构也不代表物理状态；第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。智源研究院院长王仲远（图源/企业）作为一家非营利性科研机构，北京智源人工智能研究院同样也是目前国内世界模型领域的中坚力量。不同的是，智源研究院目前尝试的确是第五个分类——以语言和视觉为中心，融合进统一的「潜空间表征」：所有模态被压缩进同一个潜空间（latent space）仲，再由不同的"解码器”（Decoder），按需还原成不同输出形态。举个例子，这个“潜空间”就像给机器人大脑准备了一张“万能草稿纸”，不管是看到的视频画面、听到的文字指令，统统先在“纸”上压缩成一种只有AI能懂的“密语笔记”，等需要时，机器人将会根据同一份笔记，画出接下来的场景，演出机器人的动作，或者算出物体的位置和力度。在迈向世界模型进的前几年，智源研究院在AI上的动作，就像是一部层层递进的"连续剧",一步步构建从数字世界走向物理世界的通用基座—— 从早年的"悟道"大模型，智源研究院将国内大模型叙事从0推到公共视野，再到逐渐把竞争点引导向原生多模态统一架构（包括悟界·Emu3/悟界·Emu3.5），此后，智源研究院明确提出要向“下一状态预测（NSP）”跃迁，并将这套逻辑接入悟·Physis和悟界·RoboBrain Orca的可部署系统中。在这段期间，智谱AI、月之暗面、面壁智能、银河通用等多家行业头部企业的核心创始人唐杰、杨植麟、刘知远、王鹤等，也都均在智源开展过相关领域研究。尽管世界模型热得滚烫，王仲远却对这股热潮保持着难得的冷静。他认为，世界模型大概处在深度学习的2012年前后——彼时，数据孤岛严重、路线未定、Benchmark还在打架，ChatGPT时刻尚未到来。在他看来，世界模型接下来的硬仗，在于几个维度的综合比拼。首先，模型不能只生成看起来真实但不符合真实物理规律的画面，比如只是生成“会飞上天的猪”，还要具备长时序一致性，不能不是几秒钟的视频，而是连续变化的状态。其次，世界模型必须进行因果逻辑推断，需要理解动作和结果之间的关系，比如，要明白盖盖子和没盖子的杯子同时掉落时，会发生什么。最后，世界模型需要作为基座模型应用到多种场景，而不是只服务某个Demo或单一任务。落到应用侧，在他看来，世界模型的价值会在两大大方向兑现，除了用于突破具身智能的卡点，服务于机器人领域之外，世界模型还可以广泛应用于严肃工业、物理仿真、科学研究等真实物理场景。 “我们期待未来世界模型能成为真正的机器人大脑，世界模型解决了现在VLA、VLM解决不了的问题，提供了泛化、长程、复杂任务和主动探索能力。但这会是一个长期过程，可能需要三年甚至更长时间。”王仲远表示。近期，王仲远与硬氪等媒体聊了聊对世界模型的看法、以及世界模型与具身智能的衔接点，以下是采访实录（略经摘编）：世界模型四条分岔路硬氪：为什么今年智源大会重点谈“世界模型”，它和过去的大模型路线是什么关系？王仲远：我们不是突然提出世界模型这个概念。早在2024年智源大会上，我们就对人工智能的发展路径做过预判：大语言模型之后，会进入原生统一多模态，再进入物理世界与硬件结合，进一步走向微观世界的AI for Science，最终通向物理AGI。今年智源大会有两大主题，一个是世界模型，一个是智能体。智能体现在非常热，尤其是AI Coding已经进入蓬勃爆发阶段；世界模型则是我们认为人工智能从数字世界进入物理世界时必须面对的下一代基座模型问题。硬氪：当前世界模型有哪几条技术路线？王仲远：现在主流的有四条路：以语言为中心路线（如Gemini3）：能感知多模态数据，通过语言思考并描述下一状态，具备规划决策能力。以像素为中心路线（如Sora）：适合视频生成，但不懂物理因果；以三维结构为中心路线（如李飞飞World Labs的Marble）：瞄准元宇宙、游戏等数字世界仿真；以视觉表征为中心路线（如LeCun的V-JEPA系列）：预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。硬氪：智源的世界模型可以归类于什么路线里？王仲远：我们更倾向于在潜空间中学习世界知识，也就是Latent Relation，尝试把世界知识真正压缩到隐空间中，再通过不同Decoder输出Language、Action和Vision。智源选择尝试以语言为中心的分类和以视觉表征为中心的分类可能的融合，原因很简单，世界模型不仅要“看懂”物理世界，更要“理解”并“决策”。比如人类看到半杯水被打翻，大脑会自动预判“水流方向、地面材质对流速的影响”——这种能力需要将视觉信号与语言推理深度融合，而不是只生成画面。我也认同LeCun对“大语言模型局限性”的判断，但我并不认为语言模型不重要，语言是人类知识的载体，放弃语言等于放弃了人类积累的物理常识。硬氪：现在很多公司把视频生成模型称为世界模型，你怎么看？王仲远：我非常明确地认为，视频生成不等于世界模型。现在世界模型这个词被广泛使用，很大程度上是因为OpenAI发布Sora时用了“World Simulator”的表述。世界模拟器用于描述视频生成还算相对准确，但视频生成模型本身并不等同于世界模型。今年很流行的World Action Model，把视频和Action拼接起来，也不能完全代表真正意义上的世界模型。在我看来，真正的世界模型应该是面向真实物理世界的下一代基座模型。它不是单纯生成一段看起来很逼真的视频，而是要理解真实物理世界的状态变化、动作因果、长时间序列一致性和泛化能力。语言模型时代的核心是Next Token Prediction，也就是预测下一个词元。而世界模型时代的核心应该是Next Physical State Prediction，预测下一个物理状态。语言模型可以用Prompt激发能力，世界模型则需要用State激发能力。语言模型更多是被动观察，世界模型必须主动交互。语言模型可以是单模态或多模态，世界模型必须走向全模态。硬氪：一个真正面向物理世界的世界基座模型，需要具备什么能力？王仲远：我认为至少需要几个能力。第一，要物理正确，光学折射、重力、流体、物体运动都要符合真实物理规律。视频生成模型可能生成一群在天上飞的猪，但物理世界不会这样运行。如果机器人装上一个不能区分真实和虚幻的“大脑”，它可能误以为自己是钢铁侠，这会带来严重风险。第二，要有动作因果可溯。模型不能只知道画面变化，还要知道Action会导致什么结果。比如，一瓶水有没有盖盖子，当人类看到它快掉落时，自然会预判不同后果，世界模型需要把这种动作与后果之间的关系学进去。第三，要有长时间序列一致性。很多视频生成模型可以生成5秒、10秒甚至1分钟的视频，但并不代表它真正理解时间。如果给一个瓶子加水，旁边有一个时钟，镜头移开再移回来，模型要知道现实中确实经过了10秒或20秒，而不是随意生成一个看似合理的画面。第四，要有通用泛化能力。世界基座模型必须能应用在多个下游场景，就像大语言模型可以用于很多任务一样。它不能只是一个特定场景的工具，而要能服务具身、物理仿真、科学预测等多种任务。世界模型或成为真正的机器人大脑硬氪：当前具身智能最大的问题是什么？王仲远：我认为具身智能还处在非常早期。现在的具身模型多数还是单场景、被动任务执行者。它们可以在特定工厂、特定任务、特定数据下工作，比如看到包裹就执行抓取、分拣、放置。这类场景中，VLA或者更简单的模型都可能有效。但问题在于，它们很难泛化。真实物理世界是复杂的，有时间、空间、物理规律，也有人类创造的各种工具和环境变化。机器人如果只是被动执行指令，靠一个场景一个场景解决问题，就很难真正大规模落地。我认为，世界模型和具身智能是相互呼应的。具身智能暴露了当前模型在物理世界中的短板，世界模型则试图补上这个短板。硬氪：现在也有一些论调称，“VLA已死”，世界模型是不是具身智能的必要路线，两者的关系是什么？王仲远：我的判断是：VLA是当下，世界模型是未来。 VLA当然有用，而且有很大用处。它可以促进机器人在特定场景落地，甚至有些特定场景不一定需要更复杂的世界模型，只要看到包裹就执行动作，搜集特定数据就可以完成任务。但VLA有局限，比如泛化性不足，其次是长程任务、复杂场景和空间物理规律理解能力不足。再者，VLA模型往往比较大，部署响应速度和Latency较高，不一定能满足真实物理世界中高频动作执行的要求。世界模型要解决的是更底层的问题。硬氪：世界模型对机器人执行任务的帮助，能否举一个具体的例子？王仲远：世界模型不应该只是生成数据，也不只是生成视频。它更重要的能力是基于当前Context和状态，预测未来可能发生的状态，并据此做出当下最优决策。可以用一个比喻来理解，有点像《奇异博士》看到不同未来，然后选择最优结果。机器人面对真实环境时，也需要类似能力。它要理解当前环境，预测不同动作会带来什么后果，再选择最合适的动作。比如机器人在酒店或家庭环境中，看到一个门、一只手势、一个声音指令、一个房间状态，它需要结合历史记忆和当前Context做出判断：是关厨房的门，还是关房间的门，还是采取其他动作。这不是简单的图像识别，也不是简单的语言指令执行，而是复杂推理后的物理决策。这就是我们说的世界模型要指挥Agent物理实体执行Action。执行之后，还要继续采集反馈，评估任务是否完成，并进入下一轮状态预测和决策。硬氪：世界模型最终是否会成为真正的机器人大脑？王仲远：这是我们的期待。我们希望未来的世界模型能够在具身场景下真机部署，解决VLA、VLM和传统动作执行无法解决的问题。机器人需要有泛化能力、长程任务能力、复杂推理能力、主动探索能力。它不仅要能看懂世界，还要能理解动作后果，规划未来状态，指挥机器人执行动作，并根据反馈修正决策。这件事不会短期完成。世界模型是一个长期过程，瞄准的不是短期落地应用，而是下一个人工智能时代的核心能力。短期内，具身机器人会先在具体场景中落地，采集数据，形成闭环；长期看，世界模型有机会成为真正意义上的机器人大脑。硬氪：世界模型现在最难突破的技术难点是什么？王仲远：一个核心难点是数据，尤其是真实物理世界的数据。大语言模型的爆发依赖互联网数据。世界模型要进入物理世界，也需要足够多、足够高质量的真实物理数据。现在真实世界数据仍然非常缺乏，而且是散落的孤岛，没有形成足够充足、可复用、可训练的数据体系。视频数据是目前最容易Scale Up（规模化）的数据，因为它海量存在，也确实包含大量真实物理世界的信息。但问题在于，现在科研技术还没有充分挖掘视频数据里的物理信息。除了视频，我们还需要真实交互数据、异构感知数据、动作轨迹数据、人类指令数据、机器人执行反馈数据。具身机器人在真实工厂、酒店、家庭等场景中工作时，会产生大量有价值的数据，这些数据闭环可能会加速世界基座模型的训练和爆发。硬氪：如果真实物理世界数据不足，是否可以依靠仿真数据？王仲远：仿真数据有必要，能弥补真实数据采集不足，但我对完全依赖仿真数据构建更强模型是有疑虑的。因为仿真数据本身是人类构造的，它的精准度不一定足够，如果用不够精准的海量数据训练模型，能不能构建出真正理解物理世界的模型？这是需要验证的。未来可能会像语言模型训练中的数据配比一样，把互联网数据、视频数据、仿真数据、真实机器人数据、科学数据等，放在一起训练世界基座模型。但不同数据如何配比，现在还没有标准答案，数据质量和配比会直接决定模型能力，这很大程度上仍然依赖研究员的判断、实验和下游任务验证。最直观的验证方式就是具身智能，模型真正部署到机器人上，能不能在训练数据之外完成任务，能不能在复杂场景中做出合理决策，这些会成为判断数据和模型能力的重要标准。硬氪：如果世界模型还很早期，具身智能短期如何落地？王仲远：短期内，具身智能会沿途下蛋，也就是先解决具体场景问题，比如工厂分拣、打包、贴纸、放充电器、合上盖子，或者酒店服务等To B场景。这些场景本身有商业价值，也能在落地过程中采集数据。机器人在真实场景中干活，会产生人类指令、人类交互、动作轨迹、任务结果等数据，这些数据反过来会帮助未来世界基座模型训练。所以我们不能等所有数据都Ready之后再探索技术路径，技术要先行，产品和系统会跟上。就像深度学习、Transformer、大语言模型的发展一样，技术路径往往早于产品爆发。世界模型尚未到GPT时刻硬氪：世界模型最可能率先落地在哪些场景？王仲远：具身智能肯定是最重要的应用场景之一，除此之外，世界模型也可以用于物理仿真、科学实验、AI for Science等场景。现在的很多模型无法解决这些真实场景中的问题，归根结底，我们希望有一个面向真实物理世界的基座模型，帮助人工智能更好地感知、理解物理世界，并具备推理和决策能力。硬氪：如果类比大语言模型的发展阶段，世界模型现在处于什么阶段？王仲远：我认为世界模型和具身智能大概处在2012年的时期。那个时候深度学习刚刚兴起，从2012年到2018年，再到2022年底ChatGPT发布，大语言模型真正爆发走了大约十年。现在世界模型还没有到GPT时代，因为数据非常缺乏，技术路线也没有完全收敛。但人工智能演化速度越来越快，世界模型可能三年到五年，随着视频数据进一步被挖掘，具身机器人不断在真实场景落地，真实物理世界数据不断累积，世界模型会更快进入爆发阶段。硬氪：大语言模型时代，中美通常被认为有六到十二个月差距。世界模型时代，中国和海外是否还有差距？王仲远：大语言模型早期，我们更多是在跟随。世界模型是世界上最前沿的研究方向，概念、路线、模型形态都还没有完全收敛。我觉得世界模型没有差距，大家站在同一起跑线。硬氪：未来世界模型的竞争会集中在哪些方面？王仲远：现在大家都说自己在做世界模型，但很多所谓世界模型其实是工具，或者是解决特定场景的模型，并不一定是通用世界基座模型。未来真正关键的竞争点，我认为包括几个方面：第一，能否具备真实物理可验证能力。模型不能只生成看起来真实的画面，而要符合真实物理规律。第二，能否具备长时序一致性。真实世界不是几秒钟的视频，而是连续变化的状态。第三，能否进行因果逻辑推断。模型需要理解动作和结果之间的关系。第四，能否作为基座模型，用不同数据微调后应用到多种场景，而不是只服务一个Demo或一个垂直任务。我认为世界模型最后一定需要通过系统和产品来证明。只有当它能在机器人、物理仿真、科学实验等真实任务中体现价值，行业才会逐渐收敛对世界模型的定义和路线判断。硬氪：过去大模型积累的基础设施能否复用？世界模型对算力等等，有什么新的要求吗？王仲远：我比较乐观地认为，现有的大模型算力基础设施、训练框架、数据工具链都可以在很大程度上复用。悟界Emu3.5当时强调的一个理念，就是采用类似大语言模型的架构，并证明它能够Scale Up。到了世界模型阶段，依然需要处理声音、图像、动作轨迹、语言等各种模态，这些在多模态和具身领域已经有基础。但是，新的挑战在于Action和State怎么采集、怎么表达、怎么训练。世界模型会带来新的需求，但基础设施并不是完全从零开始。首页图源｜企业供图排版｜范馨雅 end

36 36氪更新于 10小时前1 分钟阅读

🤖 AI AI 摘要 & AI 点评

⟳ AI 正在分析这篇文章…

正在拉取原文正文，下次刷新即可看到完整段落。当前仅展示摘要与 AI 分析。