科技

对话灵初智能王启斌：「操作才是皇冠上的明珠，移动只是入场券」

具身行业的两年预判与灵初的小全栈赌注。作者丨齐铖湧编辑丨马晓宁你有没有发现，2026年的具身智能赛道，很多公司都在考虑中途换帆。从人形到轮式、从物流到家庭，大量创业公司在技术路线和场景选择上反复横跳，仿佛谁先调头谁就能活下去。在此背景下，AI 科技评论希望找到具身赛道里的“笃定派”。灵初智能进入了我们的视野。这家具身公司在过去一年半时间里，累计融资超20亿元，国家队资本密集进入，估值一年涨六七倍。2026年5月7日，摩根士丹利发布《Humanoid Horizons: Money Meets Machines》，在其"中国-人形机器人价值链"图谱中，灵初智能作为"Brain（大脑）"板块的关键一员被列示。在我们看来，除了00后天才少年陈源培的光环加持，灵初智能还有一个非常稀缺的特点：这是一家从第一天起就锚定方向做轮式底盘加双臂通用灵巧操作的公司。坚持追求灵巧操作，这种笃定在今天的具身赛道非常稀缺。这份“笃定”最初来自灵初智能创始人兼CEO王启斌的判断，我们就此话题跟他聊聊他眼中的具身赛道。王启斌从黑莓手机做到Sonos音箱，从云迹科技的室内配送机器人做到京东的L4无人车，2024年9月创立灵初智能。"2018年我选择机器人赛道时，就想找一个面向未来的十年长赛道。"王启斌说，"但现在看来，这个行业的变化速度比我想象的还快。但在快速变化中，他始终认为，操作才是皇冠上的明珠，移动只是入场券。在这场对话里，他会分享具身赛道的真实创业经历，数据飞轮的行业真相、具身大脑的生死命题，以及行业终局判断。以下是王启斌与 AI 科技评论的对话，经编辑整理： 01 操作才是皇冠上的明珠，移动只是入场券 ▎AI 科技评论：你最早在黑莓做智能手机，后来做Sonos音箱，再到云迹和京东无人车，2024年创立灵初。这条路径看起来是从消费电子到移动机器人，再到具身智能。2018年你为什么笃定机器人是下一个十年赛道？王启斌：2008年从乔治华盛顿大学回来后，前十年我一直在做消费品。在黑莓时正值智能手机转折期，后来做Sonos是全球第一家智能WiFi音箱。那个年代我们主要做全球公司在大中华区的产品负责人角色。 2010年前后是移动互联网兴起，智能手机因为有巨大传感器和云平台，端侧能力爆发，产生了APP生态。音箱是个小波浪，当时大家想做成Voice VUI，但NLP比较弱。我在看下一个终端形态时，觉得机器人是一个可移动的终端，很有意思。 2018年加入云迹科技，那时候行业基于SLAM技术做移动能力。后来去京东做L4无人车，从室内延伸到室外三维空间。2020年底看到ChatGPT出来后，我们预判模型能力会不停迭代，具身智能会有新机会。2024年成立灵初，从一开始聚焦的就是操作，人形从来不是我们最关注的。 ▎AI 科技评论：2024年行业都在追人形机器人，你们为什么反而选择轮式+双臂？王启斌：2024年我们做融资BP时画了一个图，综合移动能力x操作能力看，当时存量市场有云迹，高仙等主打移动能力，也有具身这波特斯拉和宇树，这样主打"移动+人形"，我们定位在"移动+双手操作"方面。任何一个移动的机器人，如果不能闭环去做任务操作，它一定无法解决客户需求里最重要的那部分。这是我在云迹和京东最大的教训。我们把机器人的移动能力，从酒店走廊拓展到了城市道路，从室内延伸到了户外，但只要它不能用手完成最后一步，任务就始终停在“运到”，而不是“做到”。所以2024年10月我们就预判，主流解决方案形态应该是轮式加双臂，操作价值远高于移动。直到今天，我们依然坚持这个判断。 02 我们对数据的洞察很深，纯视频数据很难做好后续工作 ▎AI 科技评论：你们去年在世界人工智能大会上展示了打麻将、商超打包这些长程任务，成功率很高。但今年4月发布的Psi-R2和Psi-W0，技术路线似乎从VLA转向了世界模型。这个转变是怎么发生的？王启斌：我们是国内最早做长程灵巧操作的。去年展示打麻将、商超打包，是长程任务在语义层面做理解和规划，主要靠语言模态。但今年我们看到，如何把人类数据揉进去，如何在时空关系中做任务推理，世界模型很有优势。今年4月发布的Psi-R2是策略模型，学"这件事该怎么做"；Psi-W0是动作条件型世界模型（AC-WM），推演"换种做法会怎样"。Psi-W0在训练中加入了约30%的失败样本，让模型不只学习成功轨迹，也理解失败如何发生。 ▎AI 科技评论：架构上，Psi系列和之前的VLA是什么关系？替代还是融合？王启斌：主要是替代了旧的VLA架构。但从输入输出看，它们本质可以交互——输入有视频、语言、机器人状态，输出有机器人动作和对未来状态的预测。我们现在的架构是基于10万小时人类数据预训练的World Action Model（WAM），这在行业里正成为共识性技术路线。 ▎AI 科技评论：10万小时人类数据是怎么采的？行业里有仿真数据、遥操作数据、UMI夹爪数据，你们为什么坚持自研手套采人类五指数据？王启斌：去年下半年开始，我们自研穿戴式多模态数据手套，在北京建了数据工厂。手套捕捉视觉、触觉、关节角，3D轨迹精度达亚毫米级。这里有个对数据的洞察能力。人类数据是个金字塔：纯第一人称视角视频容易出现遮挡，多摄像头又很难搬到真实场景。更重要的是，纯视频数据精度不够。有人说纯视频能做到毫米级，但那更多是偏静态的、很慢的动作。操作有很多高频节拍非常快，基于视频的东西在这么高动态情况下，怎么做到毫米级？我们加了关节角和触觉，做到亚毫米级数据。原来模型能做的事，现在涌现出来的能力更强。比如叠纸盒子，每次折叠形变都不一样；手机盒铰链、微波炉处理，基础模型能力明显不同。 ▎AI 科技评论：成本呢？10万小时听起来很贵。王启斌：通过手套采集的综合成本，可以降至真机遥操作方案的十分之一。我们计划推出便携式众包版本，让成本进一步下降。今年和明年，数据采集系统包括云端服务，是灵初很重要的商业化方向。 03 我们既做模型，又做整机，是被“逼”出来的 ▎AI 科技评论：你们定位是通用灵巧操作的模型公司，但为什么又做整机PsiBot V1？行业里很多公司要么做纯算法授权，要么做本体硬件，你们怎么想的？王启斌：我们叫"小全栈"，不做移动，不碰核心零部件，但做整机设计和全栈软件。这个选择是被“逼”出来的。我们买过一些整机硬件，发现底层软件不开放，控制方式对我们强化学习不友好，很难做到系统最优。具身模型和语言模型完全是两回事。语言模型跑在标准化的服务器上，硬件底层是统一的；但具身模型必须直接操控物理世界，从算法到真机之间，隔着巨大的物理动态鸿沟（dynamics gap）。不同机器人的关节结构、传感器分布、质量惯性全都不一样。换句话说，在这个行业，连打造一台软硬件深度耦合的专用整机（类似iPhone模式）都极富挑战，更遑论让同一个foundation model像安卓那样去适配成百上千种形态各异的硬件。所以一两年内，我非常看衰纯算法授权这种模式。 ▎AI 科技评论：但做整机很重。王启斌：我们硬件是定制后找代工，软件全栈自研。因为训模型出身，我们对数据的洞察很深，知道为什么纯视频数据很难做到后面这些东西。这是灵初最核心的定位。我们锚定在通用灵巧操作的模型公司，但因为要训模型，所以知道数据怎么采；因为采数据，所以知道整机怎么看透。 ▎AI 科技评论：怎么看今年上半年的具身市场？出货量好像越来越往头部集中，您觉得具身行业该如何卡位？王启斌：出货量集中说明行业到了决赛圈，但现在的竞争本质还是全栈竞争。大家比拼的是整套系统能不能跑通，成功率、节拍、能不能稳定工作一整天。模型、数据、硬件形态现在还是深度绑定的，谁也解不了耦。（雷峰网）这也是我们坚持"小全栈"的原因。灵初本质上是一家通用灵巧操作的模型公司，但我们必须对整机有穿透力。因为模型是我们自己训出来的，所以我们知道纯视频数据为什么不够、为什么需要亚毫米级的关节角和触觉；反过来，数据的采集又让我们对硬件该往哪走看得很透。从2026年往回看，很多硬件基因很强的团队，在模型侧和数据侧反而缺乏这种从训练里长出来的体感。但我预判，这种"每家都必须做全栈"的状态大概还会维持两年左右。两年后行业会慢慢分化：有人专门做本体代工，有人深耕运控，有人做操作模型和系统集成，生态位重新分层。到那时候，灵初的位置会很清楚：我们是做通用灵巧操作的模型公司，手里握着从数据采集到模型训练的全套能力，只做轮式加双臂这个形态，把操作这件事做透。 04 家庭场景泛化太难，工业流水线节拍太快，我选中间态 ▎AI 科技评论：你们为什么不做家庭场景？今年很多创业公司都在拼命切入这个赛道。王启斌：家庭场景泛化性要求最高，但节拍可以慢；工业流水线泛化性最弱，但节拍最快。我们选的是中间态：物流、零售、服务场景，泛化性适中，节拍适中。家庭要做到很通用，还是比较挑战，得拆细了看。工业场景我们也在看3C和汽车，但纯流水线的节拍算账很难。 ▎AI 科技评论：今年以来很多智驾背景的公司也在切入具身，对比你做L4无人车的时间点，他们比你转向晚了近两年，你有什么具身心得可以跟他们分享？王启斌：智驾有更大市场，但具身比智驾更复杂。智驾的核心是让机器在结构化环境里跑起来，无论是从酒店走廊还是城市公开道路。从智驾转过来，有个最大的惯性是觉得"底盘和感知我搞定了，具身不就是加个机械臂吗？"这个认知陷阱很深。车的线控底盘是相对标准的，一个车型平台可以跑几十万辆车，传感器布局、质量惯性、控制接口都是固定的。但具身智能面对的是完全不同的物理世界，是上半身操作，一个灵巧手就有二十多个自由度，双臂协同加上轮式底盘，整个系统五六十个自由度。你在智驾里训练的那个模型，处理的是路面上的预测和规划；到了具身，你要处理的是软体变形、铰链开合、接触力控，这些dynamics gap比车与车之间的差异大一个数量级。 ▎AI 科技评论：感悟和建议呢？我的第一个感悟是：不要低估从"移动智能"到"操作智能"的鸿沟。你在智驾积累的数据管线、仿真能力、车队运营经验，确实可以复用一部分，但物理交互的复杂度完全不同。我们去年开始自研多模态数据手套，就是因为发现纯视觉数据在动态操作精度上根本不够用，智驾的摄像头可以拍清楚一百米外的车道线，但机器人叠一个纸盒子，需要亚毫米级的关节角和触觉反馈，这是两套数据逻辑。第二个感悟是时间窗口的残酷性。我在京东做无人车时，那波L4配送的战争基本上已经打完了，头部格局很清晰。具身这波不一样，它还在早期，但窗口期比智驾更短。因为大模型爆发得太快，2024年大家还在争论VLA路线，2025年已经在卷世界模型和人类数据了。如果你还带着智驾的周期思维，先花两年打磨硬件平台，再花两年上算法，等你的整机ready，模型范式可能已经换了两代。第三个感悟可能更直接，上来不要想做通用平台。具身领域，模型和硬件的耦合深度远超自动驾驶。灵初选择做"小全栈"，只做轮式加双臂，不碰核心零部件，但整机设计和底层软件全自己抓，就是为了能跑快速跑强化学习做验证。所以要给建议，就是先找一个窄切口扎进去。智驾的市场逻辑是赢家通吃，因为道路是标准化的，具身的市场逻辑是垂直深耕，先把一种硬件形态、一类操作任务做闭环，比做一个"适配所有机器人的安卓系统"要务实得多。操作才是具身皇冠上的明珠，移动只是入场券。在操作上，我们很快会在工业客户现场看到更真实的验证。 ▎AI 科技评论：你们今年还有什么计划？王启斌：六七月份，会发基于更大几十万小时数据的模型，做更长程、更泛化的任务。年底会做到类似π0.7的语言操控能力，你给机器人一句很粗放的自然语言，它就能做很长程的任务，而且会出现没见过场景中自己涌现的技能组合。这既是技术秀肌肉，也是服务产业的真实需求，普通人能操作了。 ▎AI 科技评论：这需要多少数据？王启斌：我们今年目标是百万小时级人类数据。通用操作能力的涌现需要百万小时起步，亿小时级是终极目标。（雷峰网）

雷峰雷峰网更新于 11小时前1 分钟阅读

🤖 AI AI 摘要 & AI 点评

⟳ AI 正在分析这篇文章…

正在拉取原文正文，下次刷新即可看到完整段落。当前仅展示摘要与 AI 分析。