Technology

刷新权威榜单SOTA！ACE-Ego 解锁“以人为中心”的规模化具身模型训练新范式

近日，大晓机器人联合香港中文大学多媒体实验室（CUHK MMLab）正式发布全新“一脑多型”具身操作VLA模型 ACE-Ego，并向行业开源。作为“以人为中心”ACE 研发范式在具身模型预训练的核心落地成果，ACE-Ego提出大规模第一视角人类视频与多型机器人数据高效联合预训练的新范式，在两大国际权威具身智能基准上双双领先，并在复杂零售场景中展现出强泛化落地能力，为具身操作模型的规模化演进开辟了全新路径。在国际公认的人形机器人操作基准 RoboCasa GR1 TableTop 上，ACE-Ego 以72.8%的平均成功率刷新当前最高纪录，夺得榜首，大幅超越英伟达 GR00T、PI π₀.₅、京东JoyAI-RA 等主流模型；在高难度双臂操作基准 RoboTwin 2.0 的强域随机化测试中，ACE-Ego 以90.62%的成功率展现出远超行业平均水平的环境鲁棒性。 2025年12月，大晓机器人提出“以人为中心（Human-centric）” 的ACE具身研发范式，将人类与物理世界的互动规律作为核心研究起点，构建了一套从“环境式数据采集—开悟世界模型3.0—具身交互”的全链路技术体系。源于对 “以人为中心” ACE 范式的深度践行，不同于行业传统 “以机器为中心”、依赖大批量高成本真机遥操作数据的路线，ACE-Ego 将海量低成本的第一视角人类视频转化为可用于模型训练的有效监督信号。通过统一相机空间动作表示、统一本体形态编码、时间对齐动态分块、可靠性自适应目标函数四大核心机制，它系统性破解了人与不同型号机器人数据在空间坐标系、本体结构、时序频率、标签质量上的四重异构难题，实现使用大规模高质量人类第一视角视频与数千小时多机型机器人数据的协同训练。实验结果证实了大规模第一视角人类视频能够有效提升VLA模型预训练和下游适配能力：在 RoboCasa 基准上，引入第一视角人类视频进行联合预训练，相比于仅使用机器人数据进行预训练，模型成功率从 68.3% 提升至 72.8%，实现了4.5%的显著性能跨越。充分证明了“以人为中心”的大规模数据预训练对提升具身模型泛化能力的巨大价值。目前，ACE-Ego 已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期、强接触的复杂零售操作，覆盖商品整理、打包履约等典型线下零售环节，突破了此前模型仅能完成简单桌面抓取的能力边界，为具身智能走向产业规模化落地提供了高性价比的技术方案。刷新两大国际具身智能基准，全面领跑通用操作模型 ACE-Ego 在RoboCasa GR1 TableTop 与 RoboTwin 2.0 两大国际权威具身智能基准上取得SOTA成绩，显著超越英伟达 GR00T、PI π₀.₅、京东JoyAI-RA、蚂蚁灵波LingBot-VLA、高德ABot-M0、小鹏DIAL等多款主流通用机器人模型。在 RoboCasa GR1 TableTop 人形桌面操作基准上，ACE-Ego 实现72.8%的平均成功率，大幅刷新榜单纪录。该基准基于 GR1 人形机器人平台设置 24 项典型家庭任务，涵盖18项抓取放置重排与6项铰接物体交互，是衡量人形机器人通用操作能力的核心标尺。测试结果显示，ACE-Ego 较第二名小鹏DIAL模型（70.2%）任务成功率提升 2.6%，较英伟达 GR00T-N1.6（47.6%）提升达25.2%，同时全面领先京东JoyAI-RA（63.2%）、高德ABot-M0（58.3%）、FLARE（55.0%）等主流模型。性能增益覆盖抓取放置、铰接操作全品类任务，其中盘子叠放、托盘移锅等任务成功率突破98%，证明其能力提升来自框架底层优化，而非特定任务过拟合。在 RoboTwin 2.0 双臂操作基准中，ACE-Ego 同样稳居VLA类模型榜首，展现出极强的环境鲁棒性。该基准包含50项覆盖抓取、放置、工具使用、双臂协同的复杂任务，设置干净场景（Easy）与强域随机化场景（Hard）两种模式，其中 Hard 模式随机改变光照、纹理、物体位置等条件，高度模拟真实世界不确定性。 ACE-Ego 在 Easy 模式下成功率达 91.12%，Hard 模式达 90.62%，超越腾讯混元Hy-VLA（90.9%/90.1%）、京东JoyAI-RA（90.48%/89.28%）、蚂蚁灵波LingBot-VLA（88.56%/86.68%）、PI π₀.₅（82.74%/76.76%）、生数Motus（88.66%/87.02%）、高德ABot-M0 （86.06%/85.08%）等对比模型。从干净场景到强随机化场景，ACE-Ego 性能仅衰减0.5个百分点，远低于行业平均水平，意味着其习得技能具备极强的环境适应性，更贴近真实商业部署要求。零售场景全链路落地验证，实操能力解锁商业价值从鞋盒规整入盒、咖啡定量分装，再到柔性塑料袋打包，ACE-Ego 在典型零售场景中展现出全栈式真实操作能力，覆盖商品陈列、履约打包、货品分拣等线下零售核心作业环节。机械臂精准识别鞋盒与双鞋的空间位置，按照零售场景的标准陈列方位将鞋依次平稳放入盒内；随后精准定位鞋盒翻盖的铰链转轴与边缘，沿自然合盖轨迹平稳完成翻盖扣合，全程无碰撞、无挤压，展现出对铰接类物体的几何操作理解与精准空间定位能力。机械臂抓取咖啡勺后，从敞口咖啡罐中平稳舀取定量咖啡豆，抬臂、平移、对准杯口一气呵成，精准控制倾倒角度与速度将咖啡豆全部注入杯中，全程无撒漏。整套长时序操作连贯流畅，体现模型对长程动作序列的规划能力与末端执行的精细对准精度。机械臂抓取轻薄购物塑料袋的袋口，顺势撑开袋身形成稳定容纳空间，将目标物品平稳放入袋中后收紧袋口完成打包。全程应对塑料袋柔软易变形、无固定形态的特性，实现了柔性物体的稳定抓取与形态操控。四大核心机制破局异构融合，解锁人机协同预训练新范式双榜登顶与下游任务高效适配的卓越表现，源于 ACE-Ego 依托“以人为中心”的研发范式，对具身智能行业痛点实现的重大技术突破。面对人-机数据在空间、结构、时间、训练监督信号四个维度严重不匹配的行业挑战，ACE-Ego 创新构建了“大规模人类第一人称视频 + 多具身机器人数据”的全链路融合方案。通过自研的四大核心机制，ACE-Ego 分别从空间、结构、时间以及训练监督四个维度统一表示与对齐，彻底破解了人机数据不兼容的难题。这四大机制并行发力，成功支撑了大规模人机异构数据的同框训练，将具身操作模型推入多源协同预训练的新阶段。机制一：第一视角统一动作空间表达，让不同人与不同机型的动作 “说同一种语言”。ACE-Ego 以头部相机坐标系为统一基准，将多机型机器人末端执行器轨迹、不同人类视角视频重建的手部运动全部投影到机器人 “第一视角” 下，让动作指令与视觉观测对齐至统一坐标系，免去跨平台复杂坐标校准，新本体部署仅需替换一组相机外参。针对人类视频，团队搭建多阶段处理管线，覆盖原始筛选、3D 手部重建、参数化映射与多轮质量过滤等数据构建机制，最终输出与机器人完全同构的动作向量，实现数据格式层面的无缝兼容。机制二：URDF（统一机器人描述格式）本体形态映射，让模型知晓 “谁在做动作”。不同机器人的关节结构、物理尺寸差异巨大，人体运动模式与机器人更是截然不同。为此，ACE-Ego 创新性地将 URDF（统一机器人描述格式）映射为跨本体的统一中间层编码。对于机器人，它通过解析 URDF 文件将运动学特征编码并输入动作解码器；对于人类数据，则通过学习专属的“代理形态嵌入”来模拟人体结构。这种“形态条件”仅在动作解码阶段注入，不干扰视觉语言主干网络，不仅保留了主干网络强大的通用视觉理解能力，更带来了极快的新机适配速度——在面对 ARX 双臂机器人等全新未知机型时，仅需不到 200 条动作数据，即可在极短时间内完成适配部署。机制三：时间对齐动态分块，让不同“手速”数据步调一致。不同机器人平台控制频率从10Hz到30Hz不等，固定帧数的动作块对应物理时长差异显著，直接混训会扰乱时序逻辑。ACE-Ego 打破按帧切分的传统做法，以物理时长为标准划分动作块，确保所有数据源预测相同时长的未来动作窗口；搭配分桶采样策略，按任务类型、时序阶段、块长组合成批，大幅降低填充开销，稳定梯度更新，让跨频率数据的联合训练平稳落地。机制四：可靠性自适应目标函数，带噪声数据“按需采信”。人类视频数据中的动作标签由视觉算法重建获得，动作标签带有一定重建噪声，若与高精度传感器数据同权训练反而会拉低模型精度。ACE-Ego 设计了双层训练目标体系：机器人传感器数据作为“准确”监督信号，全权重锚定核心控制精度；人类采集动作作为重要多样性补充信号也参与训练，实行三级加权机制 —— 通道级重点采信高可靠位置信号，数据集级按重建质量设置权重上限，帧级通过运动平滑度动态过滤异常片段。这套 “信息过滤器” 既充分释放了大规模人类视频场景的多样性潜力与行为广度，又牢牢守住机器人高精度数据的质量底线。四大机制环环相扣，打通了 “人类视频规模化扩量 + 机器人数据保障精度” 的全新技术路径，为具身操作模型的规模化训练打开了成本与规模的双重增长空间。大晓机器人将继续深化“以人为中心”的 ACE 研发范式，将这一套高效的人机协同预训练方法推广至更广阔的空间。在模型层面，ACE-Ego模型系列将进一步融合视觉－语言－动作（VLA）模型和具身世界模型（WAM），赋予机器人更强的物理世界想象力与预测能力；在应用层面，该范式也将从当前的复杂零售场景，加速拓展至工业产线、柔性制造等更多高精尖实体产业场景，以高性价比、高泛化性的技术路径，全面加速具身智能的规模化商业落地。关于大晓机器人（ACE ROBOTICS）——让机器人拥有聪明的“大脑”和有趣的“灵魂” 大晓机器人（ACE ROBOTICS）是加速具身智能智慧跃迁的机器人公司，由商汤科技联合创始人、执行董事王晓刚出任董事长，世界级AI科学家陶大程院士担任首席科学家，公司汇聚全球稀缺的青年AI科学家及来自产业界的卓越专家，共同深耕具身智能领域，旨在通过突破性技术创新，对具身智能场景的深刻洞察，推动机器人自主理解和探索物理世界，加速具身智能的商业化场景落地。大晓机器人首创ACE研发范式，构建“环境式数据采集—开悟世界模型3.0—泛化具身模组”的全链路技术体系。大晓机器人以全时空多视角环境采集为引擎，国内首个开源且已实现商业应用的“开悟”世界模型3.0（Kairos 3.0）和具身基模型为技术基座，解决具身智能行业目前面临的数据荒、常识差、泛化难、通用性不足等核心挑战。大晓机器人同步重磅推出“具身超级大脑模组A1”，加速具身智能在安防、巡检、服务等多元场景的规模化、商业化落地。大晓机器人不仅是技术的开拓者，更是生态的共建者。大晓机器人通过与顶尖的芯片厂商、硬件厂商、云服务商及垂直场景伙伴的战略合作，共同打通“模型—硬件—场景”的产业闭环，提供标准化与定制化结合的解决方案，共同成为具身智能领域极具潜力的中国创新力量。

雷峰雷峰网Updated 16h ago1 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.