Technology

蔚来补上“智驾课”，任少卿总结：智驾技术创新将重构竞争

文｜肖漫编辑｜李勤 6月18日，蔚来同时向两代平台车型（包含8款NT2.0平台车型、4款NT2.5平台车型，以及6款NT3.0车型）推送了最新版的世界模型，这意味着，蔚来现在能让同一套复杂的智驾代码，现在能跑在不同代际的芯片上。软件迭代节奏被硬件绑架曾是一个困扰行业的难题。很多车企无法在不同版本、配置的车型上迭代同一款软件，这带来的结果是，很长时间内只有使用最新版本硬件的车才能用上最好的软件，老车主被背刺。蔚来部署推理跨平台兼容任少卿的团队在 2020 年就在思考如何解决这个问题。蔚来的做法是搭建一套AI Infra——自研工具链铺平不同芯片间的鸿沟，用AI编译器提升车辆的处理速度，用 AI Agent 自动化串联全流程。当时业内主流的做法还是用英伟达的工具进行上层部署。但当时的蔚来判断，车端芯片的工程架构会继续快速迭代，主流的架构仅能用 3-5 年。基于这一判断，蔚来决定只保留最底层的硬件接口层（如 CUDA），在此之上全面自研上层部署软件，包括推理引擎、部署框架。另外，和大多数自研芯片的主机厂一样，蔚来也自研了编译器，实现了自动算子优化，将原本需要 1-2 周的部署时间缩短至 1-2 天，同时让端侧的推理性能提升 20% 以上。任少卿透露，蔚来也已经引入 AI Agent 的自动化工作流，接管了原本需要工程师长时间在电脑前手动盯盘、分布执行的繁琐流程，将一次完整的模型上车部署时间从一天甚至数天，极速压缩到 2 小时以内。蔚来智驾软件能力建设 AI Infra 实现模型快速上车，车端在实际应用场景中收集高价值数据回传训练，算法团队用这些数据训练出更聪明的模型后，再次交给 AI Infra 流水线去打包上车，实现数据闭环。任少卿直言：“在大模型时代，性能提升三个点，数据需要翻十倍；如果想提升18个点，数据则需要10倍的六次方”。也就是说，如果单靠增加专职测试车队、花钱采集物理数据，很快就会触及成本和规模的物理极限。对于数据的理解，任少卿认为“数据的本质是算力，是‘模型+算力’运行产生的结果”。蔚来在量产车型上以“影子模式”运行最新的待验证大模型，不干预用户驾驶，只做实时推演，一旦模型的判断与人类真实驾驶动作发生分歧，就把这个Corner Case 传回云端。这种验证体系能跨越 NT2 和 NT3 平台，每周无感完成超 4000 万公里的主动安全测试，这相当于 1000 辆测试车连轴跑一年的数据量。蔚来数据Infra工程任少卿认为，这种通过车端筛选出的 Corner Case，在总体数据量中可能只占 5%，但它提供的训练价值却比底层常规数据还要大。另外，在云端世界模型中，蔚来会故意给 AI 制造各种极端且违反常规的陷阱，强迫神经网络学习如何在错误状态下把车重新开回正轨。近期，业内普遍感知到蔚来智驾能力有了提升，而在任少卿看来，这并非单点算法的突变，而是对“物理 AI 发展周期”有了全新认知的结果。任少卿将技术的发展分为四个阶段：目标不清晰的第一阶段、存在弯道超车可能的第二阶段、技术路线收敛拼人力的第三阶段，以及红利消失拼细节的第四阶段。但到了 2023 年，随着大模型和世界模型概念的涌现，任少卿判断智驾技术又退回到了鼓励底层创新的“第二阶段”。因此蔚来在两年前果断进行了组织架构的变革，将智驾团队重组成“4x100米接力跑”（预研、主线交付、跨平台适配、量产交付），并将资源倾注在了“第一棒”的预研上。今天外界看到的“世界模型加闭环强化学习”带来的能力提升，其实这场架构变阵叠加 Infra 底座搭好的结果。 6月17日，36氪在中关村牛屋和蔚来任少卿及其团队成员进行了交流，内容经编辑：问：现在很多汽车厂商都在自研大算力芯片，为什么蔚来能率先在多平台落地？任少卿团队：其实在推进自研芯片研发和量产的过程中（2024年流片，到2025年3月量产），我们做了大量的工作。虽然友商布局也很早，在 AI Infra 层面，蔚来从2020年就开始布局了，尤其是自研了推理引擎、部署框架以及 AI 编译器。正是因为有了从2020年以来的这些积累，所以当我们的自研芯片到位时，相关的工程效率已经达到了一定的高度。因此，在芯片流片回来之后，我们很快就做到了跨芯片平台的兼容。问：近期对蔚来智驾的评价有所好转，为什么在这个时间点大家能体验到版本和能力的明显提升？任少卿：智驾能力的提升无非就是由三件事情构成的：新的算法、底层的硬件和底层的数据体系。如果大家问最近这两年到底发生了什么，确实是算法架构的变化（比如世界模型、闭环强化学习），但是在这些表面之下，更深层的原因是：我们在 2023 年左右认知到，智驾的发展阶段跟前几年不太一样了。大家看到的可能是从 Rule-base（基于规则）变成了端到端或者世界模型。但我们看到的是物理 AI 发展阶段的倒退与重构。我们定义技术的发展分为四个阶段：在 2020 年左右，其实智驾已经进入了第三阶段，大家都在拼堆人、拼策略数量（写几万行代码）。但到了 2023 年左右，随着大模型技术的涌现，我认为智驾又退回到了第二阶段——我们又可以开始用底层的技术创新来解决问题、产生差异化了。所以从那个时候开始，我们不只是在做新算法，也在做组织架构的变革。大概两年前，我们把组织架构变成了类似“4x100米接力跑”的形式：第一棒跑预研，第二棒跑主线状态交付，第三棒跑跨平台适配，第四棒跑具体车型的量产交付。因为技术发展退回到了鼓励创新的第二阶段，所以我们在“第一棒（预研）”上投入了大量的资源。我们布置了不同的预研团队，最后大家看到的宏观结果是“世界模型加闭环强化学习”，但在微观层面，我们有很多创新来支撑这些架构的落地。这才是能力在这个节点爆发的底层逻辑。问：现在智驾多是谈论VLA和世界模型，竞争是不是有一个相对清晰的趋势？任少卿：算法有不一样的想法非常正常，这也是我觉得人工智能进入 AI 时代或者新技术时代最有意思的点。如果大家都走同一条路，那这个世界其实也不会发展这么快。在过去三年，整个人工智能发展非常快。我自己大概从16年就开始做智驾，从2016年到2022年，智驾的算法，或者说物理世界的算法发展是很慢的，可能最大的变化就是 BEV，最多再加个 OCC，就没了。但是从2022年开始，整体的技术又从非常确定变得非常不确定，涌现了各种各样的机会。我们发布世界模型的时候是24年7月份，但内部开始研发是在23年下半年。那时候对“世界模型”的叫法还没有那么清晰，但是我们的想法比较简单：第一，我们希望这个模型能用完全无监督（unsupervised），或者自监督（self-supervised）的方式去做训练，就是不需要再去标那么多的数据，而且有些数据是你人工标也标不出来的；第二，我们希望它能变成一个多模态混合的方式，也就是统一的网络。在过去三年，我们又赶上了物理世界人工智能快速变化的周期。大家从一个非常确定的、每天干的事情可能跟前三年基本没啥区别的状态里跳出来了。就像原来写 Planning 模型、写 Planning 算法代码的同学，今天干的活儿比三年之前可能也就是多处理一些场景而已。而现在，整个模型架构、训练架构，以及刚才说的数据工程架构，其实都在一体化地发生大变革。问：现在行业内其实有两种不太一样的模型适配方法。一种是拿着筛选后的数据重新训一个小模型；第二种方法是拿着训好的大模型，蒸馏出一个小模型。蔚来认为哪种方法是未来的发展方向？以及目前的做法是什么？任少卿：其实这两条路在之前的各种人工智能模型发展中一直在不断切换。有时候重新训练会更好，有时候蒸馏出来的效果更好，这跟模型大小、训练方式都有关系。对我们来说，这两个都是成熟的技术栈，所以我们在模型上会具体评估，看针对当前模型哪种方式效果更好。对于我们现在车端跑的这个模型来说，基本上采用蒸馏的概率可能会更大一些。但我觉得，这两者在本质上对现有的算法体系不会产生太大的变化。问：蔚来是否对一些竞品车型进行过体验，比如特斯拉 FSD，蔚来的 2.5 版本在行业内预期的身位大概是什么样？任少卿：特斯拉确实在数据体量和训练资源上是世界领先的，甚至我觉得它远远大于国内的公司，计算量上可能要高出一个量级以上。单从架构的进度来说，我们在今年上半年推出了基于世界模型的闭环强化学习，然后在这个版本里还会再加一个 SFT（监督微调），应该是不落后于特斯拉的，尤其在闭环这一块，我们算是比较领先的。问：今天讲了很多关于数据的问题，未来是否有可能发展到模型不再需要对数据的强依赖，可以通过更强的 AGI（通用人工智能）能力，直接实现更强的自动驾驶能力？任少卿：数据才是这个时代 AI 的根源。大家看到，除了算力的提升之外，包括端侧算力、云端算力，在过去5-10年提升了非常多，甚至是百万倍的提升。但是所有的基础模型，包括大语言模型、智驾，以及后面可能更新的一些模型，最根本的问题还是数据。做语言模型可以把互联网的数据直接下载下来，简单做一个清洗，就有几十T甚至更高量级的数据。但是其他所有的应用都需要自己产生数据，都需要自己去解决数据获取的问题，尤其是智驾。智驾要解决的问题就是：首先，要能产生这么大的数据量；第二，要能产生等价于 10 亿网民做筛选的结果。我显然没有这么多人工去干这个事，所以只能通过自动化了。只有当这类既有庞大体量、又明确包含了 Corner Case 的数据产生之后，神经网络才能发挥它的作用。因为直到今天，大模型和神经网络依然是“Data Hungry”（数据饥渴）的，而且越大的模型，对数据的饥渴程度越强。所以，我们必须在物理世界的真实环境里去解决数据的问题。问：业内有一种说法认为，“如果一个自动驾驶只会开车，那么它是开不好车的”。这个您怎么看？意思可能是需要加入其他一些“通识”的数据让这个模型的能力进一步提升。您觉得这种说法有道理吗？任少卿：这其实分为两个部分。第一是有更多其他来源的数据，比如我们也会用一些互联网数据，这主要是为了增加一些场景的覆盖度。第二就是所谓的“通识”。对于人来说，我们学开车所谓的“通识”实际上就是学交规。在这些层面上，其实有两种让 AI 学习的方式：一种方式是把大语言模型加进去来解决这个问题，我觉得这个方向有用，但在今天而言，这条路还并不是主流路线。我们目前的解决方法实际上是通过闭环强化学习的方式，让模型明确地知道：你不能压白线，你不能闯红灯；或者更好的一种情况，如果智驾系统看到红灯倒计时还有 2 秒，那它可以不用把刹车踩得那么死。通过这种在系统闭环里不断试错、强化学习的方式去拿结果，目前来看更高效，效果也更好。

36 36氪Updated 10h ago1 min read

🤖 AI AI Summary & AI Analysis

⟳ AI is analyzing this article…

Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.