过去几年,智能驾驶行业的竞争重心经历了几次明显变化。 最早比的是硬件:激光雷达要不要上、摄像头装几个、算力做到多少 TOPS;随后进入大模型时代,竞争开始转向端到端、VLA(Vision-Language-Action)、World Model(世界模型)等路线。 到了今天,越来越多公司发现,仅仅拥有更大的模型已经不足以形成代际优势,真正决定上限的,开始变成模型、数据、算力和芯片之间能否形成一个持续迭代的闭环。 这也是为什么越来越多车企开始走向自研。 特斯拉几乎覆盖了从数据采集、训练基础设施、FSD模型到Dojo、自研芯片的全部环节。国内,无论小鹏、蔚来,还是理想,也都在不断向更底层延伸。 今年发布的 L8、L9 车型上,理想已经用上了自研的马赫M100芯片,这个采用数据流架构的芯片被理想认为是for AI的一个大的技术方向。在马赫M100上,理想也跑了自研的马赫 VLA 模型。 但对于行业而言,更值得关注的问题并不是"有没有自研",而是这些投入究竟能够解决什么问题。 带着这一疑问,我们与理想汽车自动驾驶负责人詹锟、芯片负责人谢炎进行了交流。他们谈到了理想对于下一代自动驾驶技术路线的判断,也解释了自研芯片、数据体系以及AI基础设施背后的设计逻辑,以下为部分访谈纪要,经编辑: 问:四季度要达到特斯拉FSD V14的效果,理想还需要做哪些工作? 詹锟:我认为追上FSD有两个层面。 第一是基础体验,具体是三方面:安全感、效率、舒适度是否能达到FSD的同等水平。FSD的安全感非常足,效率很好,舒适度很好,这是它的基本功。我不一定跑很难的路,但这些基本功可以达到这个水平。 第二是能力,这一点也很难追。比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,它会识别交警指挥,这些能力非常强。 能力有架构升级的机会。为什么别人没有、只有特斯拉有?可能是以前的范式限制了这些能力,有架构的原因,有数据的原因。我们在这个层面做了很多尝试。 问:我理解马赫VLA是一套技术体系而不是一个单独的模型,比如Mind-Edge是端侧的、服务于智能座舱的模型,那现在的智能驾驶模型中还有“L”(Language语言)的部分吗? 詹锟:现在自动驾驶的架构都会有一个共同的趋势,就是把VLA(视觉-语言-行为模型)和World Model(世界模型)整合在一起。 从长远来看,没有谁不往这个方向走。无论做VLA还是World Model,里面的Prompt(提示)都要用Language。所以一定有Language,只是Language怎么用的问题。 机器智能来说,我觉得Vision Based(基于视觉)是更合理的,它是对空间理解、对3D空间的感知、对环境服务是更合理的。Language肯定有用,对理解环境、理解交通、理解指导、理解复杂的思考决策都是有价值的。 从长远来看,基于Vision和Language原生的基础模型,可能是长远的未来趋势。 谢炎:如果你要走向L3、L4,要解决更泛化的问题时,你的模型需要具备像人类一样的思考能力。语言的重要性会越突出,这也是未来需要很大算力的原因。 如果它只有Vision和Action(视觉和动作),它有很多数据,碰到分布以外的情况就会不知道怎么办。一个动物哪怕学会了所有常见情况,碰到这种从未见过的情况完全不会处理,它不知道做什么选择是对的。 我们认为越往L3、L4走,解决的问题越来越接近90%、95%、98%之后的问题——那些你从来没见过的问题,需要模型具备像人类一样思考的能力。而得到像��一样推理和思考能力的来源是语言模型。比如有个警察在做手势,你要理解他是让你走还是不让你走,这不是靠收集数据或生成数据就能解决的问题。 问:随着理想车队规模的跃升,从理想内部来看,数据的边际效应是不是出现了衰减?我们是怎么定义价值数据的? 詹锟:第一,数据的量要足够大,本质是希望收集到更多的Corner Case(长尾场景)。现在大家有很多方法在车端做出很好的neural trigger(神经网络触发器),来判断这个场景是难场景还是简单场景,然后把这些关键数据传回来。这也是现在特斯拉很强的重要原因之一。 第二,质量要高,主要指行为质量高。现在大家逐渐收敛到端到端的范式,无论做VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型)都可以,但是你一定得知道Action的行为,这时候行为质量就非常重要,行为的干净程度、一致性很重要。 至于数据规模上去以后的边际效应有没有衰减,首先,只要模型上去了,只要我们能力往100分去够,一定是个“对数曲线”,一定是慢慢衰减,不可能线性增长,哪个公司做AI都不是这样的。虽然确实越往后面,数据收敛的作用就没那么快了,但我们也希望通过规模,把它的速度加起来。 问:马赫M100可以跑在不同的AI场景下,五年后或者再往后看两代产品,理想汽车车内的算力中心有没有可能全部使用自研的马赫芯片? 谢炎:虽然业内有一个说法叫“舱驾一体”,我们认为舱驾一体最核心的是AI算力部分,其他部分是不是一体没那么关键。因为座舱系统跟AI智驾系统可以完全独立,但AI算力可以集中在一起,这样分配效率会高很多。 我们路线图的最终形态是车内一个AI计算中心,所有AI任务都可以到这个计算中心去计算。就像笔记本上跑OpenClaw一样,AI的计算不在笔记本上,而是在Token Provider Server(Token供应服务器)上,车里也类似,有一个Token Server(Token服务器)。 这个Token Server的优势:第一,效率非常高。第二,能做到不同任务互相隔离、互不影响。比如智驾任务的确定性——无论是内存还是带宽,能够保证不被其他任务干扰,这是软件和硬件一起设计才能实现的。 问:是否因为M100是数据流架构的AI推理芯片,所以相较其他友商的自动驾驶芯片,对带宽需求没那么高,对片上存储需求更高? 谢炎:我们对带宽的要求会低,但这也并不是设计SRAM容量(不是显存)的直接原因。现在HBM(高带宽内存)很火,很多人觉得带宽越高越好。计算,带宽,SRAM等等都是需要晶体管代价来实现,最终的设计都是成本/综合性能等多方面的综合设计考量后的一种选择。 不同的架构设计,仅仅靠一两个指标来做简单对比,既不合理也不专业。这就像打拳击比赛,高有高的优势,体重大有体重大的优势,但不是由单一指标决定了胜负,最终比的是拳击这个运动的结果。 问:为什么现在的大算力芯片方案,比如英伟达、小鹏、理想自研的这些,都没有做芯片级的舱驾融合,反倒是高通在低算力的芯片上做了这件事?这是为什么? 谢炎:从本质上讲,舱和驾是两个独立系统。特别是对高端的L3往L4走,智驾需要一个更高确定性的系统,内存是专属、计算资源是专属,这时融合的意义就小了很多。因为资源不能实时切换,实时切换会降低确定性。如果变成越来越独占的方向,融合的价值就不大了——你只是把芯片拼在一起,但资源还是两份,并不会带来成本的降低,甚至会影响效率。 你看现在那些舱驾融合系统,它肯定还是分开的,今天做不到一会儿跑这个一会儿跑那个,做不到的话,把两个芯片放成一个芯片,晶体管数目也许不变,只是省了一次封装的成本。对中低端芯片来说这部分钱可以省,但也省不了太多。 我的观点是,越往后走智驾越来越高端,舱驾融��这件事可能意义并不大。如果把这些芯片做得更近一点,在一块板上做成很小体积的集成化方案,这是可以的,并不一定要做成一块芯片,也可以多块芯片放在一起。 问:自研芯片背后需要什么条件,比如销量、营收、研发投入。目前自动驾驶迭代速度很快,芯片要持续迭代的话,需要什么样的条件? 谢炎:芯片先期投入的确不小,可能一年要好几亿。 第一个条件是达到一定的营收规模。对车企来说,营收规模一年1000亿以上,研发投入至少10%,就有大几十亿到上百亿,每年投钱研发芯片是可以的。第二个条件是,你研发芯片解决的问题,要能让你的产品能力更强。 很多人说芯片要有很大的出货规模才行。其实芯片的成本和面积相关。一辆车上的智驾芯片,比如Livis是2颗马赫M100,加起来800平方毫米。而一部高端手机芯片大概100平方毫米,所以一辆车的智驾芯片相当于8台手机的芯片面积。 这样算下来,大几十万辆车需要的晶圆面积非常大,完全可以摊薄成本。所以成本不能仅用颗数来衡量。 问:动态数据流编译器到底难在哪,花了多长时间攻克? 谢炎:在流片前,甚至设计时,就开始做编译器工作了,在流片前,已经把很多模型给跑通了。 数据流是完全不同的架构,它要解决的问题非常类似于超级计算机或大规模计算机集群要解决的问题——当规模扩大到几十万台计算机、上百万颗核,它们之间互相通信、互相协作时,你无法有一个中央管理员去管几十万颗核。传统冯·诺依曼架构的调度方式在这个规模上就不可行了,这是一个超大规模的并行调度问题。
Full article body is being fetched in the background. Refresh in a moment to see the complete paragraphs. For now this page shows a summary and AI analysis.
