【智能前线】第32期:理想智能驾驶访谈实录,VLA 8月抢先推送

发布时间:2025-08-13 08:38  浏览量:2

理想首款纯电SUV i8发布前,组织媒体沟通会,理想自动驾驶研发高级副总裁郎咸朋、自动驾驶高级算法专家詹锟、自动驾驶高级算法专家湛逸飞,接受媒体采访。

理想下一代智能驾驶技术方案VLA司机大模型,将在2025年8月向用户推送,将是国内第一家推送VLA车企。理想团队,对VLA能力、现阶段指标、未来迭代节奏等关键问题,做出全面解答。

本期智能前线,选择理想智能驾驶访谈实录,云见Insight发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文14,776字

预计阅读30分钟

理想智能驾驶访谈实录,VLA 8月抢先推送

时间:2025年7月29日

字数:14,776

理想汽车自动驾驶研发高级副总裁郎咸朋、理想汽车自动驾驶高级算法专家詹锟、理想汽车自动驾驶高级算法专家湛逸飞,在理想纯电SUV i8发布前,接受媒体采访的问答纪要。

问1:VLA司机具备推理能力,车机上显示的推理过程需几秒钟时间,在突发场景下是怎么进行快思考?

郎咸朋:你认为思考过程很慢,是显示原因,本身推理速度很快,只是为了让大家能看得更清楚,我们摘取一些重要的思考过程显示出。

VLA推理帧率在10Hz左右,比之前VLM提升三倍多,之前VLM是3Hz左右。

问2:VLA是用MindGPT作为基座模型进行训练,比之前模型好用吗?

詹锟:我们自研的基座模型,对部署VLA有很大作用,我们VLA是4B模型,比以前更大,推理速度更快。

核心原因是我们自研的基座架构,并不是业界任何一个开源模型,都能达到这个效率。

之前在AI Talk上提到过,我们是MoE的0.4×8的架构,目前没有任何一个架构是这样,这是我们与基座团队共同研发,专门对嵌入式芯片做了定制的MoE混合专家架构,在这个架构上,我们才能达到这样效果。

VLA推理帧率在10Hz左右,每一帧都会经过语言模型,这会有比较快的思考,也会有比较长的思考。

我们做了很多优化,把思考过程尽可能在车端推理出来。

问3:如何判断自动驾驶落地的时间表,如何进行商业变现?

郎咸朋:技术层面看,我们认为VLA模型可以走向更高级别自动驾驶,它现在处于起步阶段。

这个技术周期里,起步阶段VLA模型,约等于端到端上限,它还有很长一段路要走。

我认为这个过程不会特别慢,端到端从10 MPI到现在100 MPI,只用了1年左右时间。

我相信VLA迭代速度会非常快,可能2026年已经迭代到1,000 MPI。

前提是要有完备的基础能力,如算法、算力、数据等,要有工程能力支撑。

尤其VLA的训练,与端到端不一样,它需要更多成熟的仿真环境,来进行强化学习训练,与之前单纯依靠实车数据模仿学习训练完全不同。

商业变现的影响因素非常多,最核心是国家法律政策。理想在积极参与国家相关政策法规的讨论小组,技术上看,L4级别自动驾驶落地非常快,商业角度上看,还有很多问题需要考虑,比如保险、事故之后的赔偿等。

问4:VLA模型难度在哪里?对企业要求是什么?如果一个企业,想要落地VLA模型,会面临哪些挑战?

郎咸朋:曾经有很多人问过,如果车企想做VLA模型,是不是可以跳过前面规则算法,跳过端到端阶段,我认为不行。

VLA的数据、算法等,可能跟之前不太一样,这仍然要建立在之前基础上,如果没有完整的通过实车采集的数据闭环,是没有数据训练世界模型。

理想能落地VLA模型,是我们有12亿数据,只有在充分了解这些数据基础上,才能更好生成数据。

如果没有这些数据基础,首先不能训练世界模型,其次不清楚要生成什么样数据。

基础训练算力与推理算力的支撑,需要大量资金与技术能力,如果没有之前积累,是不能完成的。

问5:目前有一些竞争对手的车载算力已经到2,000 TOPS,这有一部分算力是提供给座舱的,未来理想在车载算力上规划是怎样的?

郎咸朋:算力与量化精度是相关的,也是如何使用芯片。

如果使用精度比较高的表达方式,等效算力或有效算力会低一些;如果使用更好的量化精度,算力就会高。

我们不清楚其它企业的量化精度,很难评判。

我们在车载算力上有更加长期的规划,现在不方便透露。

算力增长过程,与技术方案相关。

规则算法时代,训练卡只是用于训练BEV模型与感知模型,相对数量较少;端到端时代,模型训练需要大量算力与训练卡,我们训练卡从不到1 EFLOPS,增长到2024年10 EFLOPS,增长10倍左右。

我们认为训练算力是一方面,同时要增加推理算力。

问6:智能驾驶存在一个不可能三角,效率、舒适、安全三个目标之间是互相制约,目前阶段难以同时实现。

理想的VLA,目前最先优化的指标是哪一个?刚刚提及MPI,是否可以理解为,目前理想最终指标,是提升安全性,以有效减少接管?

郎咸朋:MPI是我们衡量的指标之一,还有一个指标是发生事故的里程MPA,现在是300万公里左右。

理想车主的人驾数据是60万公里左右出一次事故,在使用辅助驾驶功能情况下是350~400万公里发生一次事故。

这个里程数据我们还会持续提升,我们目标是将MPA能提升到人类驾驶的10倍,比人驾安全10倍,我们希望在辅助驾驶功能下,能做到600万公里才出一次事故,这必须等到VLA模型提升之后,才能做到。

针对MPI,我们做过分析,可能一些安全风险问题会导致接管,有时舒适度不好也会导致接管,比如急刹、重刹等,不一定每次都会遇到安全风险,如果驾驶舒适度不好,用户依然不想用辅助驾驶功能。

MPA可以衡量安全性,在MPI方面,除安全性之外,我们重点提升行车舒适度,如果体验理想i8辅助驾驶功能,会体验到舒适度,比之前版本有很大提升。

效率是排在安全与舒适之后,比如走错路,效率有所损失,我们不会通过一些危险的动作立刻纠正,还是要在安全与舒适基础上,追求效率。

问7:刚提到2025年实车测试是2万公里,大幅减少实车测试的依据是什么?

郎咸朋:我们认为实车测试有很多问题,成本是一方面,最主要的是我们在测试验证一些场景时,不可能完全复现发生问题时的场景。

实车测试效率太低了,在实车测试过程中,要开过去之后,再复测回来,我们现在仿真效果完全可以媲美实车测试,现在超级版本与理想i8的VLA版本中90%以上测试,都是仿真测试。

从2024年端到端版本,我们就已经开始进行仿真测试验证,目前我们认为它的可靠性与有效性都很高,我们以此替代实车测试。

仍有一些测试无法替代,比如硬件耐久测试,与性能相关测试,我们会使用仿真测试替代,效果也非常好。

问8:通常做法,是保持实车测试规模,大幅增加仿真测试数量,理想实际反馈看,仿真测试效果,比实车测试好很多吗?

郎咸朋:是的,仿真测试效果好,成本低,为什么不用仿真测试。

我们保留实车测试,是为了一些必要内容,任何技术的提升,一定伴随研发流程变革,工业时代来临后,刀耕火种的流程被机械化替代。

信息时代后,网络替代大量工作。

自动驾驶时代也是一样,端到端时代来临后,我们进入使用AI技术做自动驾驶的方式,从雇佣大量工程师、算法测试人员,到数据驱动,通过数据流程、数据平台、算法迭代提升自动驾驶能力。

进入VLA大模型时代,测试效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影响快速迭代的因素迭代掉,如果仍有大量实车与人工介入,速度是会降低的。

并不是我们一定要替代实车测试,是这项技术,这个方案本身,就要求要使用仿真测试,如果不这样做,并不是在做强化学习,并不是在做VLA模型。

问9:刚分享端到端瓶颈与一些无法解决的问题,VLA是当时唯一考虑的路线,还是有其它选择?

郎咸朋:我们没有很纠结方案。

我们一直保持对前沿算法的预研与探索,做端到端时,我们也在考虑下一代AI技术,当时业内最有前途的是VLA技术方案,并不是只用于自动驾驶,它是具身智能领域技术。

我们认为它是未来机器人领域通用技术框架,自动驾驶也是一种机器人,是自主行驶的机器人,如果未来我们希望做其它机器人,也都可以基于类似VLA框架,我们经过长时间调研与探索,制定VLA技术方向。

问10:郎咸朋提到如果量化精度高,可以在Thor芯片上实现翻倍算力,为什么理想能最大限度压榨芯片的能力?基于这个能力,理想是否还会自研智驾芯片?

詹锟:我们2024年开始,用Orin芯片做大模型部署,英伟达觉得这不可能,我们认为这必须要做,与英伟达做了非常详细剖析与拆解,我们工程团队、部署团队做了非常多工作,包括我们魔改CUDA底层,重写PTX底层指令,才能实现现在效果。

理想自动驾驶团队的工程部署能力是一以贯之的,从早期在地平线J3部署高速NOA,到在Orin芯片部署大模型,再到现在Thor芯片部署VLA高频快速大模型。

这些都是有工程积累与工程实践,很多技巧与分析方法、基础设施的工具链,都继承下来。

这很关键的一点,是我们打磨细节的能力,芯片能否被压榨,最主要的是做底层分析,解决瓶颈热点。

刚郎咸朋分享很多我们解决的问题,大家会发现,VLA从最初推理一帧需要500~600毫秒,到最后实现10Hz,提升近10倍效率,这有非常多细节,都是我们遇到问题后,拆解当前芯片适配的算法,调整算子,让算子与芯片能力更匹配。

大家常用的推理模型是FP16,我们把它降到FP8,性能做了提升,FP4也是英伟达在最新Blackwell架构中非常推崇,我们会进一步把芯片算力压榨出来。

郎咸朋:自研芯片核心原因,是作为专用芯片,能针对自己算法进行特定优化处理,性价比与效率都会很高。

现在我们依然使用Thor芯片,是英伟达对一些新的算子支持是比较好的,算力比较充足,在整体VLA迭代过程中,依然有变化的可能性,我们依然在用Thor芯片。

如果未来算法锁定,为了更好效率与成本,大家都会考虑自研芯片。

问11:VLA没有颠覆端到端+VLM,是否可以理解成VLA是偏向工程能力的创新?

詹锟:VLA不只是工程方面创新,大家如果关注具身智能,会发现这波浪潮,伴随大模型对物理世界应用,本质是提出VLA算法,我们VLA模型,是想把具身智能思想与路径,应用在自动驾驶领域。

我们是最早提出,也是最早开始实践。

VLA是一种端到端,端到端本质是场景输入,轨迹输出,VLA也是如此,算法的创新是多了思考。

端到端可以理解为VA,没有Language,Language对应的是思考与理解,我们在VLA中加入Language,把机器人的范式统一,让自动驾驶也能成为机器人的一类,这是算法创新,不只是工程创新。

对自动驾驶,很大的挑战是必须要有工程创新。

VLA是大模型,大模型部署,在边缘端算力上非常具有挑战。

很多团队不是认为VLA不好,是VLA部署有困难,把它真正落地,是非常具有挑战性的事情,尤其是在边缘芯片算力不够情况下,不可能完成。

我们是在大算力芯片上部署,这不仅是工程创新,的确需要工程部署大范围优化,才能实现。

问12:VLA大模型,在车端部署时,是否会有一些轻量化版本,比如模型裁剪或蒸馏版本?如何在推理效率与模型之间做好平衡?

詹锟:在部署时效率与蒸馏上,我们做了非常多平衡。

我们基座模型是自研的8x0.4B的MoE模型,这是业界没有的,我们在深入分析英伟达芯片后,发现这个架构非常适合它,推理速度快的同时,模型容量大,能同时容纳不同场景、不同能力大模型,这是我们在架构上的选择。

我们是大模型蒸馏出来的,我们最早训练了一个32B云端大模型,它容纳海量知识与驾驶能力,我们把它做出的思考与推理流程,蒸馏到3.2B的MoE模型上,配合Vision与Action,使用Diffusion,我们用这样的方法,做了非常多优化。

细节上看,我们针对Diffusion做了工程优化,不是直接使用标准Diffusion,而是进行推理的压缩,可以理解为蒸馏。

以前Diffusion,可能要推理10个步骤,我们使用flow matching流匹配,只需要推理2步就可以,这方面的压缩,也是导致我们能部署VLA的本质原因。

问13:我们在测试时,看到可以对VLA说前进10米。大模型在训练数据中,没有学习过这么具体的概念,理想是如何了解背后机制的,人类是否能信任大模型做出的判断?

詹锟:首先,我们不会单纯让模型学习向前走10m、12m这样生硬的数据,在海量的通识数据中,有很多对物理空间的理解。

比如前方白车距离多少米,前方路沿与我有多少距离,现在大模型已经加入很多物理空间的知识,包括现在ChatGPT、千问,都具备这样能力,把这些能力在大模型里学习之后,我们只需要在action中把它体现出来。

刚刚分享了五步训练法,第一步是加入通识能力与物理世界知识,第二步时进行一些微调,将这样的能力与action结合,就能实现,这是端到端的学习思路就能做到。

有一些背后的机制,与现在大模型非常一致。

当我们把海量数据喂给它,这些数据具备组合泛化能力,并不是教什么、学什么,当量级达到一定规模时,会涌现出一些能力,包括行为,并不是说必须11m、12m、13m,分别教才行。

它懂了数字,懂了米数,当你在给它一个新的东西,它就存在一种组合泛化的机制。

这是大模型理论研究非常多的,目前这样的机制,可以在各个领域进行泛化应用。

我们很多能力与知识,是各个学科交叉的融合,我们非常关注现在大模型的进展,随时可以向自动驾驶上迁移。

问14:大语言模型,可能缺乏长期记忆能力与长期规划,理想做了怎样改进?

詹锟:大家可以发现,近1年,大模型与Agent发展非常快。

大模型用到很多tools能力,包括RAG能力,刚刚看到的记忆是RAG能力。

当我们发出指令后,可以外挂在RAG中,当下次到这里时,可以很容易调度它,它能记得之前到这个地方时,发出过这样指令,就能加到prompt中。

我们会进行prompt微调,本质是把这些知识放入VLA输入中,大模型会具备这样的能力。

当我们把大模型系统看做一个Agent,本质是它是一个以大模型为中心构建的系统,这有tools,RAG外挂系统来增强它的记忆与规划能力,让他形成真正完整的智能体。

问15:AI评测与运营,在VLA研发过程中,负责的内容与作用是什么?

湛逸飞:第一部分是世界模型仿真评测,基于世界模型技术,无论在端到端,还是在VLA过程中,都发挥巨大价值。

我们每天测试里程最大峰值可达到30万公里,2025年上半年,共累计进行超过4,000万公里测试。

第二部分是AD运营,是基于我们用户使用数据,作为巨大保障,让我们可以研究用户对辅助驾驶功能的使用,在什么场景下会接管,在什么场景下会启用。

刚提到一些强化学习技术,用户天然为我们提供非常多可以用于强化学习的场景。

用户使用辅助驾驶功能时,每一次接管,都是一次对当前系统能力的反馈,我们可以基于这些反馈进行强化学习,基于强化学习,理论上可以实现对接管问题全自动的优化与处理。

在此之外,我们对每个用户使用习惯都会进行分析,比如有些用户倾向更激进的效率变道,有些用户更喜欢稳健的驾驶风格,我们会在这些用户数据基础上,强化VLA大模型。

问16:物理世界中实车测试,是无法100%复现场景,仿真测试过程中,怎样做到100%复现?

湛逸飞:我们2024年进行150多万公里实车测试。我们在2024年已经具备世界模型仿真能力,我们用这150多万公里的实车测试,来验证仿真环境可靠性。

最初世界模型仿真复现率或真实性存在问题,我们通过与实车测试数据对比,过去1年里,针对仿真测试中漏洞或缺陷,进行大量工程与算法优化,让仿真一致性达到非常高的程度。

没有达到100%,准确率可以在99.9%以上。

举个简单例子,在仿真环境中,最开始红绿灯变化,在200米外看不清楚,我们针对红绿灯的视野模型仿真进行大量优化,包括对30°相机分辨率提升。

我们用过去1年时间,将仿真系统可靠性,提升到很好程度,才会放心使用这套系统。

问17:近期理想发布OTA 7.5版本,这次重磅升级,是超级对齐监督模型的发布,这对VLA实现人类老司机体验的作用与意义是什么?

郎咸朋:OTA 7.5版本的超级对齐,做了两件事。

第一、对数据配比进行调整,使得模型训练的数据质量与数据覆盖提升。

第二、增加后处理能力,比如法律、法规类的规则,强制让模型输出,符合法规或合规的规定,让它更加符合人类驾驶习惯要求。

VLA很重要的意义,是为我们提供很多评测场景,刚提到我们在过去1年迭代过程中,积累大量用于仿真评测的场景,现在VLA模型仿真得分,已经超越OTA 7.5版本得分,我们把OTA 7.5版本超级对齐的一些场景,用VLA模型再跑一遍,看它在这个场景里的通过率与得分率。

超级对齐里,也用了很多仿真测试,在超级对齐之前,我们没有特别大量使用仿真环境进行测试,在超级对齐中,我们可以达到单天峰值30万公里的仿真里程。

它对VLA的意义,是它为VLA积攒很多评测场景与数据,假设其他团队在做VLA模型,单纯评测是一项挑战,需要积累很多场景。

我们在VLA模型中,能快速迭代的原因,是VLA评测就像之前实车评测一样,在实车评测时,大家都有自己方式与场景,我们VLA仿真评测,已经在超级对齐里做好基础,现在已经有超过40多万场景评测,我们还会持续补充,超级对齐对VLA意义,最重要的是在评测方面。

问18:行业角度看,目前智驾体验比较趋同,未来理想是否会将自己智驾能力,向行业输出或开源或向其他车企售卖?

郎咸朋:我认为是可以的,我们希望为行业做贡献。

前提是,第一、我们是不是能很好验证这套系统,整个VLA发展还是在初期阶段,需要继续提升;第二、是否其他人,有能力与我们一起做这件事,他需要有自己评测方式、仿真环境、强化学习训练能力。

从理想或我个人态度上,是希望能促进行业发展,从目前VLA技术发展阶段看,依然比较初级,它的发展速度可能会比较快,像端到端一样,用1年时间,将效果提升10倍。

行业发展速度会非常快,我相信2026年沟通时,可能会讨论一下开源的问题。

问19:理想在Thor的FP8格式下,实现1,000 TOPS算力,行业普遍采用FP16处理算子。

如何做到将精度从FP16降至FP8时,保持模型精度,不掉点?

向FP4演进时,需突破哪些关键技术?

Blackwell已支持FP4原生硬件,INT4如何处理?

Orin-X等平台缺乏FP4原生支持,如何平衡硬件兼容性与计算效率?FP4实现2,000 TOPS等效算力后,能否支撑类人感知的帧率,如3FPS,关键瓶颈会出现在哪里?

詹锟:我们把数值精度,首先从FP16或者FP32、FP8与INT8这样去缩减。

这是业界比较共识的一个问题,在大模型领域,大家对数值精度的要求会降低,这也是为什么到LLM领域,大家看到DeepSeek开始推它FP8,为什么以前不行?

模型参数规模过大,对它的容错变低,它通过更多的层,更多数据容量,把之前异常值降的越来越少,这是大模型一个特性,也是为什么到VLM、VLA领域以后,大家会逐渐往低精度,更精细的计算密集型的算子上靠近,这是很大变化。

如果我们还用原来方法,那是不太行的,它会要很高的FP32、FP16这样数值精度,VLM才能做这样的事情。

另一个量化训练,传统训练,一般都会拿FP32做训练,拿出来的参数是FP32的数值精度。

我们有一个训练过程叫QAT,是在训练过程中,把参数变成INT8或FP8,这样过程中,我们在模型只能用数据精度做模型训练迭代,这样我们拿出来的模型,就能适配模型的推理精度。

以往企业是很难做好,是这个训练过程中会非常不稳定,这里面有大量训练框架优化,训练策略的优化。

可能我先拿FP32把模型训的收敛,我再拿一个QAT方式,训练成FP8这样小数值精度。

另一个很重要,我们做了大量数据清洗。

以往出现这种数据噪点,是有脏数据,这也是为什么刚刚说,我们还是在1,000万上面做,做了大量数据清洗、数据储备工作,把不好的数据去掉,这样才能让训练变得稳定、收敛,这也是目前大语言模型大家常规的迭代方向,把数据精度做得越来越精细,把数据清洗的越来越干净,它训练也会越来越收敛。

第一个方向是会往FP8、INT8方面做。

另一个,FP4,这也是像英伟达这些最先进的芯片提出来的,我们能不能把算力再降1倍,原来是要8个字节才能算一个点,我们变成4个。

这里面很重要一点,模型的数值参数范围一定要够小,我们训练要更加稳定,每一次数据用量,对待你的模型训练迭代,都有更高的要求,目前看,我们有机会做到这里。

如果你想做FP4,要在训练上花更多精力,做更多数据迭代、数据清洗。

目前我们也在做这样尝试,很快可以在把Thor芯片压榨出来。

回到Orin,硬件限制,没办法做FP8这样计算,它有INT8。

我们在Orin上也是用INT4的量化,再加FP16与INT8混合精度推理,逐渐把大模型在Orin上部署。

再往后走,硬件的限制,我们不能做更多精度压缩。

我们会把VLA模型体验,放在Orin与Thor上同平台。

问20:到2,000TOPS之后,帧率能不能跑到30帧?

詹锟:目前看,我们在绝大部分场景,特别是城市,10Hz够用。

如果我们算力能用FP4,肯定是能double 20Hz。需不需要跑到30,这得看情况。

可能有人说特斯拉跑到30,我们了解到它并不是完整的30Hz,它也有一些其他方法。

我们还是把反应速度与体验做上来,不是追求一个简单的数字。

请务必阅读免责声明与风险提示