【智能前线】第32期：理想智能驾驶访谈实录，VLA 8月抢先推送

发布时间：2025-08-13 08:38 浏览量：8

理想首款纯电SUV i8发布前，组织媒体沟通会，理想自动驾驶研发高级副总裁郎咸朋、自动驾驶高级算法专家詹锟、自动驾驶高级算法专家湛逸飞，接受媒体采访。

理想下一代智能驾驶技术方案VLA司机大模型，将在2025年8月向用户推送，将是国内第一家推送VLA车企。理想团队，对VLA能力、现阶段指标、未来迭代节奏等关键问题，做出全面解答。

本期智能前线，选择理想智能驾驶访谈实录，云见Insight发布，六合商业研选精校，分享给大家，Enjoy！

正文：

全文14,776字

预计阅读30分钟

理想智能驾驶访谈实录，VLA 8月抢先推送

时间：2025年7月29日

字数：14,776

理想汽车自动驾驶研发高级副总裁郎咸朋、理想汽车自动驾驶高级算法专家詹锟、理想汽车自动驾驶高级算法专家湛逸飞，在理想纯电SUV i8发布前，接受媒体采访的问答纪要。

问1：VLA司机具备推理能力，车机上显示的推理过程需几秒钟时间，在突发场景下是怎么进行快思考？

郎咸朋：你认为思考过程很慢，是显示原因，本身推理速度很快，只是为了让大家能看得更清楚，我们摘取一些重要的思考过程显示出。

VLA推理帧率在10Hz左右，比之前VLM提升三倍多，之前VLM是3Hz左右。

问2：VLA是用MindGPT作为基座模型进行训练，比之前模型好用吗？

詹锟：我们自研的基座模型，对部署VLA有很大作用，我们VLA是4B模型，比以前更大，推理速度更快。

核心原因是我们自研的基座架构，并不是业界任何一个开源模型，都能达到这个效率。

之前在AI Talk上提到过，我们是MoE的0.4×8的架构，目前没有任何一个架构是这样，这是我们与基座团队共同研发，专门对嵌入式芯片做了定制的MoE混合专家架构，在这个架构上，我们才能达到这样效果。

VLA推理帧率在10Hz左右，每一帧都会经过语言模型，这会有比较快的思考，也会有比较长的思考。

我们做了很多优化，把思考过程尽可能在车端推理出来。

问3：如何判断自动驾驶落地的时间表，如何进行商业变现？

郎咸朋：技术层面看，我们认为VLA模型可以走向更高级别自动驾驶，它现在处于起步阶段。

这个技术周期里，起步阶段VLA模型，约等于端到端上限，它还有很长一段路要走。

我认为这个过程不会特别慢，端到端从10 MPI到现在100 MPI，只用了1年左右时间。

我相信VLA迭代速度会非常快，可能2026年已经迭代到1,000 MPI。

前提是要有完备的基础能力，如算法、算力、数据等，要有工程能力支撑。

尤其VLA的训练，与端到端不一样，它需要更多成熟的仿真环境，来进行强化学习训练，与之前单纯依靠实车数据模仿学习训练完全不同。

商业变现的影响因素非常多，最核心是国家法律政策。理想在积极参与国家相关政策法规的讨论小组，技术上看，L4级别自动驾驶落地非常快，商业角度上看，还有很多问题需要考虑，比如保险、事故之后的赔偿等。

问4：VLA模型难度在哪里？对企业要求是什么？如果一个企业，想要落地VLA模型，会面临哪些挑战？

郎咸朋：曾经有很多人问过，如果车企想做VLA模型，是不是可以跳过前面规则算法，跳过端到端阶段，我认为不行。

VLA的数据、算法等，可能跟之前不太一样，这仍然要建立在之前基础上，如果没有完整的通过实车采集的数据闭环，是没有数据训练世界模型。

理想能落地VLA模型，是我们有12亿数据，只有在充分了解这些数据基础上，才能更好生成数据。

如果没有这些数据基础，首先不能训练世界模型，其次不清楚要生成什么样数据。

基础训练算力与推理算力的支撑，需要大量资金与技术能力，如果没有之前积累，是不能完成的。

问5：目前有一些竞争对手的车载算力已经到2,000 TOPS，这有一部分算力是提供给座舱的，未来理想在车载算力上规划是怎样的？

郎咸朋：算力与量化精度是相关的，也是如何使用芯片。

如果使用精度比较高的表达方式，等效算力或有效算力会低一些；如果使用更好的量化精度，算力就会高。

我们不清楚其它企业的量化精度，很难评判。

我们在车载算力上有更加长期的规划，现在不方便透露。

算力增长过程，与技术方案相关。

规则算法时代，训练卡只是用于训练BEV模型与感知模型，相对数量较少；端到端时代，模型训练需要大量算力与训练卡，我们训练卡从不到1 EFLOPS，增长到2024年10 EFLOPS，增长10倍左右。

我们认为训练算力是一方面，同时要增加推理算力。

问6：智能驾驶存在一个不可能三角，效率、舒适、安全三个目标之间是互相制约，目前阶段难以同时实现。

理想的VLA，目前最先优化的指标是哪一个？刚刚提及MPI，是否可以理解为，目前理想最终指标，是提升安全性，以有效减少接管？

郎咸朋：MPI是我们衡量的指标之一，还有一个指标是发生事故的里程MPA，现在是300万公里左右。

理想车主的人驾数据是60万公里左右出一次事故，在使用辅助驾驶功能情况下是350~400万公里发生一次事故。

这个里程数据我们还会持续提升，我们目标是将MPA能提升到人类驾驶的10倍，比人驾安全10倍，我们希望在辅助驾驶功能下，能做到600万公里才出一次事故，这必须等到VLA模型提升之后，才能做到。

针对MPI，我们做过分析，可能一些安全风险问题会导致接管，有时舒适度不好也会导致接管，比如急刹、重刹等，不一定每次都会遇到安全风险，如果驾驶舒适度不好，用户依然不想用辅助驾驶功能。

MPA可以衡量安全性，在MPI方面，除安全性之外，我们重点提升行车舒适度，如果体验理想i8辅助驾驶功能，会体验到舒适度，比之前版本有很大提升。

效率是排在安全与舒适之后，比如走错路，效率有所损失，我们不会通过一些危险的动作立刻纠正，还是要在安全与舒适基础上，追求效率。

问7：刚提到2025年实车测试是2万公里，大幅减少实车测试的依据是什么？

郎咸朋：我们认为实车测试有很多问题，成本是一方面，最主要的是我们在测试验证一些场景时，不可能完全复现发生问题时的场景。

实车测试效率太低了，在实车测试过程中，要开过去之后，再复测回来，我们现在仿真效果完全可以媲美实车测试，现在超级版本与理想i8的VLA版本中90%以上测试，都是仿真测试。

从2024年端到端版本，我们就已经开始进行仿真测试验证，目前我们认为它的可靠性与有效性都很高，我们以此替代实车测试。

仍有一些测试无法替代，比如硬件耐久测试，与性能相关测试，我们会使用仿真测试替代，效果也非常好。

问8：通常做法，是保持实车测试规模，大幅增加仿真测试数量，理想实际反馈看，仿真测试效果，比实车测试好很多吗？

郎咸朋：是的，仿真测试效果好，成本低，为什么不用仿真测试。

我们保留实车测试，是为了一些必要内容，任何技术的提升，一定伴随研发流程变革，工业时代来临后，刀耕火种的流程被机械化替代。

信息时代后，网络替代大量工作。

自动驾驶时代也是一样，端到端时代来临后，我们进入使用AI技术做自动驾驶的方式，从雇佣大量工程师、算法测试人员，到数据驱动，通过数据流程、数据平台、算法迭代提升自动驾驶能力。

进入VLA大模型时代，测试效率是提升能力的核心因素，如果要快速迭代，一定要把在流程中影响快速迭代的因素迭代掉，如果仍有大量实车与人工介入，速度是会降低的。

并不是我们一定要替代实车测试，是这项技术，这个方案本身，就要求要使用仿真测试，如果不这样做，并不是在做强化学习，并不是在做VLA模型。

问9：刚分享端到端瓶颈与一些无法解决的问题，VLA是当时唯一考虑的路线，还是有其它选择？

郎咸朋：我们没有很纠结方案。

我们一直保持对前沿算法的预研与探索，做端到端时，我们也在考虑下一代AI技术，当时业内最有前途的是VLA技术方案，并不是只用于自动驾驶，它是具身智能领域技术。

我们认为它是未来机器人领域通用技术框架，自动驾驶也是一种机器人，是自主行驶的机器人，如果未来我们希望做其它机器人，也都可以基于类似VLA框架，我们经过长时间调研与探索，制定VLA技术方向。

问10：郎咸朋提到如果量化精度高，可以在Thor芯片上实现翻倍算力，为什么理想能最大限度压榨芯片的能力？基于这个能力，理想是否还会自研智驾芯片？

詹锟：我们2024年开始，用Orin芯片做大模型部署，英伟达觉得这不可能，我们认为这必须要做，与英伟达做了非常详细剖析与拆解，我们工程团队、部署团队做了非常多工作，包括我们魔改CUDA底层，重写PTX底层指令，才能实现现在效果。

理想自动驾驶团队的工程部署能力是一以贯之的，从早期在地平线J3部署高速NOA，到在Orin芯片部署大模型，再到现在Thor芯片部署VLA高频快速大模型。

这些都是有工程积累与工程实践，很多技巧与分析方法、基础设施的工具链，都继承下来。

这很关键的一点，是我们打磨细节的能力，芯片能否被压榨，最主要的是做底层分析，解决瓶颈热点。

刚郎咸朋分享很多我们解决的问题，大家会发现，VLA从最初推理一帧需要500~600毫秒，到最后实现10Hz，提升近10倍效率，这有非常多细节，都是我们遇到问题后，拆解当前芯片适配的算法，调整算子，让算子与芯片能力更匹配。

大家常用的推理模型是FP16，我们把它降到FP8，性能做了提升，FP4也是英伟达在最新Blackwell架构中非常推崇，我们会进一步把芯片算力压榨出来。

郎咸朋：自研芯片核心原因，是作为专用芯片，能针对自己算法进行特定优化处理，性价比与效率都会很高。

现在我们依然使用Thor芯片，是英伟达对一些新的算子支持是比较好的，算力比较充足，在整体VLA迭代过程中，依然有变化的可能性，我们依然在用Thor芯片。

如果未来算法锁定，为了更好效率与成本，大家都会考虑自研芯片。

问11：VLA没有颠覆端到端+VLM，是否可以理解成VLA是偏向工程能力的创新？

詹锟：VLA不只是工程方面创新，大家如果关注具身智能，会发现这波浪潮，伴随大模型对物理世界应用，本质是提出VLA算法，我们VLA模型，是想把具身智能思想与路径，应用在自动驾驶领域。

我们是最早提出，也是最早开始实践。

VLA是一种端到端，端到端本质是场景输入，轨迹输出，VLA也是如此，算法的创新是多了思考。

端到端可以理解为VA，没有Language，Language对应的是思考与理解，我们在VLA中加入Language，把机器人的范式统一，让自动驾驶也能成为机器人的一类，这是算法创新，不只是工程创新。

对自动驾驶，很大的挑战是必须要有工程创新。

VLA是大模型，大模型部署，在边缘端算力上非常具有挑战。

很多团队不是认为VLA不好，是VLA部署有困难，把它真正落地，是非常具有挑战性的事情，尤其是在边缘芯片算力不够情况下，不可能完成。

我们是在大算力芯片上部署，这不仅是工程创新，的确需要工程部署大范围优化，才能实现。

问12：VLA大模型，在车端部署时，是否会有一些轻量化版本，比如模型裁剪或蒸馏版本？如何在推理效率与模型之间做好平衡？

詹锟：在部署时效率与蒸馏上，我们做了非常多平衡。

我们基座模型是自研的8x0.4B的MoE模型，这是业界没有的，我们在深入分析英伟达芯片后，发现这个架构非常适合它，推理速度快的同时，模型容量大，能同时容纳不同场景、不同能力大模型，这是我们在架构上的选择。

我们是大模型蒸馏出来的，我们最早训练了一个32B云端大模型，它容纳海量知识与驾驶能力，我们把它做出的思考与推理流程，蒸馏到3.2B的MoE模型上，配合Vision与Action，使用Diffusion，我们用这样的方法，做了非常多优化。

细节上看，我们针对Diffusion做了工程优化，不是直接使用标准Diffusion，而是进行推理的压缩，可以理解为蒸馏。

以前Diffusion，可能要推理10个步骤，我们使用flow matching流匹配，只需要推理2步就可以，这方面的压缩，也是导致我们能部署VLA的本质原因。

问13：我们在测试时，看到可以对VLA说前进10米。大模型在训练数据中，没有学习过这么具体的概念，理想是如何了解背后机制的，人类是否能信任大模型做出的判断？

詹锟：首先，我们不会单纯让模型学习向前走10m、12m这样生硬的数据，在海量的通识数据中，有很多对物理空间的理解。

比如前方白车距离多少米，前方路沿与我有多少距离，现在大模型已经加入很多物理空间的知识，包括现在ChatGPT、千问，都具备这样能力，把这些能力在大模型里学习之后，我们只需要在action中把它体现出来。

刚刚分享了五步训练法，第一步是加入通识能力与物理世界知识，第二步时进行一些微调，将这样的能力与action结合，就能实现，这是端到端的学习思路就能做到。

有一些背后的机制，与现在大模型非常一致。

当我们把海量数据喂给它，这些数据具备组合泛化能力，并不是教什么、学什么，当量级达到一定规模时，会涌现出一些能力，包括行为，并不是说必须11m、12m、13m，分别教才行。

它懂了数字，懂了米数，当你在给它一个新的东西，它就存在一种组合泛化的机制。

这是大模型理论研究非常多的，目前这样的机制，可以在各个领域进行泛化应用。

我们很多能力与知识，是各个学科交叉的融合，我们非常关注现在大模型的进展，随时可以向自动驾驶上迁移。

问14：大语言模型，可能缺乏长期记忆能力与长期规划，理想做了怎样改进？

詹锟：大家可以发现，近1年，大模型与Agent发展非常快。

大模型用到很多tools能力，包括RAG能力，刚刚看到的记忆是RAG能力。

当我们发出指令后，可以外挂在RAG中，当下次到这里时，可以很容易调度它，它能记得之前到这个地方时，发出过这样指令，就能加到prompt中。

我们会进行prompt微调，本质是把这些知识放入VLA输入中，大模型会具备这样的能力。

当我们把大模型系统看做一个Agent，本质是它是一个以大模型为中心构建的系统，这有tools，RAG外挂系统来增强它的记忆与规划能力，让他形成真正完整的智能体。

问15：AI评测与运营，在VLA研发过程中，负责的内容与作用是什么？

湛逸飞：第一部分是世界模型仿真评测，基于世界模型技术，无论在端到端，还是在VLA过程中，都发挥巨大价值。

我们每天测试里程最大峰值可达到30万公里，2025年上半年，共累计进行超过4,000万公里测试。

第二部分是AD运营，是基于我们用户使用数据，作为巨大保障，让我们可以研究用户对辅助驾驶功能的使用，在什么场景下会接管，在什么场景下会启用。

刚提到一些强化学习技术，用户天然为我们提供非常多可以用于强化学习的场景。

用户使用辅助驾驶功能时，每一次接管，都是一次对当前系统能力的反馈，我们可以基于这些反馈进行强化学习，基于强化学习，理论上可以实现对接管问题全自动的优化与处理。

在此之外，我们对每个用户使用习惯都会进行分析，比如有些用户倾向更激进的效率变道，有些用户更喜欢稳健的驾驶风格，我们会在这些用户数据基础上，强化VLA大模型。

问16：物理世界中实车测试，是无法100%复现场景，仿真测试过程中，怎样做到100%复现？

湛逸飞：我们2024年进行150多万公里实车测试。我们在2024年已经具备世界模型仿真能力，我们用这150多万公里的实车测试，来验证仿真环境可靠性。

最初世界模型仿真复现率或真实性存在问题，我们通过与实车测试数据对比，过去1年里，针对仿真测试中漏洞或缺陷，进行大量工程与算法优化，让仿真一致性达到非常高的程度。

没有达到100%，准确率可以在99.9%以上。

举个简单例子，在仿真环境中，最开始红绿灯变化，在200米外看不清楚，我们针对红绿灯的视野模型仿真进行大量优化，包括对30°相机分辨率提升。

我们用过去1年时间，将仿真系统可靠性，提升到很好程度，才会放心使用这套系统。

问17：近期理想发布OTA 7.5版本，这次重磅升级，是超级对齐监督模型的发布，这对VLA实现人类老司机体验的作用与意义是什么？

郎咸朋：OTA 7.5版本的超级对齐，做了两件事。

第一、对数据配比进行调整，使得模型训练的数据质量与数据覆盖提升。

第二、增加后处理能力，比如法律、法规类的规则，强制让模型输出，符合法规或合规的规定，让它更加符合人类驾驶习惯要求。

VLA很重要的意义，是为我们提供很多评测场景，刚提到我们在过去1年迭代过程中，积累大量用于仿真评测的场景，现在VLA模型仿真得分，已经超越OTA 7.5版本得分，我们把OTA 7.5版本超级对齐的一些场景，用VLA模型再跑一遍，看它在这个场景里的通过率与得分率。

超级对齐里，也用了很多仿真测试，在超级对齐之前，我们没有特别大量使用仿真环境进行测试，在超级对齐中，我们可以达到单天峰值30万公里的仿真里程。

它对VLA的意义，是它为VLA积攒很多评测场景与数据，假设其他团队在做VLA模型，单纯评测是一项挑战，需要积累很多场景。

我们在VLA模型中，能快速迭代的原因，是VLA评测就像之前实车评测一样，在实车评测时，大家都有自己方式与场景，我们VLA仿真评测，已经在超级对齐里做好基础，现在已经有超过40多万场景评测，我们还会持续补充，超级对齐对VLA意义，最重要的是在评测方面。

问18：行业角度看，目前智驾体验比较趋同，未来理想是否会将自己智驾能力，向行业输出或开源或向其他车企售卖？

郎咸朋：我认为是可以的，我们希望为行业做贡献。

前提是，第一、我们是不是能很好验证这套系统，整个VLA发展还是在初期阶段，需要继续提升；第二、是否其他人，有能力与我们一起做这件事，他需要有自己评测方式、仿真环境、强化学习训练能力。

从理想或我个人态度上，是希望能促进行业发展，从目前VLA技术发展阶段看，依然比较初级，它的发展速度可能会比较快，像端到端一样，用1年时间，将效果提升10倍。

行业发展速度会非常快，我相信2026年沟通时，可能会讨论一下开源的问题。

问19：理想在Thor的FP8格式下，实现1,000 TOPS算力，行业普遍采用FP16处理算子。

如何做到将精度从FP16降至FP8时，保持模型精度，不掉点？

向FP4演进时，需突破哪些关键技术？

Blackwell已支持FP4原生硬件，INT4如何处理？

Orin-X等平台缺乏FP4原生支持，如何平衡硬件兼容性与计算效率？FP4实现2,000 TOPS等效算力后，能否支撑类人感知的帧率，如3FPS，关键瓶颈会出现在哪里？

詹锟：我们把数值精度，首先从FP16或者FP32、FP8与INT8这样去缩减。

这是业界比较共识的一个问题，在大模型领域，大家对数值精度的要求会降低，这也是为什么到LLM领域，大家看到DeepSeek开始推它FP8，为什么以前不行？

模型参数规模过大，对它的容错变低，它通过更多的层，更多数据容量，把之前异常值降的越来越少，这是大模型一个特性，也是为什么到VLM、VLA领域以后，大家会逐渐往低精度，更精细的计算密集型的算子上靠近，这是很大变化。

如果我们还用原来方法，那是不太行的，它会要很高的FP32、FP16这样数值精度，VLM才能做这样的事情。

另一个量化训练，传统训练，一般都会拿FP32做训练，拿出来的参数是FP32的数值精度。

我们有一个训练过程叫QAT，是在训练过程中，把参数变成INT8或FP8，这样过程中，我们在模型只能用数据精度做模型训练迭代，这样我们拿出来的模型，就能适配模型的推理精度。

以往企业是很难做好，是这个训练过程中会非常不稳定，这里面有大量训练框架优化，训练策略的优化。

可能我先拿FP32把模型训的收敛，我再拿一个QAT方式，训练成FP8这样小数值精度。

另一个很重要，我们做了大量数据清洗。

以往出现这种数据噪点，是有脏数据，这也是为什么刚刚说，我们还是在1,000万上面做，做了大量数据清洗、数据储备工作，把不好的数据去掉，这样才能让训练变得稳定、收敛，这也是目前大语言模型大家常规的迭代方向，把数据精度做得越来越精细，把数据清洗的越来越干净，它训练也会越来越收敛。

第一个方向是会往FP8、INT8方面做。

另一个，FP4，这也是像英伟达这些最先进的芯片提出来的，我们能不能把算力再降1倍，原来是要8个字节才能算一个点，我们变成4个。

这里面很重要一点，模型的数值参数范围一定要够小，我们训练要更加稳定，每一次数据用量，对待你的模型训练迭代，都有更高的要求，目前看，我们有机会做到这里。

如果你想做FP4，要在训练上花更多精力，做更多数据迭代、数据清洗。

目前我们也在做这样尝试，很快可以在把Thor芯片压榨出来。

回到Orin，硬件限制，没办法做FP8这样计算，它有INT8。

我们在Orin上也是用INT4的量化，再加FP16与INT8混合精度推理，逐渐把大模型在Orin上部署。

再往后走，硬件的限制，我们不能做更多精度压缩。

我们会把VLA模型体验，放在Orin与Thor上同平台。

问20：到2,000TOPS之后，帧率能不能跑到30帧？

詹锟：目前看，我们在绝大部分场景，特别是城市，10Hz够用。

如果我们算力能用FP4，肯定是能double 20Hz。需不需要跑到30，这得看情况。

可能有人说特斯拉跑到30，我们了解到它并不是完整的30Hz，它也有一些其他方法。

我们还是把反应速度与体验做上来，不是追求一个简单的数字。

请务必阅读免责声明与风险提示

标签：模型智能 vla vla模型 mpi

【智能前线】第32期：理想智能驾驶访谈实录，VLA 8月抢先推送

相似文章

资讯分类

热门资讯

热门标签

热门产品