中国公司在CVPR比赛中拔得头筹,L3技术障碍正在被不断填平

发布时间:2025-06-24 17:13  浏览量:2

在全球自动驾驶领域,一项公认的技术挑战是:如何从每日产生的海量、高度冗余的数据中,快速定位并提取出那些对提升系统安全与体验至关重要的特殊驾驶场景。这些关键场景的有效利用,是改进路径规划和决策算法的核心。

但这个难点正在被中国公司攻破。

刚刚结束的CVPR 2025自动驾驶研讨会,Argoverse2 2025场景挖掘挑战赛结果揭晓,这是由全球顶级机构argoverse举办的是一个面向自动驾驶领域的时空事件检测国际竞赛。比赛主办方通过 EvalAI 平台发布任务,吸引全球团队用 AI 技术解决“如何在复杂场景中自动识别并精准定位特定事件”的难题。全球一共有8家顶级机构参与,中国极氪智驾团队拔得头筹。

我们按照逻辑线来拆解一下这个事情到底难在哪,为什么值得重点说一下。

首先来看看挑战赛的核心任务:如何从海量数据里精准挖掘出那些最关键的 corner case 场景,定位相关物体,预测其轨迹。

做这个事情的目的有两点:

1、提升数据的利用效率,把数据中有价值的提炼出来喂给大模型。

2、根据这些数据特征反向用来优化世界模型的仿真算法,做更好的 corner case 强化学习。

因为系统无时无刻不在处理和过滤海量信息,如果“大脑”反应不过来很容易漏掉很多关键信息;而且现在智驾系统在大部分都采用强化学习(持续输入同类型高价值数据让系统训练)的方式提升系统的稳定性和能力上限,数据来源是一个巨大的挑战,这个事情就解决了数据来源问题。

显然,在自动驾驶里,这项能力非常有必要。但要拥有这项技能,挑战非常大。来看看极氪智驾团队的解题思路。

1、全局情景洞察,以及全局自反思(In-context Learning, reflective capabilities)。将成千上万个不同的场景描述,打包成一个巨大的“信息包”,一次性展示给大语言模型。大语言模型在庞大的信息上下文中,能自主发现规律、建立联系,从而实现“举一反三”。大模型遇到一个新问题时,能立刻从“记忆”中调取相似的案例进行类比,大大提升了理解的深度和准确性。从长时记忆里面提取有效信息从而增强模型的准确性得益于极氪智驾团队目前对数字先觉网络的应用。

这个“记忆触发机制”有点像人体内的疫苗抗体,第一次记忆病毒,后面再碰到的时候第一时间采取措施。有一点需要特别强调,它的泛化能力非常,并不只是记忆完全一模一样的场景,类似的场景也能举一反三。比如在同一个十字路口,发生的极端场景,如果把雨天改成雾天,雪天,或者把车辆白色变成红色,甚至交通参与者变化等等,它都可以自动调出记忆对比。这就是强大的泛化能力。

2、多智能体协作与自校正。“大语言模型程序员”与“大语言模型审查员”相互协作,一个“生成器”智能体负责快速将人类语言转换成代码,而另一个“精炼器”智能体则扮演着严苛的“代码评审专家”,负责检查和优化。这种自我校正机制,让整套 系统拥有了交叉校验协作的能力,两个智能体具有不同能力,一起实现更好的效果。

这个其实比较好理解了,系统里面有很多分支,自己识别场景,然后“编写代码”,然后在自纠代码质量,有问题改正,没问题就执行。

回到实际的自动驾驶场景,在工程部署上,它的意义重大:

一、首先是为公司相关领域的时空事件分析提供了可落地的技术参考。

1、赋能下一代智驾架构的底层验证。

突破性验证:极氪首创的双大模型代理+元代码生成框架,成功解决了"复杂时空事件精准定位"这一端到端智驾的核心难点,为L3级的场景理解能力提供了可复用的技术范式。

大家都知道,在复杂时空里定位其实是一件非常难的事情。比如在一个超大型的双向8车道十字路口,行人,自行车,电动车,4轮汽车,大小货车各种交通参与者混行时,每一个交通参与者都在两两交互,而且随时都可能与自车产生交互,如何精准识别并且定位这些交通参与者背后决定了自车智驾的安全性和舒适性。极氪通过这样双管齐下的方式解决了这个问题。

架构迁移价值:方案已成功应用于9X的数据挖掘体系,证明其可高效提取海量行车数据中的高价值corner case(如"车辆礼让行人""路口急刹"等复杂事件),构建世界模型的极端场景数据库,大幅加速端到端智驾模型的迭代进化。

这件事极氪已经计划部署在即将上市的9X车型上,并非停留在实验室的理论阶段。并且搭建了关键事件场景库。

安全性提升:安全性的关键在双重过滤机制。传统单模型错误往往呈现连续性特征,而多智能体因训练差异形成交叉验证,就像冗余芯片设计。实际测试中,这种架构在极端工况下错误率下降,因为两个模型同时错误的概率指数级降低,全自动挖掘高危场景,让L3系统具备持续拓域能力,能力覆盖范围大幅度提升。

其实就是安全冗余的自检工序更复杂了。这个有点像电路的串并联,传统的单模型机制串联,一个地方出错,电流就断了,而极氪的思路更像是并联,“客厅”的线路有问题不影响“卧室”的线路继续工作。甚至在这个基础上更进一步,二者之间相互“纠错”。

2、十倍级效率跃升:重构数据价值链条。

数据反哺闭环:构建"风险场景挖掘→仿真强化学习→模型优化"的自动化链路,让每公里路测数据产生十倍价值,解决L3长尾场景数据匮乏痛点,直接推动智驾功能实现从"跟随"到"领跑" 的质变。

自动驾驶拼到最后其实就是数据能力,包括数据的收集,回传,清洗,存储,再利用等一系列工序。这个场景识别定位技术的突破帮助极氪率先在L3搭建了这样一套数据自循环机制。

泛化能力突破:通过全局记忆机制让大语言模型批量处理场景描述,实现跨场景的推理泛化,即使在"黑夜行人突然横穿+车辆避让"等长尾组合事件中仍保持稳定表现。

其实就是并发能力,在复杂场景下可以同时处理多个任务,不至于“手忙脚乱”。

不管对企业自己还是整个智驾行业,极氪的这套场景识别定位能力都是行业一次不小的突破,并且获得了国际顶尖机构CVPR的认可。随着在相关车型的工程化部署能力得到验证,更高级别的L3自动驾驶技术障碍正在被不断清除。