来自理想汽车的自动驾驶大脑,会“打草稿再改稿“的AI规划系统
这项由理想汽车LiAuto研发团队主导的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.04647感兴趣的读者可通过该编号检索完整论文。一、先说清楚自动驾驶的老毛病是什么开车这件事看起来简单背后其实藏着极度复杂的决策链条。一辆自动驾驶汽车在做出任何一个动作之前必须先预测出自己接下来几秒钟要走的路径——也就是所谓的轨迹规划。现有的AI规划系统有一个由来已久的顽疾它们会犯两类特别典型的错误。一类是纵向错误就是在速度判断上出问题要么冲得太猛要么踩刹车踩晚了要么该走却磨磨蹭蹭另一类是横向错误就是方向偏了车道走歪了、弯道切线不对、甚至压了行驶边界。这两类错误不是随机出现的它们是有规律可循的是AI在模仿人类驾驶数据时系统性积累下来的偏差。以往的规划方案大致分几类。有的系统一旦做出决定就直接执行没有任何修正机会有的系统虽然能回头看但修改一次就等于把整个决策过程从头来一遍代价极高还有一类连续扩散模型虽然可以并行生成轨迹但它本质上是在去噪还原的是随机噪声而不是针对那两类典型驾驶错误进行精准修正。这就引出了理想汽车研究团队的核心洞察既然错误是有结构的修正也应该是有针对性的。如果能让规划系统在出一个草稿之后自己再审查一遍、针对性地改掉那些已知容易出错的地方整个系统的表现就会大幅提升。这套打草稿再改稿的逻辑就是ReflectDrive-2的核心思想。二、离散扩散为什么偏偏选择这种表示方式要理解ReflectDrive-2的设计有必要先弄清楚什么是离散扩散以及它和其他方法的本质区别。传统的自动驾驶规划输出的是一段连续的数值轨迹就像在坐标纸上画出一条光滑曲线。这种连续轨迹很精确但修改起来很麻烦——你如果想改某一段就必须重新生成整条曲线或者额外训练一个专门的修改网络。ReflectDrive-2选择了一种不同的表示方式把未来8个时间点的驾驶路径离散化为一组坐标词汇表里的离散符号token可以理解为像文字一样的字符。具体来说未来4秒内的轨迹被拆分成8个路径点每个路径点有两个坐标纵向和横向一共形成16个离散的位置字符。这种离散化表示的好处在于它天然支持局部修改。如果想改掉某几个位置字符直接把那几个字符重写就行了完全不影响其他字符也不需要任何额外的修改网络。这就好比写文章时发现某几个词用错了你可以直接把那几个词改掉而不必把整篇文章重新写一遍。在这个基础上研究团队引入了掩码离散扩散机制。简单说训练时系统会把某些位置字符随机遮住替换成\[MASK\]然后学习如何根据上下文把遮住的内容猜回来。推理时系统从一个全部被遮住的序列开始每一轮揭开一批最有把握的字符经过几轮后就生成了完整轨迹。整个生成过程可以并行进行效率远高于逐字输出的自回归方式。三、三个角色同台决策、草稿、修稿ReflectDrive-2的完整推理过程可以类比为一个写作团队的工作流程先由编辑确定写作方向决策再由写手起草文章草稿最后由校对把文章中的典型错误改掉修稿。第一步是目标点预测相当于编辑确定文章的主题方向。系统会先在俯视视角的地图上预测出若干个目标位置候选点每一个目标点代表一种可能的行为方案——比如保持车道、变道超车、让行、还是以不同路线过弯。系统会用非极大值抑制可以理解为去重把太相近的候选点合并掉保留差异明显的几个筛选出多个行为假设。每一个目标点都会触发一个独立的轨迹生成分支。第二步是掩码扩散起草就是写手根据确定的主题方向起草正文。系统以确定的目标点为锚用几轮并行的掩码解码生成完整的16个位置字符轨迹。这个生成过程很快每轮都把最有把握的字符从\[MASK\]解锁出来一般只需要3到5轮就能收敛。第三步是AutoEdit自动修稿这也是整个系统最独特的部分。AutoEdit直接读取草稿轨迹的具体字符预测应该把哪些字符换成什么然后只把置信度较低的字符替换掉目标点字符保持不变因为目标点代表的是行为意图不能随意改变。关键在于AutoEdit用的是和草稿生成完全相同的那个神经网络不需要任何额外的修改网络。这种一个模型身兼两职的设计既节省了计算资源又让修改和生成在同一个语义空间内进行保持了一致性。整个推理链可以表示为场景理解 → 生成若干目标点候选 → 每个目标点并行生成轨迹草稿 → AutoEdit逐字符修稿 → 选出最优结果执行。四、为什么光靠训练还不够必须用强化学习读到这里你可能会有一个疑问AutoEdit这个修稿步骤听起来很合理但直接在训练时教会它就行了为什么还要专门用强化学习来强化研究团队给出了一个非常直白的答案而且用实验数据做了验证。在只用监督学习训练的情况下AutoEdit确实能修稿但效果非常有限——在NAVSIM基准测试中加上AutoEdit之后分数最多只提升了0.3分PDMS这是一个综合评分体系满分是100分。换句话说AutoEdit的能力存在于模型的权重里但在实际推理时几乎没有发挥出来。为什么会这样因为监督学习阶段起草网络和修稿网络是分开优化的。起草网络只负责让草稿尽量接近专家轨迹修稿网络只负责让修改后的轨迹接近干净轨迹。两者各顾各的没有人告诉起草网络你需要给修稿留余地也没有人告诉修稿网络你的修改应该让最终驾驶表现变好。两个步骤之间的协作是脱节的。强化学习的作用就是把这条链条焊死。具体做法是把整个起草修稿的过程当作一个完整的决策序列在序列最末尾才给出奖励信号就是最终轨迹的驾驶质量得分然后把这个奖励反向传播让起草步骤和修稿步骤的每一个字符替换动作都分担这个奖励或惩罚。结果立竿见影经过强化学习训练后AutoEdit带来的提升从0.3分跳升到了1.9分。起草网络学会了主动生成容易被修稿改好的草稿——也就是那种自身有点偏差但偏差方向和幅度都在AutoEdit擅长修正的范围内的轨迹。修稿网络则学会了把修改方向对准驾驶表现的提升而不是单纯降低字符级别的不确定性。两者形成了真正的配合而不是各自为战。五、AutoEdit的训练专门针对已知错误模式设计的干扰AutoEdit能修正错误但它首先得知道什么样的错误需要修。研究团队设计了一套叫做结构感知扰动的训练方案专门针对前面提到的两类典型驾驶错误制造模拟样本。针对纵向进度错误训练时会把专家轨迹沿着弧长方向进行缩放用一个随机系数乘以每个路径点的弧长坐标。当这个系数小于1时轨迹变短模拟走得太保守、速度不足当系数大于1时轨迹变长模拟冲过头、刹车太晚。针对横向偏航错误训练时会把整段轨迹在自车坐标系里旋转一个随机角度模拟方向偏了的情况。旋转时整段轨迹一起转保持了轨迹的平滑性不会产生不合理的跳变。把这些人工弄歪的轨迹转成离散字符喂给AutoEdit训练目标是让它把这些错误的字符序列直接映射回正确的字符序列。这种训练方式让AutoEdit在遇到真实推理时产生的偏差时能认出这是我见过的那类错误并用针对性的方式修正它而不是单纯凭借对字符不确定性的估计来盲目修改。六、空间约束不能压出车道外除了上述两个损失函数研究团队还加入了一个可行驶区域场损失专门防止预测轨迹跑出行驶边界。具体做法是根据当前场景的地图信息生成一个俯视视角的代价地图越靠近不可行驶区域比如路边、绿化带、对向车道代价值越高处于可行驶区域内的点代价为零同时还有一个容忍缓冲带给紧贴边界的位置一点宽容。然后把模型预测的轨迹点概率分布和这个代价地图做加权叠加惩罚那些把高概率质量分配给高代价区域的预测。这个损失函数不直接约束最终输出的轨迹点坐标而是在训练时就把不要越界的倾向编码进模型的概率分布让模型从源头上就倾向于在可行驶区域内生成轨迹。实验数据显示加入这个损失函数后可行驶区域合规率DAC一项从93.9分跳升至97.0分整体PDMS分从84.8分提升至87.2分是单个改进项中提升幅度最大的一项。七、在车上跑起来四项工程优化让延迟从45ms降到31.8ms一套再先进的规划算法如果在车载芯片上跑得太慢也没有实用价值。理想汽车的研究团队在NVIDIA Thor芯片上对整个推理栈进行了系统性优化最终把每帧平均延迟从45ms压缩到31.8ms整体加速1.42倍。第一项优化是共享前缀KV缓存复用。在整个决策—起草—修稿的流程中目标点预测、轨迹生成、AutoEdit修稿三个阶段都需要看同一份场景信息摄像头图像、导航指令、自车状态。这份场景信息对应的注意力计算结果KV缓存只需要计算一次三个阶段共用不用重复计算。这一优化让注意力算子的延迟从0.28ms降至0.08ms加速了3.5倍。第二项是动作缓存回绕与合并重写。由于掩码扩散每一步都会改变一些字符与这些字符相关的缓存就会失效。研究团队让缓存指针回绕到共享前缀的边界只重算那一小块动作字符块的缓存而不是重算整个序列。在多块边界处他们还把缓存重算和下一块的第一步字符更新合并成一步操作把边界延迟从14.7ms压缩至11.5ms。第三项是动作专家前馈网络。轨迹字符解码只用到一个受限的字符词汇表输出序列也很短。研究团队把专门处理轨迹字符的那一层前馈网络的隐藏维度从4096压缩到1024参数量大幅减少每个块的前馈延迟从2.47ms降至0.95ms。他们在轨迹质量指标上做了验证虽然最近距离误差minSADE略微上升但平均误差meanSADE和路径级误差指标都有所改善总体上是可以接受的代价。第四项是融合片上字符更新CUDA核。不管是掩码起草还是AutoEdit修稿每一步都需要对字符做置信度排序、选择哪些字符提交、更新字符状态。如果在CPU端做这些操作每一步都要进行设备间的数据同步开销很大。研究团队把这三个操作合并成一个在GPU上直接运行的CUDA核函数把每步更新延迟从0.45ms压缩至0.06ms加速7.5倍是所有单项优化中加速比最高的一项。此外还有一项系统级设计叫交替步解码。在实际行车中相邻两帧的场景变化不大完全没必要每帧都重新从头规划。研究团队设计了一种全步帧轻步帧交替模式全步帧执行完整的决策—起草—修稿流程轻步帧则把上一帧的轨迹转换到当前自车坐标系然后只用AutoEdit做一次快速的时序细化。全步帧需要45ms轻步帧只需要18.6ms平均下来就是31.8ms。在质量评估中轻步帧替换全步帧导致综合评分只下降了0.20分而可行驶区域合规率反而略微提升说明这种做法在质量上几乎无损。八、在NAVSIM基准上的成绩单NAVSIM是一个由学术界和工业界共同建立的自动驾驶闭环规划基准基于nuPlan数据集。它的核心评分指标叫PDMS预测驾驶模型评分是五个子指标的综合无责任碰撞率NC、可行驶区域合规率DAC、碰撞时间余量TTC、舒适度Comf、自车进度EP。在标准单轨迹评估模式下ReflectDrive-2以仅使用摄像头不借助激光雷达为条件达到了91.0的PDMS分。作为对比同样仅使用摄像头的其他VLA规划系统中AutoVLA得到89.1分DriveVLA-W0得到90.2分ReCogDrive得到90.8分。使用摄像头加激光雷达的GoalFlow得到90.3分DiffusionDrive得到88.1分。ReflectDrive-2在不依赖激光雷达的情况下超过了所有这些对比方法。拆解各子指标ReflectDrive-2最显眼的优势是自车进度这一项得到89.4分是所有列出方法中最高的。这意味着车辆在保证安全的前提下能更积极地完成路程任务而不是过于保守地停停走走。可行驶区域合规率98.1分和舒适度100分说明车辆始终保持在正确区域内行驶乘坐体验也很平顺。碰撞相关指标NC和TTC相对不是最优这也与更积极的进度策略有一定关系。在最优6选1的评估模式下系统会并行采样6个目标点各生成一条轨迹然后由评分器选出其中PDMS最高的那条上报。这个模式下ReflectDrive-2达到94.8分和NAVSIM公布的人类驾驶基准分数也是94.8分完全持平。从单条轨迹91.0分到最优选择94.8分之间有3.8分的差距说明目标点多样性是真实的不同目标点确实对应不同的行为策略而不是同一条轨迹的噪声变体。九、消融实验每一个组件值多少分研究团队还做了一系列去掉某一个零件看还能跑多快式的消融实验把每个组件的贡献量化得清清楚楚。仅用基础掩码扩散损失训练时PDMS是84.8分。加上可行驶区域场损失后分数跳到87.2分提升了2.4分主要体现在DAC从93.9跳到97.0说明这个空间约束损失确实有效防止了轨迹越界。在此基础上加入AutoEdit的监督训练分数再提升0.5分到87.7分。最后加上全轨迹强化学习分数达到89.1分其中EP从82.2大幅提升至89.3。再在推理时开启AutoEdit最终到达91.0分。从这个链条可以看出空间约束是提升基础安全性的核心强化学习是提升进度表现的核心而AutoEdit的真正价值只有在强化学习充分激活它之后才完整释放。在推理步数方面实验显示生成步数和AutoEdit步数都在3到5步时达到最优再增加步数反而有可能把原本好的草稿改坏这和掩码扩散的基本特性一致少数几轮足以收敛出一条好轨迹过度迭代会引入不必要的扰动。在目标点数量和去重阈值方面提供更多候选目标点能暴露更多行为假设评分也更高去重阈值设在约1.2米最优太小会保留重复的候选太大会过滤掉本应有意义的替代路线。说到底ReflectDrive-2做的事情并不神秘它给自动驾驶规划系统装上了一套先打草稿、再自我审稿的工作机制而且用强化学习把打稿人和改稿人的激励对齐了——改稿是为了让驾驶结果变好打稿是为了给改稿留出有意义的空间。这套逻辑在实验数字上的体现就是AutoEdit在监督学习阶段只贡献了0.3分的提升在强化学习介入后贡献了1.9分整整扩大了六倍多。这个对比数字是整篇论文最核心的那条线索其他一切设计选择都可以从这里出发理解。对于普通人来说这项研究意味着未来搭乘自动驾驶车辆时车辆在做出路径决策后还会快速自检一遍——就像一个有经验的司机在转动方向盘前会下意识地再确认一下方向是否正确。这种自我纠错能力的引入或许是自动驾驶系统从能用走向好用的关键一步之一。对那些对技术细节感兴趣的读者研究团队还坦诚地指出了当前系统的局限轨迹字符的坐标分辨率受词汇表大小限制当前的干扰训练只覆盖了纵向和横向两类错误多车交互场景中的让行时机、切入响应等更复杂的错误模式还有待扩展强化学习用的奖励函数仍然是一个轻量的代理指标距离真实世界的驾驶目标还有距离。这些开放问题为后续研究指明了方向也让这套工作的边界变得非常清晰。有兴趣进一步研究的读者可以通过arXiv编号2605.04647查阅完整论文其中包含所有公式推导、超参数设置和更详细的实验数据。QAQ1ReflectDrive-2的AutoEdit和普通的轨迹优化有什么本质区别A普通轨迹优化通常需要一个独立的优化网络或者依赖手工设计的平滑规则和生成轨迹的主网络是分离的。AutoEdit用的是和起草轨迹完全相同的那个网络直接在离散字符层面做原位替换不需要任何额外模块。更关键的区别是AutoEdit通过强化学习和起草网络联合优化两者共享同一个驾驶质量奖励信号形成了真正的协作而不是串联的两个独立模块。Q2NAVSIM的PDMS分数91.0分和人类驾驶的94.8分差距有多大实际驾驶中意味着什么APDMS是五个子指标的综合分单条轨迹评估下两者相差3.8分。在ReflectDrive-2最优6选1的模式下系统已经与人类基准持平。3.8分的差距主要体现在碰撞相关指标NC、TTC和极端场景处理上实际驾驶中对应的是在少数复杂交互场景中的决策保守性或激进性略有偏差并非系统性安全问题。Q3强化学习阶段的奖励信号是怎么计算的车辆需要真的上路跑吗A不需要真实上路。NAVSIM是一个数据驱动的非反应式仿真基准奖励信号通过回放真实驾驶数据并用规则评估预测轨迹的质量来计算包括碰撞检测、区域合规、舒适度、进度等维度整个过程在离线数据集上完成不依赖闭环仿真器或真实车辆。