CMU团队提出RT-VLA:双分支解耦+多级蒸馏,让端到端自动驾驶模型提速44倍!
「大模型当老师小模型跑车上」目录01 双分支解耦多级蒸馏02 性能小幅衰减效率实现跨越式提升03 行业定位与技术思辨04 写在最后在自动驾驶领域VLA模型凭借感知、推理、决策一体化的能力成为端到端自动驾驶的主流技术方向。但主流大尺寸VLA模型依赖重型骨干网络与自回归推理逻辑推理延迟居高不下很难在车流密集、路况多变的城市道路实现实时响应。卡内基梅隆大学团队推出的RT-VLA创新性采用多级知识蒸馏双分支解耦方案在保留原有驾驶性能与语言解释能力的前提下大幅压缩推理耗时为高性能VLA模型走向车载量产提供了可行路径。该方案区别于传统单一输出蒸馏的轻量化思路从视觉、特征、轨迹、语言多维度迁移大模型能力同时将实时驾驶与离线语言推理拆分有效平衡了模型效率与可解释性。01 双分支解耦多级蒸馏RT-VLA 整体由冻结的大型教师模型 SimLingo和轻量化学生模型构成核心设计分为双分支运行架构与分层蒸馏训练体系摒弃了传统VLA模型推理、解释模块绑定的模式。图 | RT-VLA学生模型整体架构学生模型分为实时驾驶分支和离线语言推理分支两套分支共享视觉编码模块实现特征复用。实时驾驶分支作为核心运行链路选用轻量化EVA-02视觉编码器替代教师端的InternVL-2结合可学习查询、路径与速度嵌入向量直接输出几何轨迹点和时序速度指令全程无自回归运算以此保障毫秒级推理速度。语言推理分支为辅助模块通过Perceiver重采样器压缩视觉特征搭配小型Llama语言模块生成驾驶解说与决策说明。在车辆正常行驶时该分支处于休眠状态仅在故障复盘、行为分析等场景下调用历史观测数据离线运行彻底规避语言自回归带来的额外延迟。图 | 多级蒸馏与在线微调框架为缩小师生模型之间的能力差距研究团队设计了全链路多级蒸馏策略不再局限于最终动作输出。训练阶段全程冻结SimLingo教师模型从四个维度构建损失函数完成知识迁移。由于师生模型的特征维度、序列长度存在差异模型引入适配算子完成维度与序列对齐再分别计算视觉特征损失、查询特征损失、轨迹预测损失与语言对数概率损失。整套训练流程分为两个阶段第一阶段优先优化驾驶相关损失夯实模型行车能力第二阶段冻结驾驶分支单独微调语言模块。在此基础上团队补充在线语言微调让学生模型基于自身生成的文本继续学习进一步弥合训练与推理之间的分布偏差。02 性能小幅衰减效率实现跨越式提升本次实验基于CARLA仿真平台的Bench2Drive数据集开展选取SimLingo、SimLingo-BASE作为横向对比对象从驾驶得分、单帧推理耗时、语言解说质量三大维度完成评测测试硬件统一为NVIDIA A100 40GB显卡。图 | Bench2Drive数据集综合性能对比从核心数据来看RT-VLA在性能与效率之间取得了理想平衡。纯视觉驾驶模式下模型单帧推理耗时仅34.48毫秒对比原版SimLingo的1544.34毫秒提速达到44.8倍启用视觉加语言全功能模式后耗时为196毫秒依旧实现7.9倍加速。即便和轻量化基线SimLingo-BASE相比推理速度也提升19%延迟表现完全满足车载实时控制的硬性要求。性能层面RT-VLA驾驶得分为85.19分略高于SimLingo的85.07分与不带语言模块的SimLingo-BASE85.94分仅相差0.75分。语言解说评分50.9分相比教师模型51.8分的分数差距极小说明多级蒸馏完整继承了原模型的语言推理能力。需要客观看待的是该组实验均在仿真环境中完成数据集路况、光照、干扰因素经过标准化处理和真实复杂道路存在域偏差仿真高分不能直接等同于实车表现仅能证明算法架构的有效性。为进一步验证蒸馏与微调模块的必要性团队设置多组消融实验直观展示各组件的作用。图 | 蒸馏与在线语言微调消融实验实验结果清晰体现了核心模块的价值未使用蒸馏的原生轻量化模型驾驶得分仅34.05分语言评分44.6分单纯缩小模型规模无法习得有效的驾驶策略加入多级蒸馏后驾驶得分飙升至85.17分语言能力同步提升证明跨层级知识迁移是轻量化模型复刻大模型能力的关键追加在线语言微调后语言解说质量提升至50.9分驾驶性能保持稳定补齐了文本生成环节的分布缺陷。除量化数据外团队还开展闭环实景对比测试。在驶出车位、高速变道两大典型场景中RT-VLA的响应速度优势十分明显。驶出车位场景里RT-VLA在1.5秒就完成避障并汇入车流而SimLingo因延迟问题27.5秒仍未完成操作高速变道场景中RT-VLA同样能更快完成轨迹调整。同时模型支持离线语言解释功能针对偏离路线、闯红灯、追尾等典型故障可自动描述场景与行为为模型迭代、故障溯源提供支撑。图 | 闭环驾驶场景定性对比03 行业定位与技术思辨当前自动驾驶VLA模型的轻量化路线主要分为两类一类是网络剪枝、量化等传统模型压缩手段操作简单但容易破坏模型特征表达能力造成性能大幅下滑另一类便是知识蒸馏也是行业主流探索方向。RT-VLA的差异化在于多数蒸馏方案仅聚焦动作输出迁移而该模型打通视觉、中间特征、轨迹、语言全链路同时用分支解耦的方式隔离实时任务与解释任务解决了“可解释性”和“低延迟”难以共存的行业难题为VLA模型落地提供了新范式。图 | 驾驶异常场景的离线语言解释示例结合论文内容与行业现状该方案的短板也较为突出。首先模型仅采用单目相机作为感知硬件未融合激光雷达、毫米波雷达在雨、雾、弱光等恶劣环境下感知鲁棒性会明显下降。其次模型训练与测试全部依托仿真平台仿真场景与真实路况存在天然差距落地前需要完成大量真实场景适配与数据迭代。最后整套训练体系仅以模仿学习、蒸馏学习为主未引入显式安全约束优化面对极端突发场景依旧存在碰撞等安全风险。这些问题也是目前多数仿真训练自动驾驶模型的共性短板。04 写在最后RT-VLA的核心价值是用多级监督蒸馏结合分支解耦架构破解了高端VLA模型“性能强但延迟高无法落地”的行业痛点。它没有为了极致速度过度牺牲模型能力而是通过分层知识迁移让轻量化模型完整继承大模型的驾驶逻辑与语言推理能力同时依靠架构拆分实现实时控制与离线解释各司其职。结合现有能力来看该模型现阶段更适配园区接驳车、低速通勤车等封闭、半封闭自动驾驶场景这类场景车速低、路况简单对延迟和行为溯源需求较高。后续若补齐多传感器融合、安全约束优化、真实场景域适配等能力有机会向城市乘用车领域延伸。整体而言RT-VLA不仅为自动驾驶VLA模型提供了轻量化落地思路其多级蒸馏与分支解耦的设计也可迁移至机器人、智能座舱等其他大模型应用场景具备较强的参考价值。