扩散模型与自动驾驶规划:从去噪的数学到轨迹的生成
为什么自动驾驶需要扩散模型? 自动驾驶规划的核心难题在于"找到正确的轨迹分布",而非仅仅是"找到一条轨迹"。 考虑一个简单场景:自车接近一个无信号灯的 T 字路口。存在三种合理选项——左转、右转、直行通过。传统回归模型(L1/L2 损失)训练后面对此场景会输出三条轨迹的平均值:一条斜向路口中央的无意义曲线。这是损失函数的结构性局限,而非模型的能力缺陷——L2 回归在多模态分布上的最优解恰好是条件均值,而条件均值在物理上可能根本不可行。 ...
为什么自动驾驶需要扩散模型? 自动驾驶规划的核心难题在于"找到正确的轨迹分布",而非仅仅是"找到一条轨迹"。 考虑一个简单场景:自车接近一个无信号灯的 T 字路口。存在三种合理选项——左转、右转、直行通过。传统回归模型(L1/L2 损失)训练后面对此场景会输出三条轨迹的平均值:一条斜向路口中央的无意义曲线。这是损失函数的结构性局限,而非模型的能力缺陷——L2 回归在多模态分布上的最优解恰好是条件均值,而条件均值在物理上可能根本不可行。 ...
引言 将强化学习(Reinforcement Learning, RL)集成到端到端自动驾驶系统中,已成为突破监督学习轨迹规划能力天花板的可行方向。然而标准 RL 算法在驾驶任务上的直接应用面临三重基本挑战:日志回放环境中难以弥合的 sim-to-real gap、在线仿真造成的计算瓶颈,以及为连续轨迹生成定义稠密 reward signal 的固有困难。 ...
引言 端到端自动驾驶近年来取得了显著进展,然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。基本困难有四。其一,多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化,而非仅处理静态快照。其二,驾驶决策必须是因果性的:模型必须建模为何采取某动作,而非仅学习场景与动作之间的统计相关性。其三,预测轨迹必须在满足运动学和动力学约束的同时保持多模态性,且足够高效以实现实时推理。其四,推理过程必须与动作输出紧密对齐——推理不应是事后合理化,而必须可被实际执行的动作验证和约束。 ...
1. 为什么端到端驾驶需要强化学习 Figure from AlphaDrive: GRPO-based RL for Autonomous Driving 监督学习——无论是通过模仿学习(imitation learning)还是行为克隆(behavior cloning)——只能将自动驾驶系统带到一定水平。其根本局限在于分布性:训练数据来自专家演示,训练与部署之间的任何分布偏移都会导致误差累积。更关键的是,监督目标与驾驶的真正目标存在错位。最小化与真实轨迹的 L2 距离会同等严厉地惩罚安全偏差和危险偏差,且没有机制让模型发现比数据集中更好的轨迹。 ...
引言 自动驾驶架构的演进经历了一次范式转换:从经典的模块化流水线(感知 →\to 预测 →\to 规划 →\to 控制)转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识:模块化接口会施加信息瓶颈,而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。 ...
Figure from DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving 自回归(Autoregressive, AR)轨迹生成——将驾驶轨迹预测为离散 token 的序列,就像语言模型预测文本一样——已成为端到端自动驾驶的强大范式。但如何将连续轨迹转化为离散 token?如何确保分词后的表示保留足够的规划保真度?AR 范式又如何与扩散模型和强化学习结合以产生 SOTA 结果?本文将完整梳理整个流程,从分词理论到 RL 后训练。 ...
轨迹规划器是自动驾驶系统的决策核心。其任务为:给定当前场景,输出一条安全、舒适且高效的未来轨迹。当今大多数生产系统使用某种形式的回归——最小化预测轨迹与真值轨迹之间的距离。然而,越来越多的研究和工程证据表明,这种方法存在一个基本缺陷:它假设可行集(Feasible Set)是凸的,而事实上它绝非如此。本文阐述从第一性原理出发的论证:为什么生成式方法(扩散、自回归)是必要的范式转换,而非仅仅是改进。 ...