Reinforcement Learning for End-to-End Autonomous Driving: From Offline DPO to Iterative Self-Improvement

引言

将强化学习（Reinforcement Learning, RL）集成到端到端自动驾驶系统中，已成为突破监督学习轨迹规划能力天花板的可行方向。然而标准 RL 算法在驾驶任务上的直接应用面临三重基本挑战：日志回放环境中难以弥合的 sim-to-real gap、在线仿真造成的计算瓶颈，以及为连续轨迹生成定义稠密 reward signal 的固有困难。

本文从 post-training alignment 的视角审视端到端自动驾驶的 RL 流水线。我们首先讨论 metric caching 如何实现环境评估与模型训练的解耦；接着分析 DPO（Direct Preference Optimization）在离散 token、连续回归和扩散模型三种动作表示下的适配方式，并阐明离线 RL 与在线 RL 在驾驶场景下的结构性差异；最后给出三种打破 sampling ceiling 的策略。

Metric Caching：解耦评估与训练

现代驾驶 RL 流水线最核心的工程洞察在于通过预计算的 metric cache 将环境仿真与模型训练彻底分离。Metric cache 是一份真实环境数据与场景上下文的序列化快照，其设计目的单一——加速预测轨迹的评分。

Cache 内部封装了五个关键组件。Reference trajectory 由规则式规划器（通常是 Intelligent Driver Model）生成，作为评分基准。Ego state 记录自车的初始位姿——位置、速度和航向角。Observation 字段存储所有周围 agent 在 10 Hz 下插值得到的 ground-truth 未来轨迹，使评估器能够执行精确碰撞检测。Centerline 与 route lane ID 编码可行驶路径信息，用于计算进度指标和方向合规性。Drivable area map 以多边形表示道路边界，支撑 off-road detection。

生产环境的 pipeline 分三个阶段完成 cache 构建：先从驾驶数据库加载原始场景并由规则规划器生成参考轨迹，再对 agent 轨迹做插值并提取地图特征，最终将所有组件序列化为压缩文件。进入评估阶段后，模型只需输出预测轨迹，评分模块加载 cache 即可独立完成三项核心计算——与 observation 做碰撞检测、与 drivable area map 做越界检查、与 centerline 做进度度量——全程不触碰原始数据库。

这一设计的深远意义在于它使 Generate-Score-Train 循环成为可能。预计算全部环境信息意味着系统可以在秒级内对同一场景评估数千条候选轨迹，从而高效产出 DPO 训练所需的 preference pairs。

Post-training Pipeline：面向轨迹规划的 DPO

采样与 Preference Pair 构建整个 post-training pipeline 的起点是 sampling。对于每个输入上下文——包含多相机观测、导航指令和 ego history——模型采样 $K$ 条候选轨迹（实践中 $K$ 通常取 128）。每条轨迹送入 scoring module 后得到一个多维得分向量，维度包括 collision penalty、drivable area compliance、ego progress、time-to-collision、comfort 以及加权总分。

候选轨迹经由 Vector Quantization（VQ）模块编码为离散 action sequence。具体地，每条轨迹被表示为 8 个 discrete token ID 组成的序列，对应以 0.5 s 间隔向前预测 4 s。模型在采样的同时记录下所选 action token 及其当前 policy 下的 log probability，这些数据作为后续 DPO 训练中的 reference policy probability $\log \pi_{\text{ref}}(a|x)$ 持久化保存。

Preference pair 的构造逻辑简洁有力：以加权总得分最高者为 winner、最低者为 loser。关键工程细节在于 reference policy probability 在 sampling 阶段即已记录完毕，因此训练过程中无需维护一个独立的 frozen reference model——这大幅降低了内存开销和实现复杂度。

DPO Loss Formulation对于离散 action space，DPO loss 沿用标准形式。记 $y_w$ 为 winner 轨迹、 $y_l$ 为 loser 轨迹，自回归模型下轨迹的 joint log-probability 等于各步 log-probability 之和：

\log \pi(y|x) = \sum_{t=1}^{T} \log \pi(a_t | a_{<t}, x)

DPO loss 定义为：

L_{\text{DPO}} = -\log \sigma\left(\beta \left( \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right)\right)

其中 $\beta$ 控制策略偏离 reference policy 的程度。训练时的具体实现为：在模型输出的 logits 上对实际 action token 对应位置做 gather 操作，取 log 后沿时间步求和得到 $\log \pi_\theta$ ；reference log-probability 则直接从缓存的 sampling 数据中读取。

为了监控训练动态，可以进一步计算 implicit reward：

r(x, y) = \beta \left(\log \pi_\theta(y|x) - \log \pi_{\text{ref}}(y|x)\right)

DPO 的优化目标直观而言就是拉大 winner 与 loser 之间的 implicit reward 差距——提升前者的同时压低后者。

不同 Action Space 下的 DPO 适配Action representation 的选择从根本上决定了 DPO 中 $\log P(y|x)$ 的计算路径，每种选择都隐含着不同的工程权衡。

离散 Token Space在离散设定下，模型从一个 learned codebook（典型规模 8192 条目）中输出 token ID 序列。Log-probability 通过标准的 softmax 计算：

\log P(y|x) = \sum_{t=1}^{T} \log \frac{\exp(z_{a_t})}{\sum_{k=1}^{K} \exp(z_k)}

这种表示天然支持 multi-modal 分布、提供精确的概率测度、对噪声具有鲁棒性，且与 policy gradient 方法直接兼容。其代价是 discretization 引入的精度损失，以及 action space 扩张时面临的 curse of dimensionality。不过在驾驶领域，这一局限并非致命——codebook 可以被训练得足够好以有效覆盖相关 trajectory manifold。

连续 Regression当模型直接回归轨迹坐标时，log-probability 只能在某种分布假设下近似。最通用的做法假设 Gaussian 分布并以模型输出为均值、固定方差为 $\sigma^2$ ：

\log P(y|x) \propto -\frac{1}{2\sigma^2} \|y - \mu_\theta(x)\|^2

换言之，负 MSE 充当 log-probability 的 proxy。此时 DPO loss 退化为一个 contrastive objective——将模型的预测拉近 winner 轨迹、推离 loser 轨迹：

L_{\text{DPO-Reg}} = -\log \sigma\left(\beta \left[-\|y_w - \mu_\theta\|^2 + \|y_w - \mu_{\text{ref}}\|^2\right] - \left[-\|y_l - \mu_\theta\|^2 + \|y_l - \mu_{\text{ref}}\|^2\right]\right)

更成熟的模型如 Trajectron++ 和 MultiPath 输出 Gaussian Mixture Model，参数组为 $(\pi_k, \mu_k, \Sigma_k)$ ，概率密度函数为：

P(y|x) = \sum_{k=1}^{K} \pi_k \cdot \mathcal{N}(y | \mu_k, \Sigma_k)

采样轨迹的 log-probability 通过 mixture components 上的 log-sum-exp 计算。连续 regression 的优势在于精确的坐标预测和极快的推理速度，但其致命弱点是 averaging curse——mode-averaged prediction 会向 multi-modal distribution 的均值坍缩，导致决策点处生成的轨迹失真。

Diffusion Model基于扩散的轨迹解码器通过 iterative denoising 过程生成连续坐标。计算 DPO 所需的 $\log P(y|x)$ 需要换一条思路：以 denoising reconstruction error 作为 negative log-likelihood 的 proxy：

\log P_\theta(x) \approx -\mathbb{E}_{t, \epsilon}\left[\|\epsilon - \epsilon_\theta(x_t, t)\|^2\right]

背后的直觉是：如果模型能准确还原添加在某条轨迹上的噪声，那么该轨迹在模型分布下就具有较高的似然度。落实到 DPO，loss function 比较 winner 和 loser 的 denoising error：

L_{\text{Diffusion-DPO}} = -\log \sigma\left(\beta\left[\|\text{Error}_{\text{Loser}}\|^2 - \|\text{Error}_{\text{Winner}}\|^2\right]\right)

Winner 轨迹应当更容易去噪（error 更低），loser 则相反。Diffusion model 同时具备 multi-modality 和高精度及物理一致性，但代价是对超参数敏感且推理延迟较高。

对比小结三种 action representation 在 DPO 框架下的核心特征可归纳如下表。

模型类型	输出	Log-probability Proxy	DPO 目标	核心优势	主要局限
Discrete (VQ)	Token IDs	$\log \text{Softmax}(\text{logits})$	提升 winner token logit	Multi-modal、精确概率、RL 友好	精度损失、curse of dimensionality
Regression	$(x,y)$ 坐标	$-\text{MSE}(\text{pred}, \text{target})$	向 winner 坐标靠拢	精确、推理快	Mode averaging、分布假设
Diffusion	$(x,y)$ 坐标	$-\text{MSE}(\text{pred\_noise}, \text{noise})$	使 winner 更易去噪	Multi-modal + 精确、物理一致	超参数敏感、慢

驾驶场景下的 Offline RL vs. Online RL

Contextual Bandit 结构大多数运行于 log-replay 数据的端到端驾驶系统中，RL 问题具有与 PPO 或 DQN 等 standard MDP 算法所预设的结构根本不同的形态。在时刻 $t=0$ ，模型观测当前场景并一次性输出完整的前向轨迹（例如 8 秒）。这里不存在 sequential interaction——模型无需在决定第 2 秒的动作之前观察第 1 秒的执行结果。环境 feedback 仅在整条轨迹生成并评估完毕后才姗姗来迟。

这意味着问题实质上退化为一个 Contextual Bandit：环境即交通场景，action 即生成的轨迹，reward 即评估得分。模型单次提交一个 action（完整轨迹）并获得 scalar reward，期间没有任何 intermediate state transition。

为什么迭代离线路径优于朴素在线当前 pipeline 运行于 offline-to-online 迭代模式。场景数据（“prompt”）来自真实 driving log 且保持固定；经验数据（“sample”）则由模型自身通过 sampling 产生。这种 self-generated experience 相比传统 offline RL 仅依赖 human demonstration 是一项关键优势——模型得以从自身失败中汲取教训，一条表面平滑却在第 3 秒引发碰撞的轨迹就是极佳的 negative example。

Offline sampling 相比 genuine online RL 在工程层面拥有四项显著优势。计算层面上，online RL 受困于 CPU/IO 瓶颈——GPU 在等待 simulator 完成步进；offline sampling 则可将 CPU 集群的采样结果落盘，GPU 以接近 100% 的利用率持续训练。数据效率方面，on-policy RL 的样本在一次更新后即被丢弃，而 offline sampling 支持样本跨多个 epoch 复用。稳定性方面，online RL 容易因单个 bad batch 导致 policy collapse；offline 模式则享有全局视角，cache 可在训练启动前统一清洗。吞吐量上，simulator 通常只能跑到 10–20 Hz，而 CPU cluster 上的 sampling 可以完全并行化。

Simulator FlawOnline RL 在 log-replay 环境中还面临一个更深层的障碍——simulator flaw。绝大多数驾驶 benchmark 中，周围 agent 无论 ego vehicle 如何行动都会忠实地回放其录制轨迹。当 ego vehicle 急转撞入相邻车道时，那辆车不会有任何反应——它只是一辆 “ghost car”。Online RL agent 会迅速利用这一缺陷，要么学会过度保守的策略（有车在旁时绝不移动），要么学会过度激进的策略（ exploit 其他车辆永不反应的事实）。这两类策略都无法迁移到真实世界。

打破 Sampling CeilingGenerate-Score-Train pipeline 的根本限制可以用一个简单的不等式概括：

\text{Training Ceiling} = \max(\text{Samples})

当模型能力不足以至于所有 $K$ 条 sampled trajectories 都质量堪忧时，DPO 只能在其中选出"最不差"的那条作为 winner。模型学会了分辨 bad 与 worse，却从未见识过真正优质的轨迹。以下三种策略可用于突破这一天花板。

迭代自改进最务实的方案不需要任何架构改动，仅调整 training loop 即可。将单轮 sampling + training 替换为迭代流程：初始模型 $\pi_0$ sampling 得到数据集 $D_0$ ，在其上训练得到改进后的 $\pi_1$ ； $\pi_1$ 再次 sampling——此刻它能探索 $\pi_0$ 力所未及的状态空间区域——得到 $D_1$ ；在 $D_1$ 上继续训练产出 $\pi_2$ 。如此往复 $N$ 轮。

每轮迭代都将 sampling distribution 向更优区域推移。首轮可能发掘出"慢但安全"的轨迹；次轮建立在更强 policy 的基础上，有望触及"快且安全"的区域。这其实是带 iterative data collection 的 off-policy RL，同时保留了 offline pipeline 的工程简洁性。

Test-time Compute 与 Search这条路线升级 sampling process 而非改变模型本身。Guided sampling 利用扩散模型的结构特性，在 reverse denoising 过程中注入 lightweight cost function，引导轨迹生成走向无碰撞区域——在不增加模型训练开销的前提下抬高 sample quality 下限。Tree search（如 MCTS）则是另一种思路：先生成大量候选轨迹（例如 1000 条），再用 fast value model 预筛出少量轨迹（例如 10 条）送入昂贵的 evaluation module。这种做法将计算开销前置到数据生成阶段，其实就是 sampling 时进行"思考"，再将思考结果 distill 到 trained model 中。

Expert Injection提升天花板最直接的途径是引入外部专业知识。Sampling 阶段让 rule-based 或 optimization-based planner（如 lattice planner）生成若干轨迹混入 candidate pool。这些 expert trajectory 自然成为 preference pair 中的 winner，迫使模型习得"专家规划器如何处理此类局面"。随着训练推进，model internalizes expert 的决策模式，同时保留 neural network 在 rule-based planner 失效场景下的 generalization 能力。

讨论Generate-Score-Train 范式已成长为将大型模型（LLM、VLM 或端到端驾驶系统）align 到期望行为的事实标准方法。它的核心竞争力在于工程务实性：将昂贵的 simulation step 与 GPU-intensive training step 解耦，支持数据复用与训练前质量把控。贯穿全文的核心洞察可以概括为一句话：在此框架下，sampling quality 决定了 performance ceiling，loss function 仅决定模型逼近该 ceiling 的效率。

上述三种突破 sampling ceiling 的策略之间是互补关系而非互斥关系。Iterative self-improvement 提供了模型能力的自然递进路径；test-time search 以数据生成阶段的额外算力换取更好的 sample quality；expert injection 则通过引入外部知识实现即时性能跃升。工业界最有效的实践往往是三者的组合拳：用 expert trajectory bootstrap 第一轮迭代，用 iterative self-improvement 逐步拓展 frontier，用 guided sampling 或 tree search 最大化每一轮的 sample quality。

从 offline DPO 迈向 genuine online RL 的道路依然漫长。Simulator flaw——log-replay agent 的非交互本性——是一道算法层面无法逾越的基本障碍。应对之策只有两条路：构建更具真实性的 reactive simulator，或将 log-replay evaluation 与 learned environment model 融合为 hybrid 方案。在此之前，兼具工程简洁性与实证有效性的迭代离线路径仍是 production system 的最优选择。

参考文献

1. Rafailov, R., Sharma, A., Mitchell, E., et al. “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” NeurIPS, 2023.

2. Wallace, B., Dang, M., Rafailov, R., et al. “Diffusion Model Alignment Using Direct Preference Optimization.” arXiv:2311.12908, 2023.

3. Shao, Z., Wang, P., Zhu, Q., et al. “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.” arXiv:2402.03300, 2024.

4. Chai, Y., et al. “UniAD: Planning-oriented Autonomous Driving.” CVPR, 2023.

5. Daoud, A., et al. “DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving.” arXiv, 2024.

6. Hu, Y., et al. “Planning-oriented Autonomous Driving via Interactive Multi-agent Modeling.” NeurIPS, 2023.

7. Silver, D., Huang, A., Maddison, C.J., et al. “Mastering the Game of Go with Deep Neural Networks and Tree Search.” Nature, 2016.

8. VAE-based discretization: van den Oord, A., Vinyals, O., and Kavukcuoglu, K. “Neural Discrete Representation Learning.” NeurIPS, 2017.

9. Petrov, A., et al. “Trajectron++: Dynamically-Feasible Trajectory Forecasting with Heterogeneous Data.” ECCV, 2020.

引言#

Metric Caching：解耦评估与训练#

Post-training Pipeline：面向轨迹规划的 DPO#

DPO Loss Formulation对于离散 action space，DPO loss 沿用标准形式。记 ywy_w 为 winner 轨迹、yly_l 为 loser 轨迹，自回归模型下轨迹的 joint log-probability 等于各步 log-probability 之和：#

不同 Action Space 下的 DPO 适配Action representation 的选择从根本上决定了 DPO 中 log⁡P(y∣x)\log P(y|x) 的计算路径，每种选择都隐含着不同的工程权衡。#

离散 Token Space在离散设定下，模型从一个 learned codebook（典型规模 8192 条目）中输出 token ID 序列。Log-probability 通过标准的 softmax 计算：#

连续 Regression当模型直接回归轨迹坐标时，log-probability 只能在某种分布假设下近似。最通用的做法假设 Gaussian 分布并以模型输出为均值、固定方差为 σ2\sigma^2：#

Diffusion Model基于扩散的轨迹解码器通过 iterative denoising 过程生成连续坐标。计算 DPO 所需的 log⁡P(y∣x)\log P(y|x) 需要换一条思路：以 denoising reconstruction error 作为 negative log-likelihood 的 proxy：#

对比小结三种 action representation 在 DPO 框架下的核心特征可归纳如下表。#

驾驶场景下的 Offline RL vs. Online RL#

打破 Sampling CeilingGenerate-Score-Train pipeline 的根本限制可以用一个简单的不等式概括：#

参考文献#

相关文章

引言