轨迹规划器是自动驾驶系统的决策核心。其任务为:给定当前场景,输出一条安全、舒适且高效的未来轨迹。当今大多数生产系统使用某种形式的回归——最小化预测轨迹与真值轨迹之间的距离。然而,越来越多的研究和工程证据表明,这种方法存在一个根本性缺陷:它假设可行集(Feasible Set)是凸的,而事实上它绝非如此。本文阐述从第一性原理出发的论证:为什么生成式方法(扩散、自回归)不仅仅是改进,而是必要的范式转换。

1. 可行域的非凸性

集合 SS凸的(Convex),如果对于任意两点 A,BSA, B \in S,连接它们的线段上的每一点也属于 SS。在驾驶中,这一性质戏剧性地失效了:

ObsEgoA: left detour (feasible)B: right detour (feasible)C = (A+B)/2: CRASH

轨迹 A 从障碍物左侧绕行;轨迹 B 从右侧绕行。两者都是可行的。它们的平均 A+B2\frac{A+B}{2} 径直撞向障碍物——不可行。可行域不是凸的,任何正则化都无法改变这一几何事实。

2. 为什么回归失败:MSE 对模式取平均

使用 MSE 损失的回归最小化:

min  E[ypredygt2]\min \; \mathbb{E}\left[\| y_{\text{pred}} - y_{\text{gt}} \|^2\right]

当数据分布是多模态的(例如,左绕和右绕都很常见)时,最优 MSE 预测器输出的是条件均值(Conditional Mean)

y=E[ygtx]=A+B2y^* = \mathbb{E}[y_{\text{gt}} \mid x] = \frac{A + B}{2}

这不是训练中的 bug——这是对错误目标的数学正确解。回归目标假设一个以均值为中心的单峰分布,这对于非凸可行域在可证明意义上是不正确的。

Trajectory SpaceDensityMode A (left)Mode B (right)MSE mean(low density!)

MSE 均值落在两个模式之间的谷底——一个低概率密度区域。模型输出了一条任何人类驾驶员都不会选择的轨迹。

3. GMM:补丁,而非解决方案

具有 KK 个分量(Component)的高斯混合模型(Gaussian Mixture Model, GMM)试图通过学习 KK 个均值来处理多模态性。每个分量的更新 μi\mu_i 仍是分配给该分量的样本的加权平均:

μi=nγn,iynnγn,i\mu_i = \frac{\sum_n \gamma_{n,i} \cdot y_n}{\sum_n \gamma_{n,i}}

这产生了两个问题:

  1. 虚假峰值(Spurious Peaks):当两个真实模式相近时,其高斯分量可能重叠并在两者之间的谷底产生虚假峰值。
  2. 有限近似(Finite Approximation)KK 个高斯分量是有限的凸构建块。非凸形状永远无法被凸碎片完美铺砌。总会存在"间隙"(本应为零概率的区域出现非零概率)和"死角"(KK 不足以覆盖所有模式)。
True distributionGMM K=2Spurious densityin valley!

GMM 是补丁,不是解决方案。它使用有限数量的简单凸构建块来逼近复杂的非凸形状。逼近误差是结构性的,而非参数性的——无法通过增加训练数据或调优超参数来修复。

4. 惩罚损失的错觉

一种常见的工程实践是在 MSE 损失之上添加惩罚项(碰撞、越界、舒适度):

L=LMSE+λ1Lcollision+λ2Loff-road+λ3Lcomfort+\mathcal{L} = \mathcal{L}_{\text{MSE}} + \lambda_1 \mathcal{L}_{\text{collision}} + \lambda_2 \mathcal{L}_{\text{off-road}} + \lambda_3 \mathcal{L}_{\text{comfort}} + \cdots

这等价于通过拉格朗日乘子(Lagrange Multiplier)将硬约束转换为软惩罚。该方法仅在优化问题为凸时才有效。在非凸景观上,从 MSE 初始化出发的梯度下降可能陷入局部极小值,惩罚项仅将解推向最近的可行边界,而非全局最优轨迹。

经典的 EM(期望最大化, Expectation Maximization)规划器深谙此道。它将问题分解为两个阶段:

Step APath DeciderSelect corridor(non-convex → convex)Step BSpeed OptimizerQP in convexsub-regionResultSmooth, feasibletrajectory
  1. 步骤 A(路径决策器, Path Decider):选择一个走廊(如"走左边"),将非凸空间切割为凸子区域。
  2. 步骤 B(速度优化器, Speed Optimizer):在该凸子区域内求解二次规划(Quadratic Program, QP)以获得平滑轨迹。

关键洞察:先找到一个凸子问题,再求解它。端到端回归完全跳过了步骤 A,试图一步求解非凸问题。

5. 生成式模型:学习非凸形状

生成式方法走了一条根本不同的路径:

方法如何处理非凸性
扩散(Diffusion)通过梯度/流场直接学习非凸分布的形状
自回归(Autoregressive)通过链式法则将联合分布分解为条件分布;将几何问题转化为序列决策问题

5.1 扩散:学习等高线

扩散模型学习得分函数(Score Function) ylogp(yx)\nabla_y \log p(y \mid x),它在轨迹空间中的每一点指向更高密度区域。在采样过程中,它从噪声到数据跟随这一梯度场,自然地绕过不可行区域:

Feasible AFeasible BInfeasibleNoise start→ Mode A→ Mode B

得分场自然地将样本推离不可行区域(零密度),推向高密度模式。

5.2 自回归:序列决策分解

自回归方法应用链式法则分解联合轨迹分布:

p(S1:TEnv)=t=1Tp(St:t+ns<t,Env)p(S_{1:T} \mid \text{Env}) = \prod_{t=1}^{T} p(S_{t:t+n} \mid s_{<t}, \text{Env})

在每一步,模型只需在当前状态条件下预测一个局部轨迹段。每个局部预测面对的是更简单的分布(在步骤级别通常接近单峰),全局多模态性从这些选择的序列组合中涌现。

这将一个几何问题(在非凸集合中找到轨迹)转化为一个序列决策问题(在每一步选择最可能的下一段),而这正是自回归模型所擅长的机制。

6. 殊途同归:AR + 扩散

最有前景的方向是结合两种范式,发挥其互补优势:

AR扩散
优势精确的单步预测;通过令牌词汇表实现多样性全局轨迹一致性;长时范围内的平滑"纠错"
劣势暴露偏差(Exposure Bias)与长展开中的累积误差冷启动问题:从纯噪声出发的搜索空间巨大
组合中的角色提供接近数据流形的锚点轨迹将锚点精修为全局一致、平滑的轨迹

协同效应是清晰的:

  • AR 解决扩散的冷启动:扩散不再从高斯噪声开始,而是从 AR 生成的锚点出发——已经接近流形——大幅降低去噪负担。
  • 扩散解决 AR 的漂移:全局精修步骤纠正长自回归展开中累积的误差。

这一 AR + 扩散组合在 NavSim 基准上取得了排名前列的结果(Chainflow-VLA, 94.05 PDMS),并在 DiffusionDrive(基于锚点的截断扩散)和 GoalFlow(目标点引导的流匹配)等工作中得到验证。

ARSequential tokenprediction→ DiversityAnchorDiffusionGlobal refinement(smooth filter)→ CoherenceRefinedOutputDiverse +Coherent +Smooth

7. 总结

方法非凸处理多模态性局限
回归(MSE)无——输出条件均值失败:将模式平均到不可行区域非凸集合上的结构性失败
GMM部分——有限凸逼近受限于 KK;虚假峰值补丁,非解决方案
MSE + 惩罚损失通过软约束间接同样的 MSE 均值,仅推向边界仅对凸子问题有效
扩散直接——学习完整分布形状天然:从学习到的模式中采样冷启动;无锚点时可能缺乏多样性
自回归通过链式法则分解天然:序列选择组合出多模态性累积误差;帧间不一致
AR + 扩散两者兼有:分解 + 全局精修两者之长:多样锚点 + 一致输出工程复杂性;训练成本

从回归到 GMM 再到生成式模型的递进并非增量改进的问题。它反映了一种根本性的认识:自动驾驶中的规划问题天然是非凸的,任何忽略这一几何事实的方法都会产生任何工程补丁都无法修复的伪影。

参考文献