Generative Models

引言：离散扩散 + 端到端驾驶 = 新范式？ 2025-2026 年，端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派：方案代表核心思路痛点自回归 (AR) GPT-driver, VLA 系列顺序 token-by-token 输出轨迹串行解码慢，端侧只能跑小模型连续 Diffusion UniAD, DriveWM, PlanningDiffuser 连续空间去噪生成轨迹 anchor/goal 引入额外系统，破坏数据分布理想汽车（Li Auto）的 ReflectDrive-2（CVPR 2026）选择了第三条路：离散扩散模型做端到端自动驾驶。乍一看以为是 ReflectDrive 的升级版，但仔细研究后发现——这可能是对量产级端到端方案的全新思考。本文将从建模选择、推理架构、训练策略、工程部署四个维度进行完整技术解析。一、为什么选离散扩散？——从第一性原理出发三条路线的本质对比 flowchart LR subgraph AR["自回归 (AR)"] direction TB AR1[t₁: 输出 token 1] AR2["t₂: 输出 token 2 ⬅️ 依赖 t₁"] AR3["t₃: 输出 token 3 ⬅️ 依赖 t₁,t₂"] AR1 --> AR2 --> AR3 AR_style["❌ 串行瓶颈❌ 端侧小模型✅ 探索成熟"] end subgraph ContDiff["连续 Diffusion"] direction TB CD1[连续噪声注入] CD2[连续空间去噪 N 步] CD3[输出连续轨迹坐标] CD1 --> CD2 --> CD3 CD_style["⚠️ 需要额外 anchor 系统⚠️ 打破数据分布规律✅ 并行生成"] end subgraph DiscDiff["离散扩散 (本方案)"] direction TB DD1[Token 级掩码注入] DD2[双向并行去噪 N 步] DD3[输出离散 token 序列] DD1 --> DD2 --> DD3 DD_style["✅ 全并行解码✅ 统一词表方便预训练✅ Token2Token 支持 AutoEdit✅ RL 探索空间清晰"] end AR --- ContDiff --- DiscDiff离散扩散的五大优势 # 优势对比 AR 对比连续 Diffusion 1 统一词表同所有输入（视觉/状态/导航）可离散化为统一 token → 信息交互自然、支持预训练任务 2 高效采样 ❌ 串行 O(n) ✅ 并行解码 O(1) 每步 3 AutoEdit 天然支持 ❌ 不支持 ✅ Token-to-token 直接改写 4 RL 友好困难（序列信用分配） ✅ 离散 action space，探索清晰 5 端到端 Scaling 受限于串行解码 ✅ 独立 Action Expert FFN，参数效率高二、模型架构：0.8B 参数的紧凑设计整体架构 flowchart LR subgraph Input["多模态输入"] CAM["三路环视相机左前 / 正前 / 右前各 2 个时间帧"] NAV["导航指令 tokens（文本编码后）"] EGO["自车状态 tokens速度 / 航向等"] end subgraph Encoder["视觉编码器 ViT (0.1B)"] direction TB V1[Patch Embedding] V2[Transformer Blocks] V1 --> V2 end subgraph Backbone["掩码扩散语言模型 (0.7B)"] direction TB B1["Prompt Tokens因果注意力 Causal Attention⬆️ 支持 KV 缓存复用"] B2["Trajectory Token 块双向注意力 Bidirectional Attention⬆️ 支持扩散去噪"] B3["Action Expert FFN隐层 4096→1024 精简+ Action Head 输出层"] B1 --> B2 --> B3 end subgraph Output["输出"] OUT["16 个离散 trajectory tokens8 个航路点 × 2 坐标(纵向 x + 横向 y)"] end CAM --> Encoder Encoder --> Backbone NAV --> Backbone EGO --> Backbone Backbone --> OUT style Encoder fill:#e1f5fe style Backbone fill:#fff3e0 style Output fill:#e8f5e9关键设计决策注意力模式混合模型在同一个 Transformer 中混合使用两种注意力机制： ...

引言：扩散模型不是终点 2025-2026 年，流匹配（Flow Matching）已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力：用常微分方程（ODE）路径替代扩散模型的随机微分方程（SDE）路径，让数据从噪声到图像的转变不再依赖数百步迭代。但理论可行与工程落地之间，横亘着大量技术细节——训练目标怎么设计？架构如何选择？速度与质量能否兼顾？何恺明（Kaiming He）团队在 CVPR 2026 上一次性投中五篇论文，系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向，共享同一个战略判断：扩散模型不是终点，而是某个更高效范式出现之前的过渡阶段。更值得关注的是团队的方法论风格：不是在已有规则里优化指标，而是重新定义问题的前提。用最小化的架构挑战传统领地，并屡屡获胜。本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。一、JiT：让"去噪"模型真正做去噪问题：预测目标"不属于这个世界" 当前扩散模型的训练目标存在一个根本性矛盾：网络学习预测的是噪声 ε\varepsilon 或速度 vv，而非干净图像 xx。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量，不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界"，需要额外表达能力来处理高维噪声干扰，导致训练过程不稳定。核心方案：直接预测 xx JiT（Jump into Image-space Transformer）的核心思想极为朴素：既然 xx（干净图像）在图像流形上，那就让网络直接预测 xx。具体实现：方面传统扩散模型 JiT 预测目标噪声 ε\varepsilon / 速度 vv 干净图像 xx 架构 U-Net / DiT 标准 ViT Patch 尺寸通常 8×88 \times 8 支持 16×1616 \times 16、32×3232 \times 32 甚至 64×6464 \times 64 VAE Tokenizer 必须有完全去掉损失函数往往需要 GAN 损失/感知损失最朴素的回归损失为什么可以去掉 VAE？因为 xx 在图像流形上，无需处理高维噪声干扰，patch 增大不会导致信息缺失。这也带来了一个重要优势：原生支持任意分辨率生成——只需调整 patch 大小即可，256 到 1024 分辨率下计算量几乎不变。 ...

Generative Models

ReflectDrive-2：理想汽车的离散扩散端到端驾驶与 RL 联合优化

何恺明团队 CVPR 2026 五篇论文全景：流匹配范式的多角度突破