ReflectDrive-2:理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言:离散扩散 + 端到端驾驶 = 新范式? 2025-2026 年,端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派: 方案 代表 核心思路 痛点 自回归 (AR) GPT-driver, VLA 系列 顺序 token-by-token 输出轨迹 串行解码慢,端侧只能跑小模型 连续 Diffusion UniAD, DriveWM, PlanningDiffuser 连续空间去噪生成轨迹 anchor/goal 引入额外系统,破坏数据分布 理想汽车(Li Auto)的 ReflectDrive-2(CVPR 2026)选择了第三条路:离散扩散模型做端到端自动驾驶。 乍一看以为是 ReflectDrive 的升级版,但仔细研究后发现——这可能是对量产级端到端方案的全新思考。 本文将从建模选择、推理架构、训练策略、工程部署四个维度进行完整技术解析。 一、为什么选离散扩散?——从第一性原理出发 三条路线的本质对比 flowchart LR subgraph AR["自回归 (AR)"] direction TB AR1[t₁: 输出 token 1] AR2["t₂: 输出 token 2 ⬅️ 依赖 t₁"] AR3["t₃: 输出 token 3 ⬅️ 依赖 t₁,t₂"] AR1 --> AR2 --> AR3 AR_style["❌ 串行瓶颈❌ 端侧小模型✅ 探索成熟"] end subgraph ContDiff["连续 Diffusion"] direction TB CD1[连续噪声注入] CD2[连续空间去噪 N 步] CD3[输出连续轨迹坐标] CD1 --> CD2 --> CD3 CD_style["⚠️ 需要额外 anchor 系统⚠️ 打破数据分布规律✅ 并行生成"] end subgraph DiscDiff["离散扩散 (本方案)"] direction TB DD1[Token 级掩码注入] DD2[双向并行去噪 N 步] DD3[输出离散 token 序列] DD1 --> DD2 --> DD3 DD_style["✅ 全并行解码✅ 统一词表方便预训练✅ Token2Token 支持 AutoEdit✅ RL 探索空间清晰"] end AR --- ContDiff --- DiscDiff离散扩散的五大优势 # 优势 对比 AR 对比连续 Diffusion 1 统一词表 同 所有输入(视觉/状态/导航)可离散化为统一 token → 信息交互自然、支持预训练任务 2 高效采样 ❌ 串行 O(n) ✅ 并行解码 O(1) 每步 3 AutoEdit 天然支持 ❌ 不支持 ✅ Token-to-token 直接改写 4 RL 友好 困难(序列信用分配) ✅ 离散 action space,探索清晰 5 端到端 Scaling 受限于串行解码 ✅ 独立 Action Expert FFN,参数效率高 二、模型架构:0.8B 参数的紧凑设计 整体架构 flowchart LR subgraph Input["多模态输入"] CAM["三路环视相机左前 / 正前 / 右前各 2 个时间帧"] NAV["导航指令 tokens(文本编码后)"] EGO["自车状态 tokens速度 / 航向等"] end subgraph Encoder["视觉编码器 ViT (0.1B)"] direction TB V1[Patch Embedding] V2[Transformer Blocks] V1 --> V2 end subgraph Backbone["掩码扩散语言模型 (0.7B)"] direction TB B1["Prompt Tokens因果注意力 Causal Attention⬆️ 支持 KV 缓存复用"] B2["Trajectory Token 块双向注意力 Bidirectional Attention⬆️ 支持扩散去噪"] B3["Action Expert FFN隐层 4096→1024 精简+ Action Head 输出层"] B1 --> B2 --> B3 end subgraph Output["输出"] OUT["16 个离散 trajectory tokens8 个航路点 × 2 坐标(纵向 x + 横向 y)"] end CAM --> Encoder Encoder --> Backbone NAV --> Backbone EGO --> Backbone Backbone --> OUT style Encoder fill:#e1f5fe style Backbone fill:#fff3e0 style Output fill:#e8f5e9关键设计决策 注意力模式混合 模型在同一个 Transformer 中混合使用两种注意力机制: ...

May 8, 2026 · 8 min read · LexHsu

何恺明团队 CVPR 2026 五篇论文全景:流匹配范式的多角度突破

引言:扩散模型不是终点 2025-2026 年,流匹配(Flow Matching) 已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力:用常微分方程(ODE)路径替代扩散模型的随机微分方程(SDE)路径,让数据从噪声到图像的转变不再依赖数百步迭代。 但理论可行与工程落地之间,横亘着大量技术细节——训练目标怎么设计?架构如何选择?速度与质量能否兼顾? 何恺明(Kaiming He)团队在 CVPR 2026 上一次性投中五篇论文,系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向,共享同一个战略判断: 扩散模型不是终点,而是某个更高效范式出现之前的过渡阶段。 更值得关注的是团队的方法论风格:不是在已有规则里优化指标,而是重新定义问题的前提。用最小化的架构挑战传统领地,并屡屡获胜。 本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。 一、JiT:让"去噪"模型真正做去噪 问题:预测目标"不属于这个世界" 当前扩散模型的训练目标存在一个根本性矛盾: 网络学习预测的是噪声 ε\varepsilon 或速度 vv,而非干净图像 xx。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量,不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界",需要额外表达能力来处理高维噪声干扰,导致训练过程不稳定。 核心方案:直接预测 xx JiT(Jump into Image-space Transformer)的核心思想极为朴素: 既然 xx(干净图像)在图像流形上,那就让网络直接预测 xx。 具体实现: 方面 传统扩散模型 JiT 预测目标 噪声 ε\varepsilon / 速度 vv 干净图像 xx 架构 U-Net / DiT 标准 ViT Patch 尺寸 通常 8×88 \times 8 支持 16×1616 \times 16、32×3232 \times 32 甚至 64×6464 \times 64 VAE Tokenizer 必须有 完全去掉 损失函数 往往需要 GAN 损失/感知损失 最朴素的回归损失 为什么可以去掉 VAE?因为 xx 在图像流形上,无需处理高维噪声干扰,patch 增大不会导致信息缺失。这也带来了一个重要优势: 原生支持任意分辨率生成——只需调整 patch 大小即可,256 到 1024 分辨率下计算量几乎不变。 ...

May 8, 2026 · 4 min read · LexHsu