ReflectDrive-2:理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言:离散扩散 + 端到端驾驶 = 新范式? 2025-2026 年,端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派: 方案 代表 核心思路 痛点 自回归 (AR) GPT-driver, VLA 系列 顺序 token-by-token 输出轨迹 串行解码慢,端侧只能跑小模型 连续 Diffusion UniAD, DriveWM, PlanningDiffuser 连续空间去噪生成轨迹 anchor/goal 引入额外系统,破坏数据分布 理想汽车(Li Auto)的 ReflectDrive-2(CVPR 2026)选择了第三条路:离散扩散模型做端到端自动驾驶。 乍一看以为是 ReflectDrive 的升级版,但仔细研究后发现——这可能是对量产级端到端方案的全新思考。 本文将从建模选择、推理架构、训练策略、工程部署四个维度进行完整技术解析。 一、为什么选离散扩散?——从第一性原理出发 三条路线的本质对比 flowchart LR subgraph AR["自回归 (AR)"] direction TB AR1[t₁: 输出 token 1] AR2["t₂: 输出 token 2 ⬅️ 依赖 t₁"] AR3["t₃: 输出 token 3 ⬅️ 依赖 t₁,t₂"] AR1 --> AR2 --> AR3 AR_style["❌ 串行瓶颈❌ 端侧小模型✅ 探索成熟"] end subgraph ContDiff["连续 Diffusion"] direction TB CD1[连续噪声注入] CD2[连续空间去噪 N 步] CD3[输出连续轨迹坐标] CD1 --> CD2 --> CD3 CD_style["⚠️ 需要额外 anchor 系统⚠️ 打破数据分布规律✅ 并行生成"] end subgraph DiscDiff["离散扩散 (本方案)"] direction TB DD1[Token 级掩码注入] DD2[双向并行去噪 N 步] DD3[输出离散 token 序列] DD1 --> DD2 --> DD3 DD_style["✅ 全并行解码✅ 统一词表方便预训练✅ Token2Token 支持 AutoEdit✅ RL 探索空间清晰"] end AR --- ContDiff --- DiscDiff离散扩散的五大优势 # 优势 对比 AR 对比连续 Diffusion 1 统一词表 同 所有输入(视觉/状态/导航)可离散化为统一 token → 信息交互自然、支持预训练任务 2 高效采样 ❌ 串行 O(n) ✅ 并行解码 O(1) 每步 3 AutoEdit 天然支持 ❌ 不支持 ✅ Token-to-token 直接改写 4 RL 友好 困难(序列信用分配) ✅ 离散 action space,探索清晰 5 端到端 Scaling 受限于串行解码 ✅ 独立 Action Expert FFN,参数效率高 二、模型架构:0.8B 参数的紧凑设计 整体架构 flowchart LR subgraph Input["多模态输入"] CAM["三路环视相机左前 / 正前 / 右前各 2 个时间帧"] NAV["导航指令 tokens(文本编码后)"] EGO["自车状态 tokens速度 / 航向等"] end subgraph Encoder["视觉编码器 ViT (0.1B)"] direction TB V1[Patch Embedding] V2[Transformer Blocks] V1 --> V2 end subgraph Backbone["掩码扩散语言模型 (0.7B)"] direction TB B1["Prompt Tokens因果注意力 Causal Attention⬆️ 支持 KV 缓存复用"] B2["Trajectory Token 块双向注意力 Bidirectional Attention⬆️ 支持扩散去噪"] B3["Action Expert FFN隐层 4096→1024 精简+ Action Head 输出层"] B1 --> B2 --> B3 end subgraph Output["输出"] OUT["16 个离散 trajectory tokens8 个航路点 × 2 坐标(纵向 x + 横向 y)"] end CAM --> Encoder Encoder --> Backbone NAV --> Backbone EGO --> Backbone Backbone --> OUT style Encoder fill:#e1f5fe style Backbone fill:#fff3e0 style Output fill:#e8f5e9关键设计决策 注意力模式混合 模型在同一个 Transformer 中混合使用两种注意力机制: ...

May 8, 2026 · 8 min read · LexHsu

何恺明团队 CVPR 2026 五篇论文全景:流匹配范式的多角度突破

引言:扩散模型不是终点 2025-2026 年,流匹配(Flow Matching) 已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力:用常微分方程(ODE)路径替代扩散模型的随机微分方程(SDE)路径,让数据从噪声到图像的转变不再依赖数百步迭代。 但理论可行与工程落地之间,横亘着大量技术细节——训练目标怎么设计?架构如何选择?速度与质量能否兼顾? 何恺明(Kaiming He)团队在 CVPR 2026 上一次性投中五篇论文,系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向,共享同一个战略判断: 扩散模型不是终点,而是某个更高效范式出现之前的过渡阶段。 更值得关注的是团队的方法论风格:不是在已有规则里优化指标,而是重新定义问题的前提。用最小化的架构挑战传统领地,并屡屡获胜。 本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。 一、JiT:让"去噪"模型真正做去噪 问题:预测目标"不属于这个世界" 当前扩散模型的训练目标存在一个根本性矛盾: 网络学习预测的是噪声 ε\varepsilon 或速度 vv,而非干净图像 xx。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量,不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界",需要额外表达能力来处理高维噪声干扰,导致训练过程不稳定。 核心方案:直接预测 xx JiT(Jump into Image-space Transformer)的核心思想极为朴素: 既然 xx(干净图像)在图像流形上,那就让网络直接预测 xx。 具体实现: 方面 传统扩散模型 JiT 预测目标 噪声 ε\varepsilon / 速度 vv 干净图像 xx 架构 U-Net / DiT 标准 ViT Patch 尺寸 通常 8×88 \times 8 支持 16×1616 \times 16、32×3232 \times 32 甚至 64×6464 \times 64 VAE Tokenizer 必须有 完全去掉 损失函数 往往需要 GAN 损失/感知损失 最朴素的回归损失 为什么可以去掉 VAE?因为 xx 在图像流形上,无需处理高维噪声干扰,patch 增大不会导致信息缺失。这也带来了一个重要优势: 原生支持任意分辨率生成——只需调整 patch 大小即可,256 到 1024 分辨率下计算量几乎不变。 ...

May 8, 2026 · 4 min read · LexHsu

DeepSeek 以视觉原语思考:让多模态大模型学会「用手指着推理」

引言:一个被忽视的根本性瓶颈 给 GPT-5.4 一张密集人群照片,问「图里有多少人」——它很可能数错。 给 Claude Sonnet 4.6 一张复杂电路图,问空间位置关系——回答往往语焉不详、前后矛盾。 这不是感知问题。这些模型的视觉编码器分辨率足够高,能看清每一个细节。真正的问题出在推理过程中——当模型试图用自然语言构建思维链(Chain-of-Thought)时,「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确定位目标对象,导致注意力逐渐漂移(drift)。 DeepSeek 联合北京大学、清华大学最新发表的 “Thinking with Visual Primitives”(以下简称 TVPrimitives)直击这一根本性痛点。论文将上述现象形式化为 Reference Gap(指代鸿沟)——区别于业界长期关注的 Perception Gap(感知鸿沟),指代鸿沟指的是模型在推理过程中无法精确指代视觉对象的能力缺失。 核心命题:不是让模型「看更多」,而是让模型「指更准」。 论文的核心方案简洁而优雅:将坐标(point)和边界框(bounding box) 作为一种新的思维原语(visual primitives),像文字一样穿插在思维链输出中。当模型说「找到一只熊」时,它同时输出 [[452,23,804,411]] 这样的坐标锚点——就像人类数东西时会不自觉地用手指逐个点过去一样。 实验结果令人瞩目:在迷宫导航任务上,TVPrimitives 以 66.9% 的准确率领先 GPT-5.4(50.6%)、Gemini-3-Flash(49.4%)和 Claude Sonnet 4.6(48.9%)达 17 个百分点以上;在路径追踪任务上领先次优模型 10 个百分点;在计数任务 Pixmo-Count 上也取得了 SOTA(89.2%)。 本文将从问题定义、技术架构、训练工程、实验结果四个维度进行深度解析,并讨论该范式对多模态推理研究的更广泛意义。 一、从感知鸿沟到指代鸿沟 1.1 两类鸿沟的区分 多模态大模型(MLM)的能力缺陷长期以来被笼统地归因于「看得不够清楚」。TVPrimitives 论文首次系统性地将这一问题拆解为两个正交维度: 鸿沟类型 定义 典型表现 传统解决思路 Perception Gap(感知鸿沟) 视觉编码器无法捕捉足够细粒度的图像信息 小目标检测失败、低对比度区域丢失、文字识别错误 提高输入分辨率、动态分块(dynamic patching)、多尺度特征融合 Reference Gap(指代鸿沟) 推理过程中语言指代的歧义性导致注意力漂移 计数重复/遗漏、空间关系判断矛盾、密集场景对象混淆 此前无有效通用方案 感知鸿沟是输入端的问题——信息没有进入模型;指代鸿沟则是推理端的问题——信息进入了模型,但在多步推理的中间过程中「丢失了对应关系」。 1.2 一个直观类比 想象向一个看不见屏幕的朋友描述棋盘布局: 「左边那个棋子要吃掉中间偏右一点那个棋子」 对方完全不知道你在说哪两颗——这就是 Reference Gap。 ...

April 30, 2026 · 5 min read · LexHsu

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

April 30, 2026 · 25 min read · LexHsu

Qwen3.5 vs Qwen3: A Deep Architectural Comparison

Based on Qwen3.5 official technical documentation and code structure analysis. 交互式架构对比 下面是 Qwen3-VL 与 Qwen3.5 的交互式架构可视化,支持 Tab 切换、拖拽平移、滚轮缩放,点击节点查看详细信息。 操作提示:点击顶部 Tab 切换 Qwen3-VL / Qwen3.5 / Compare 视图;滚轮缩放;拖拽平移;点击节点查看参数详情。 1. 注意力机制:根本性重构 这是最大的代际差异。Qwen3 用标准 Transformer 注意力,Qwen3.5 引入了混合注意力(Hybrid Attention)。 维度 Qwen3 Qwen3.5 注意力类型 标准 Softmax 注意力 混合注意力:Gated DeltaNet (线性) + Full Attention 层间比例 全部是 Full Attention 3:1 — 每 3 层线性注意力 + 1 层完整注意力 复杂度 O(L²·d) O(L·d²),近线性 KV Cache 存储全部历史 KV 对,随序列线性增长 75% 的层用固定大小循环状态 S_t,不缓存 KV 长文本衰减 有 线性层有衰减,但每隔 4 层 Full Attention 做"上下文刷新" 序列并行 支持 不支持(注意力实现不兼容) 1.1 Gated DeltaNet 状态更新公式 1 S_t = β_t ⊙ S_{t-1} + Δ_t ⊗ (K_t ⊗ V_t) β_t = 门控参数(控制记忆保留/遗忘) Δ_t = 增量更新参数(精确修改特定位置,不是全量覆写) 状态空间固定 O(1),不随序列长度增长 1.2 层分布示例(24 层模型) 1 2 3 4 5 6 7 8 9 Layer 0: linear_attention Layer 1: linear_attention Layer 2: linear_attention Layer 3: full_attention ← 上下文刷新 Layer 4: linear_attention Layer 5: linear_attention Layer 6: linear_attention Layer 7: full_attention ← 上下文刷新 ... 重复(full_attention_interval=4) 配置参数: ...

April 29, 2026 · 3 min read · LexHsu

CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discovery

Introduction Open-ended discovery—the search for novel, high-quality solutions in domains where the solution space lacks clear structure and evaluation may be expensive or sparse—remains one of the hardest challenges in automated scientific reasoning. Unlike constrained optimization, where gradients or convexity guide the search, open-ended problems demand sustained exploration, accumulation of partial insights, and the ability to redirect effort when progress stalls. Mathematical conjecture proving, systems-level code optimization, and combinatorial design all fall squarely in this category. ...

May 15, 2025 · 18 min read · LexHsu

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

The ability to simulate a 4D world — one that evolves in time and can be viewed from arbitrary perspectives — is a foundational capability for autonomous driving, robotics, and embodied AI. Existing video generation models produce visually compelling sequences but lack spatial consistency when the camera moves. 3D reconstruction methods achieve geometric fidelity but struggle with dynamic scenes and real-time performance. InSpatio-World bridges this gap through a spatiotemporal autoregressive (STAR) architecture that combines the strengths of both paradigms. ...

April 20, 2025 · 7 min read · LexHsu

Multi-Head Latent Attention: Efficient KV Cache Compression in DeepSeek-V2

Autoregressive language models based on the decoder-only Transformer architecture generate tokens sequentially, conditioning each prediction on all previously generated tokens. During inference, the key-value pairs of prior tokens must be retained to ensure coherence across the generation sequence. In the standard Multi-Head Attention (MHA) formulation, the size of this KV cache grows linearly with both the sequence length and the number of attention heads, creating a significant memory bottleneck that limits the maximum context length achievable on commodity hardware. Multi-Head Latent Attention (MLA), introduced in DeepSeek-V2, addresses this bottleneck through low-rank joint projection of the key and value representations, achieving KV cache sizes comparable to Grouped-Query Attention (GQA) while preserving — and in some cases exceeding — the modeling capacity of full MHA. ...

February 15, 2025 · 13 min read · LexHsu