ReflectDrive-2:理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言:离散扩散 + 端到端驾驶 = 新范式? 2025-2026 年,端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派: 方案 代表 核心思路 痛点 自回归 (AR) GPT-driver, VLA 系列 顺序 token-by-token 输出轨迹 串行解码慢,端侧只能跑小模型 连续 Diffusion UniAD, DriveWM, PlanningDiffuser 连续空间去噪生成轨迹 anchor/goal 引入额外系统,破坏数据分布 理想汽车(Li Auto)的 ReflectDrive-2(CVPR 2026)选择了第三条路:离散扩散模型做端到端自动驾驶。 乍一看以为是 ReflectDrive 的升级版,但仔细研究后发现——这可能是对量产级端到端方案的全新思考。 本文将从建模选择、推理架构、训练策略、工程部署四个维度进行完整技术解析。 一、为什么选离散扩散?——从第一性原理出发 三条路线的本质对比 flowchart LR subgraph AR["自回归 (AR)"] direction TB AR1[t₁: 输出 token 1] AR2["t₂: 输出 token 2 ⬅️ 依赖 t₁"] AR3["t₃: 输出 token 3 ⬅️ 依赖 t₁,t₂"] AR1 --> AR2 --> AR3 AR_style["❌ 串行瓶颈❌ 端侧小模型✅ 探索成熟"] end subgraph ContDiff["连续 Diffusion"] direction TB CD1[连续噪声注入] CD2[连续空间去噪 N 步] CD3[输出连续轨迹坐标] CD1 --> CD2 --> CD3 CD_style["⚠️ 需要额外 anchor 系统⚠️ 打破数据分布规律✅ 并行生成"] end subgraph DiscDiff["离散扩散 (本方案)"] direction TB DD1[Token 级掩码注入] DD2[双向并行去噪 N 步] DD3[输出离散 token 序列] DD1 --> DD2 --> DD3 DD_style["✅ 全并行解码✅ 统一词表方便预训练✅ Token2Token 支持 AutoEdit✅ RL 探索空间清晰"] end AR --- ContDiff --- DiscDiff离散扩散的五大优势 # 优势 对比 AR 对比连续 Diffusion 1 统一词表 同 所有输入(视觉/状态/导航)可离散化为统一 token → 信息交互自然、支持预训练任务 2 高效采样 ❌ 串行 O(n) ✅ 并行解码 O(1) 每步 3 AutoEdit 天然支持 ❌ 不支持 ✅ Token-to-token 直接改写 4 RL 友好 困难(序列信用分配) ✅ 离散 action space,探索清晰 5 端到端 Scaling 受限于串行解码 ✅ 独立 Action Expert FFN,参数效率高 二、模型架构:0.8B 参数的紧凑设计 整体架构 flowchart LR subgraph Input["多模态输入"] CAM["三路环视相机左前 / 正前 / 右前各 2 个时间帧"] NAV["导航指令 tokens(文本编码后)"] EGO["自车状态 tokens速度 / 航向等"] end subgraph Encoder["视觉编码器 ViT (0.1B)"] direction TB V1[Patch Embedding] V2[Transformer Blocks] V1 --> V2 end subgraph Backbone["掩码扩散语言模型 (0.7B)"] direction TB B1["Prompt Tokens因果注意力 Causal Attention⬆️ 支持 KV 缓存复用"] B2["Trajectory Token 块双向注意力 Bidirectional Attention⬆️ 支持扩散去噪"] B3["Action Expert FFN隐层 4096→1024 精简+ Action Head 输出层"] B1 --> B2 --> B3 end subgraph Output["输出"] OUT["16 个离散 trajectory tokens8 个航路点 × 2 坐标(纵向 x + 横向 y)"] end CAM --> Encoder Encoder --> Backbone NAV --> Backbone EGO --> Backbone Backbone --> OUT style Encoder fill:#e1f5fe style Backbone fill:#fff3e0 style Output fill:#e8f5e9关键设计决策 注意力模式混合 模型在同一个 Transformer 中混合使用两种注意力机制: ...

May 8, 2026 · 8 min read · LexHsu

何恺明团队 CVPR 2026 五篇论文全景:流匹配范式的多角度突破

引言:扩散模型不是终点 2025-2026 年,流匹配(Flow Matching) 已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力:用常微分方程(ODE)路径替代扩散模型的随机微分方程(SDE)路径,让数据从噪声到图像的转变不再依赖数百步迭代。 但理论可行与工程落地之间,横亘着大量技术细节——训练目标怎么设计?架构如何选择?速度与质量能否兼顾? 何恺明(Kaiming He)团队在 CVPR 2026 上一次性投中五篇论文,系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向,共享同一个战略判断: 扩散模型不是终点,而是某个更高效范式出现之前的过渡阶段。 更值得关注的是团队的方法论风格:不是在已有规则里优化指标,而是重新定义问题的前提。用最小化的架构挑战传统领地,并屡屡获胜。 本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。 一、JiT:让"去噪"模型真正做去噪 问题:预测目标"不属于这个世界" 当前扩散模型的训练目标存在一个根本性矛盾: 网络学习预测的是噪声 ε\varepsilon 或速度 vv,而非干净图像 xx。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量,不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界",需要额外表达能力来处理高维噪声干扰,导致训练过程不稳定。 核心方案:直接预测 xx JiT(Jump into Image-space Transformer)的核心思想极为朴素: 既然 xx(干净图像)在图像流形上,那就让网络直接预测 xx。 具体实现: 方面 传统扩散模型 JiT 预测目标 噪声 ε\varepsilon / 速度 vv 干净图像 xx 架构 U-Net / DiT 标准 ViT Patch 尺寸 通常 8×88 \times 8 支持 16×1616 \times 16、32×3232 \times 32 甚至 64×6464 \times 64 VAE Tokenizer 必须有 完全去掉 损失函数 往往需要 GAN 损失/感知损失 最朴素的回归损失 为什么可以去掉 VAE?因为 xx 在图像流形上,无需处理高维噪声干扰,patch 增大不会导致信息缺失。这也带来了一个重要优势: 原生支持任意分辨率生成——只需调整 patch 大小即可,256 到 1024 分辨率下计算量几乎不变。 ...

May 8, 2026 · 4 min read · LexHsu

X-Cache:小鹏自动驾驶世界模型的推理加速 Infra

引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 小鹏汽车的 X-World 世界模型已进入闭环仿真、在线强化学习和数据生成等生产流程,用于 VLA 2.0 的研发与验证。但一个根本性瓶颈横亘在前: 推理太慢了。 世界模型的工作模式是自回归的:每生成一段未来画面 → 策略模型观察后输出动作 → 世界模型继续响应下一段。这个交互链路如果每一环都要等几十秒,闭环效率将无法支撑规模化训练和实时评测。 X-Cache 正是针对这一瓶颈提出的 training-free 推理加速方案:在 DiT(Diffusion Transformer)block 层面 实现跨段缓存复用,达到 2.6~2.7 倍壁钟加速、~71% block skip rate,同时保持 SSIM > 0.9990 的极低画质损失。 本文将从问题动机、核心技术架构、工程设计细节三个维度进行深度解析。 一、为什么传统扩散缓存不适用于世界模型 1.1 传统扩散缓存的假设 现有视频扩散模型的推理加速主要沿 denoising step 轴做缓存——即复用相邻去噪步骤之间的中间特征。其核心假设是: 相邻 step t 与 t−1 的 latent 表示高度相似 ⟹ 可复用\text{相邻 step } t \text{ 与 } t-1 \text{ 的 latent 表示高度相似} \implies \text{可复用}这在标准的 DDPM / DDIM 采样流程中效果显著,因为这些采样器通常需要 50~1000 步去噪,步间冗余极为丰富。 ...

May 7, 2026 · 4 min read · LexHsu

DeepSeek 以视觉原语思考:让多模态大模型学会「用手指着推理」

引言:一个被忽视的根本性瓶颈 给 GPT-5.4 一张密集人群照片,问「图里有多少人」——它很可能数错。 给 Claude Sonnet 4.6 一张复杂电路图,问空间位置关系——回答往往语焉不详、前后矛盾。 这不是感知问题。这些模型的视觉编码器分辨率足够高,能看清每一个细节。真正的问题出在推理过程中——当模型试图用自然语言构建思维链(Chain-of-Thought)时,「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确定位目标对象,导致注意力逐渐漂移(drift)。 DeepSeek 联合北京大学、清华大学最新发表的 “Thinking with Visual Primitives”(以下简称 TVPrimitives)直击这一根本性痛点。论文将上述现象形式化为 Reference Gap(指代鸿沟)——区别于业界长期关注的 Perception Gap(感知鸿沟),指代鸿沟指的是模型在推理过程中无法精确指代视觉对象的能力缺失。 核心命题:不是让模型「看更多」,而是让模型「指更准」。 论文的核心方案简洁而优雅:将坐标(point)和边界框(bounding box) 作为一种新的思维原语(visual primitives),像文字一样穿插在思维链输出中。当模型说「找到一只熊」时,它同时输出 [[452,23,804,411]] 这样的坐标锚点——就像人类数东西时会不自觉地用手指逐个点过去一样。 实验结果令人瞩目:在迷宫导航任务上,TVPrimitives 以 66.9% 的准确率领先 GPT-5.4(50.6%)、Gemini-3-Flash(49.4%)和 Claude Sonnet 4.6(48.9%)达 17 个百分点以上;在路径追踪任务上领先次优模型 10 个百分点;在计数任务 Pixmo-Count 上也取得了 SOTA(89.2%)。 本文将从问题定义、技术架构、训练工程、实验结果四个维度进行深度解析,并讨论该范式对多模态推理研究的更广泛意义。 一、从感知鸿沟到指代鸿沟 1.1 两类鸿沟的区分 多模态大模型(MLM)的能力缺陷长期以来被笼统地归因于「看得不够清楚」。TVPrimitives 论文首次系统性地将这一问题拆解为两个正交维度: 鸿沟类型 定义 典型表现 传统解决思路 Perception Gap(感知鸿沟) 视觉编码器无法捕捉足够细粒度的图像信息 小目标检测失败、低对比度区域丢失、文字识别错误 提高输入分辨率、动态分块(dynamic patching)、多尺度特征融合 Reference Gap(指代鸿沟) 推理过程中语言指代的歧义性导致注意力漂移 计数重复/遗漏、空间关系判断矛盾、密集场景对象混淆 此前无有效通用方案 感知鸿沟是输入端的问题——信息没有进入模型;指代鸿沟则是推理端的问题——信息进入了模型,但在多步推理的中间过程中「丢失了对应关系」。 1.2 一个直观类比 想象向一个看不见屏幕的朋友描述棋盘布局: 「左边那个棋子要吃掉中间偏右一点那个棋子」 对方完全不知道你在说哪两颗——这就是 Reference Gap。 ...

April 30, 2026 · 5 min read · LexHsu

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

April 30, 2026 · 25 min read · LexHsu

CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discovery

Introduction Open-ended discovery—the search for novel, high-quality solutions in domains where the solution space lacks clear structure and evaluation may be expensive or sparse—remains one of the hardest challenges in automated scientific reasoning. Unlike constrained optimization, where gradients or convexity guide the search, open-ended problems demand sustained exploration, accumulation of partial insights, and the ability to redirect effort when progress stalls. Mathematical conjecture proving, systems-level code optimization, and combinatorial design all fall squarely in this category. ...

May 15, 2025 · 18 min read · LexHsu

Book Review: Practical Futures Trading — Technical Indicators and Strategy Frameworks

Introduction This review examines a practical guide to futures trading that focuses on the application of three classical technical indicators — the Stochastic Oscillator (KD), MACD, and Bollinger Bands — within the context of Chinese commodity futures markets. Unlike academic treatments that evaluate indicators in isolation, this text emphasizes the interplay between indicators, volume, and trend, and provides concrete strategy templates that combine multiple signals. The book’s value lies not in novelty of its individual components, but in its consistent framework for contextual interpretation: the same indicator reading yields different trading decisions depending on the prevailing trend regime and volume profile. ...

January 26, 2025 · 10 min read · LexHsu

Book Review: Trading for a Living by Alexander Elder

Introduction Alexander Elder’s Trading for a Living remains one of the most widely recommended texts in the trading literature, and for good reason. Published in 1993, the book was among the first to argue convincingly that trading success depends not on finding the perfect indicator, but on mastering three interdependent pillars: psychology, method, and money management. Elder, a psychiatrist by training, brings a clinical lens to the emotional pathologies that destroy traders, and the result is a framework that is as much about self-knowledge as it is about markets. ...

January 12, 2025 · 10 min read · LexHsu

Autonomous Driving: End-to-End, VLA, and Beyond

Technical deep dives into the evolution of autonomous driving from modular pipelines to end-to-end systems, VLA architectures, and generative planning. Foundational Arguments Article Core Thesis Why Generative Planning? The feasible set is non-convex; regression fundamentally fails Trajectory Tokenization for AR Planning Clustering, matching, and the AR+Diffusion paradigm RL Policy Optimization for E2E From REINFORCE to GRPO for driving E2E Architecture Evolution V2.0 decoder selection to V3.0 VLA integration Model Architecture Analysis Article Topic DeepSeek MLA Multi-Head Latent Attention for KV cache compression Nvidia Cosmos-Reason VLA Vision-Language-Action for driving RL: DPO to Self-Improvement Post-training pipeline for driving

January 1, 2025 · 1 min read

Quantitative Trading Strategy Library

A progressive collection of quantitative trading strategies, each presented with rigorous mathematical foundations, parameter logic, and practical implementation considerations. Trend Following Strategy Key Indicator Core Idea Dual MA Crossover Moving Averages Trend confirmation via fast/slow cross ATR-Filtered RSI ATR + RSI Volatility-gated momentum breakout Bollinger Band + CCI Bollinger + CCI Band breakout with momentum filter Keltner Channel Keltner + OCO Channel breakout with order management Dual Thrust Range Breakout Asymmetric intraday breakout Turtle Trading Donchian + ATR Classic trend following with pyramiding Strategy Ensemble Strategy Method Core Idea Multi-Signal Ensemble Voting Combine signals from multiple indicators Multi-Timeframe Resonance Timeframe Alignment Trend + timing across scales Mean Reversion & Arbitrage Strategy Key Indicator Core Idea Statistical Arbitrage Bollinger on Spread Mean reversion on price spreads Spread Trading Price-Level Execution Practical spread order management

January 1, 2025 · 1 min read