扩散模型的 SDE/ODE 统一:随机微分方程到确定性采样

一、从离散到连续:马尔可夫链的 SDE 极限 DDPM 的前向过程是一个离散的马尔可夫链:每一步从 xt−1x_{t-1} 到 xtx_t 添加一个小的高斯噪声。这个离散过程有一个自然的连续极限——当时间步长 Δt→0\Delta t \to 0 时,马尔可夫链收敛于一个随机微分方程(SDE)。 ...

2026年4月22日 · 21 分钟 · LexHsu

凯明的方法论:从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来 何恺明(Kaiming He)的论文有一种一眼能认出的辨识度。 这种辨识度并非来自文风。他的论文写作并不华丽,公式不多,章节短,图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度,但每一次削减都站在一个更深的先验(prior)上,因此不构成 cheating。 ...

2026年4月18日 · 21 分钟 · LexHsu

扩散模型的变分基础:从 ELBO 到去噪

DDPM 前向/反向过程的基础推导见 扩散模型与自动驾驶规划,本文聚焦变分下界的分解与最优参数化。 从直觉出发:拆楼与建楼 DDPM 的核心思想可以用一个朴素的类比来理解:一栋大楼(数据)可以逐步拆解为砖瓦水泥(噪声),反过来,学会拆楼的逆过程就能从砖瓦水泥重建大楼。这个类比的核心在于:逐步拆比一步拆更可控。如果一次爆破将大楼瞬间化为废墟,从废墟中重建大楼几乎不可能——因为信息丢失太严重,逆过程极度复杂。但如果每步只拆一小部分,每步的变化都很小,那么每步的逆过程也足够简单,可以用一个简单的高斯分布来描述。 ...

2026年4月18日 · 16 分钟 · LexHsu

X-Cache:小鹏自动驾驶世界模型的推理加速 Infra

引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...

2026年3月28日 · 10 分钟 · LexHsu

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览:14B MoE DiT + Flow Matching + 3D VAE,详见 Wan2.2 GitHub 1. 承诺:视频生成即世界模拟 当 OpenAI 在 2024 年初发布 Sora 时,其叙事框架经过了精心设计:这不仅仅是一个视频生成器,而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段,物体以合理的方式碰撞和变形,镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型,在某种层面上,必然理解世界是如何运作的。 ...

2026年3月14日 · 27 分钟 · LexHsu

扩散模型与自动驾驶规划:从去噪的数学到轨迹的生成

为什么自动驾驶需要扩散模型? 自动驾驶规划的核心难题在于"找到正确的轨迹分布",而非仅仅是"找到一条轨迹"。 考虑一个简单场景:自车接近一个无信号灯的 T 字路口。存在三种合理选项——左转、右转、直行通过。传统回归模型(L1/L2 损失)训练后面对此场景会输出三条轨迹的平均值:一条斜向路口中央的无意义曲线。这是损失函数的结构性局限,而非模型的能力缺陷——L2 回归在多模态分布上的最优解恰好是条件均值,而条件均值在物理上可能根本不可行。 ...

2025年11月8日 · 26 分钟 · LexHsu

ReconVLA:用 gaze-crop 重建给 VLA 视觉接地

OpenVLA 一线 VLA 把 vision token + text token + action token 全部 concat 给 LLM,用 next-token cross-entropy 监督,推理时 LLM 直接吐离散化 action token。这套 pipeline 训出来的 attention map 有一个反复出现的问题:散。VLA 看场景跟看哪个具体物体之间没区分,attention 几乎均匀铺在整个 frame 上。 ...

2025年10月27日 · 11 分钟 · LexHsu

End-to-End Autonomous Driving: From Modular Decoders to VLA Architectures

引言 自动驾驶架构的演进经历了一次范式转换:从经典的模块化流水线(感知 →\to 预测 →\to 规划 →\to 控制)转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识:模块化接口会施加信息瓶颈,而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。 ...

2025年7月19日 · 16 分钟 · LexHsu

Trajectory Tokenization for Autoregressive Planning: Clustering, Matching, and the AR+Diffusion Paradigm

Figure from DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving 自回归(Autoregressive, AR)轨迹生成——将驾驶轨迹预测为离散 token 的序列,就像语言模型预测文本一样——已成为端到端自动驾驶的强大范式。但如何将连续轨迹转化为离散 token?如何确保分词后的表示保留足够的规划保真度?AR 范式又如何与扩散模型和强化学习结合以产生 SOTA 结果?本文将完整梳理整个流程,从分词理论到 RL 后训练。 ...

2025年6月28日 · 11 分钟 · LexHsu

Why Generative Planning? The Non-Convexity Argument Against Regression in Autonomous Driving

轨迹规划器是自动驾驶系统的决策核心。其任务为:给定当前场景,输出一条安全、舒适且高效的未来轨迹。当今大多数生产系统使用某种形式的回归——最小化预测轨迹与真值轨迹之间的距离。然而,越来越多的研究和工程证据表明,这种方法存在一个基本缺陷:它假设可行集(Feasible Set)是凸的,而事实上它绝非如此。本文阐述从第一性原理出发的论证:为什么生成式方法(扩散、自回归)是必要的范式转换,而非仅仅是改进。 ...

2025年6月7日 · 8 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次