Xu'Blog

得分匹配、GAN 与生成模型的统一

概率密度估计的经典方法——最大似然估计——要求模型给出归一化的概率密度 pθ(x)p_\theta(x)，这在复杂模型中往往不可行，因为归一化常数 Zθ=∫p~θ(x)dxZ_\theta = \int \tilde{p}_\theta(x)dx 的高维积分无法解析求解。2005 年，Aapo Hyvarinen 提出了一个绕过归一化常数的方法：得分匹配（Score Matching）。它不估计密度本身，而是估计密度的梯度——得分函数。 ...

VLM 时序记忆机制：从视频压缩到长短时记忆融合

引言视觉语言模型（VLM）在处理单帧图像上已趋于成熟，但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知，还是具身智能中的长任务执行，核心挑战都在于：如何在不引爆 token 预算的前提下，保留对决策真正有价值的时序信息。 ...

最优传输与 Wasserstein 距离：从 Monge 到 Kantorovich

1781 年，Gaspard Monge 在研究土木工程时提出了一个问题：如何以最小的代价将一堆土从一个地方搬到另一个地方？这个看似质朴的问题，在两百多年后成为概率论、优化和机器学习的交汇点。最优传输理论不仅给出了一种衡量概率分布之间距离的原则性方法，还揭示了概率度量与函数空间之间的深刻对偶关系。 ...

代码即感知：当大模型「看得懂代码」才是攻克理科题的钥匙

引言多模态大语言模型（MLLM）在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像，模型往往能给出看似合理的推理步骤，却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

变分自编码器：从 ELBO 到重参数化

生成模型的核心任务是学习数据分布 p(x)p(x)，然后从中采样生成新样本。对于观测变量 xx，一个自然的框架是引入隐变量 zz，通过联合分布 p(x,z)=p(x∣z)p(z)p(x, z) = p(x|z)p(z) 建模数据生成过程。然而，一旦模型建好，真正困难的步骤浮现出来：如何从观测 xx 推断隐变量 zz 的后验分布 p(z∣x)p(z|x)？这里需要澄清一个常见的混淆：先验假设与后验假设是两件不同的事。VAE 假设先验 p(z)=N(0,I)p(z) = \mathcal{N}(0, I)，这只是对边际分布的约束——它规定了隐空间的整体结构，但并未约束给定 xx 后 zz 的条件分布。真正核心的建模假设是：编码器输出的 qϕ(z∣x)=N(μϕ(x),σϕ2(x)I)q_\phi(z|x) = \mathcal{N}(\mu_\phi(x), \sigma_\phi^2(x) I) 近似真实后验 p(z∣x)p(z|x)。换言之，VAE 假设的核心不在于边际分布层面的"zz 是正态的"，而在于条件分布层面的"给定 xx 后，zz 的后验是正态的"——并且用参数化的编码器来逼近这个后验。 ...

ReflectDrive-2：理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言：离散扩散 + 端到端驾驶 = 新范式？ 2025-2026 年，端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。自回归(AR)派以 GPT-driver 和 VLA 系列为代表，token-by-token 顺序输出轨迹，串行解码慢，端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表，在连续空间去噪生成轨迹，但通常需要额外的 anchor 或 goal 系统辅助，破坏了原始数据分布。 ...

Flow Matching 与一致性模型：生成范式的新统一

扩散模型的概率流 ODE 将生成过程表述为从噪声到数据的确定性映射。但 ODE 路径并非唯一——不同的漂移和扩散系数定义了不同的路径。一个自然的问题随之而来：是否存在一条"最优"路径？Flow Matching 给出了肯定的回答：最优传输路径是直线。一致性模型则进一步追问：如果路径已经是最优的，能否一步走完？ ...

扩散模型的 SDE/ODE 统一：随机微分方程到确定性采样

一、从离散到连续：马尔可夫链的 SDE 极限 DDPM 的前向过程是一个离散的马尔可夫链：每一步从 xt−1x_{t-1} 到 xtx_t 添加一个小的高斯噪声。这个离散过程有一个自然的连续极限——当时间步长 Δt→0\Delta t \to 0 时，马尔可夫链收敛于一个随机微分方程（SDE）。 ...

凯明的方法论：从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来何恺明（Kaiming He）的论文有一种一眼能认出的辨识度。这种辨识度并非来自文风。他的论文写作并不华丽，公式不多，章节短，图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度，但每一次削减都站在一个更深的先验（prior）上，因此不构成 cheating。 ...

扩散模型的变分基础：从 ELBO 到去噪

DDPM 前向/反向过程的基础推导见扩散模型与自动驾驶规划，本文聚焦变分下界的分解与最优参数化。从直觉出发：拆楼与建楼 DDPM 的核心思想可以用一个朴素的类比来理解：一栋大楼（数据）可以逐步拆解为砖瓦水泥（噪声），反过来，学会拆楼的逆过程就能从砖瓦水泥重建大楼。这个类比的核心在于：逐步拆比一步拆更可控。如果一次爆破将大楼瞬间化为废墟，从废墟中重建大楼几乎不可能——因为信息丢失太严重，逆过程极度复杂。但如果每步只拆一小部分，每步的变化都很小，那么每步的逆过程也足够简单，可以用一个简单的高斯分布来描述。 ...