Flow Matching 训练的广度、深度与物理 horizon:cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象:trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint,最后两三个点会往内或往外偏一个肉眼可见的角度,定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule:Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0,inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端,第一个 Euler 步因此在欠训区间上做了一次大跳,误差被后续步序放大。这个自洽,但只是表象。 ...

2026年6月26日 · 29 分钟 · LexHsu

MiniT2I:把文生图拉回 ImageNet 实验台

一、一个被默认接受的复杂性 文生图(Text-to-Image,T2I)在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮,但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文,第一反应是:先攒卡。 ...

2026年6月23日 · 14 分钟 · LexHsu

X-World:小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言:从 Vista / DriveDreamer 到 X-World 的鸿沟 驾驶世界模型这两年的论文非常密集,但把它们摆到一起,会发现一条很尴尬的分水岭:左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率;DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成;MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入;MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西:7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

2026年5月20日 · 26 分钟 · LexHsu

为什么大扩散模型不会背诵训练数据:两个时间尺度的隐式正则化

2023 年 Carlini 等人做了一件让 Stable Diffusion 团队和版权律师同时紧张的事:他们用一种"提示词反演"的攻击方法,从 Stable Diffusion 中逐像素重建出了部分训练图像,包括有身份的人脸和受版权保护的画作 [Carlini et al. 2023, USENIX]。论文里一张攻击图与训练原图的对照让人发凉——大模型确实在"背诵"。 ...

2026年5月18日 · 18 分钟 · LexHsu

VLA 语义下的导航信息注入:从 Prompt 到 Diffusion Condition

在自动驾驶轨迹规划中,导航信息回答了一个根本问题:车应该往哪走? 没有它,模型只能对所有合理选项均匀采样——左转、直行、右转都可能出现。但这个问题的有趣之处在于导航信息是以什么形式、在模型的什么位置被注入和消费的。 ...

2026年5月14日 · 31 分钟 · LexHsu

得分匹配、GAN 与生成模型的统一

概率密度估计的经典方法——最大似然估计——要求模型给出归一化的概率密度 pθ(x)p_\theta(x),这在复杂模型中往往不可行,因为归一化常数 Zθ=∫p~θ(x)dxZ_\theta = \int \tilde{p}_\theta(x)dx 的高维积分无法解析求解。2005 年,Aapo Hyvarinen 提出了一个绕过归一化常数的方法:得分匹配(Score Matching)。它不估计密度本身,而是估计密度的梯度——得分函数。 ...

2026年5月11日 · 15 分钟 · LexHsu

最优传输与 Wasserstein 距离:从 Monge 到 Kantorovich

1781 年,Gaspard Monge 在研究土木工程时提出了一个问题:如何以最小的代价将一堆土从一个地方搬到另一个地方?这个看似质朴的问题,在两百多年后成为概率论、优化和机器学习的交汇点。最优传输理论不仅给出了一种衡量概率分布之间距离的原则性方法,还揭示了概率度量与函数空间之间的深刻对偶关系。 ...

2026年5月6日 · 14 分钟 · LexHsu

变分自编码器:从 ELBO 到重参数化

生成模型的核心任务是学习数据分布 p(x)p(x),然后从中采样生成新样本。对于观测变量 xx,一个自然的框架是引入隐变量 zz,通过联合分布 p(x,z)=p(x∣z)p(z)p(x, z) = p(x|z)p(z) 建模数据生成过程。然而,一旦模型建好,真正困难的步骤浮现出来:如何从观测 xx 推断隐变量 zz 的后验分布 p(z∣x)p(z|x)? 这里需要澄清一个常见的混淆:先验假设与后验假设是两件不同的事。VAE 假设先验 p(z)=N(0,I)p(z) = \mathcal{N}(0, I),这只是对边际分布的约束——它规定了隐空间的整体结构,但并未约束给定 xx 后 zz 的条件分布。真正核心的建模假设是:编码器输出的 qϕ(z∣x)=N(μϕ(x),σϕ2(x)I)q_\phi(z|x) = \mathcal{N}(\mu_\phi(x), \sigma_\phi^2(x) I) 近似真实后验 p(z∣x)p(z|x)。换言之,VAE 假设的核心不在于边际分布层面的"zz 是正态的",而在于条件分布层面的"给定 xx 后,zz 的后验是正态的"——并且用参数化的编码器来逼近这个后验。 ...

2026年5月2日 · 17 分钟 · LexHsu

ReflectDrive-2:理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言:离散扩散 + 端到端驾驶 = 新范式? 2025-2026 年,端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。 自回归(AR)派以 GPT-driver 和 VLA 系列为代表,token-by-token 顺序输出轨迹,串行解码慢,端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表,在连续空间去噪生成轨迹,但通常需要额外的 anchor 或 goal 系统辅助,破坏了原始数据分布。 ...

2026年4月25日 · 19 分钟 · LexHsu

Flow Matching 与一致性模型:生成范式的新统一

扩散模型的概率流 ODE 将生成过程表述为从噪声到数据的确定性映射。但 ODE 路径并非唯一——不同的漂移和扩散系数定义了不同的路径。一个自然的问题随之而来:是否存在一条"最优"路径?Flow Matching 给出了肯定的回答:最优传输路径是直线。一致性模型则进一步追问:如果路径已经是最优的,能否一步走完? ...

2026年4月25日 · 21 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次