Flow Matching 训练的广度、深度与物理 horizon:cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象:trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint,最后两三个点会往内或往外偏一个肉眼可见的角度,定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule:Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0,inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端,第一个 Euler 步因此在欠训区间上做了一次大跳,误差被后续步序放大。这个自洽,但只是表象。 ...

2026年6月26日 · 29 分钟 · LexHsu

MiniT2I:把文生图拉回 ImageNet 实验台

一、一个被默认接受的复杂性 文生图(Text-to-Image,T2I)在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮,但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文,第一反应是:先攒卡。 ...

2026年6月23日 · 14 分钟 · LexHsu

Qwen-VLA 解读:T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA(Qwen Team,arXiv:2605.30280,2026-05-28 v1)把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合;真正想清楚的设计在训练侧:四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来,T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT,让动作分布的语言索引在视觉介入之前就学完。 ...

2026年5月28日 · 16 分钟 · LexHsu

最优传输与 Wasserstein 距离:从 Monge 到 Kantorovich

1781 年,Gaspard Monge 在研究土木工程时提出了一个问题:如何以最小的代价将一堆土从一个地方搬到另一个地方?这个看似质朴的问题,在两百多年后成为概率论、优化和机器学习的交汇点。最优传输理论不仅给出了一种衡量概率分布之间距离的原则性方法,还揭示了概率度量与函数空间之间的深刻对偶关系。 ...

2026年5月6日 · 14 分钟 · LexHsu

Flow Matching 与一致性模型:生成范式的新统一

扩散模型的概率流 ODE 将生成过程表述为从噪声到数据的确定性映射。但 ODE 路径并非唯一——不同的漂移和扩散系数定义了不同的路径。一个自然的问题随之而来:是否存在一条"最优"路径?Flow Matching 给出了肯定的回答:最优传输路径是直线。一致性模型则进一步追问:如果路径已经是最优的,能否一步走完? ...

2026年4月25日 · 21 分钟 · LexHsu

扩散模型的 SDE/ODE 统一:随机微分方程到确定性采样

一、从离散到连续:马尔可夫链的 SDE 极限 DDPM 的前向过程是一个离散的马尔可夫链:每一步从 xt−1x_{t-1} 到 xtx_t 添加一个小的高斯噪声。这个离散过程有一个自然的连续极限——当时间步长 Δt→0\Delta t \to 0 时,马尔可夫链收敛于一个随机微分方程(SDE)。 ...

2026年4月22日 · 21 分钟 · LexHsu

凯明的方法论:从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来 何恺明(Kaiming He)的论文有一种一眼能认出的辨识度。 这种辨识度并非来自文风。他的论文写作并不华丽,公式不多,章节短,图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度,但每一次削减都站在一个更深的先验(prior)上,因此不构成 cheating。 ...

2026年4月18日 · 21 分钟 · LexHsu

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览:14B MoE DiT + Flow Matching + 3D VAE,详见 Wan2.2 GitHub 1. 承诺:视频生成即世界模拟 当 OpenAI 在 2024 年初发布 Sora 时,其叙事框架经过了精心设计:这不仅仅是一个视频生成器,而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段,物体以合理的方式碰撞和变形,镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型,在某种层面上,必然理解世界是如何运作的。 ...

2026年3月14日 · 27 分钟 · LexHsu

扩散模型与自动驾驶规划:从去噪的数学到轨迹的生成

为什么自动驾驶需要扩散模型? 自动驾驶规划的核心难题在于"找到正确的轨迹分布",而非仅仅是"找到一条轨迹"。 考虑一个简单场景:自车接近一个无信号灯的 T 字路口。存在三种合理选项——左转、右转、直行通过。传统回归模型(L1/L2 损失)训练后面对此场景会输出三条轨迹的平均值:一条斜向路口中央的无意义曲线。这是损失函数的结构性局限,而非模型的能力缺陷——L2 回归在多模态分布上的最优解恰好是条件均值,而条件均值在物理上可能根本不可行。 ...

2025年11月8日 · 26 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次