Flow-Matching

Flow Matching 训练的广度、深度与物理 horizon：cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象：trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint，最后两三个点会往内或往外偏一个肉眼可见的角度，定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule：Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0，inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端，第一个 Euler 步因此在欠训区间上做了一次大跳，误差被后续步序放大。这个自洽，但只是表象。 ...

MiniT2I：把文生图拉回 ImageNet 实验台

一、一个被默认接受的复杂性文生图（Text-to-Image，T2I）在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮，但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文，第一反应是：先攒卡。 ...

Qwen-VLA 解读：T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA（Qwen Team，arXiv:2605.30280，2026-05-28 v1）把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合；真正想清楚的设计在训练侧：四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来，T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT，让动作分布的语言索引在视觉介入之前就学完。 ...

最优传输与 Wasserstein 距离：从 Monge 到 Kantorovich

1781 年，Gaspard Monge 在研究土木工程时提出了一个问题：如何以最小的代价将一堆土从一个地方搬到另一个地方？这个看似质朴的问题，在两百多年后成为概率论、优化和机器学习的交汇点。最优传输理论不仅给出了一种衡量概率分布之间距离的原则性方法，还揭示了概率度量与函数空间之间的深刻对偶关系。 ...

Flow Matching 与一致性模型：生成范式的新统一

扩散模型的概率流 ODE 将生成过程表述为从噪声到数据的确定性映射。但 ODE 路径并非唯一——不同的漂移和扩散系数定义了不同的路径。一个自然的问题随之而来：是否存在一条"最优"路径？Flow Matching 给出了肯定的回答：最优传输路径是直线。一致性模型则进一步追问：如果路径已经是最优的，能否一步走完？ ...

扩散模型的 SDE/ODE 统一：随机微分方程到确定性采样

一、从离散到连续：马尔可夫链的 SDE 极限 DDPM 的前向过程是一个离散的马尔可夫链：每一步从 xt−1x_{t-1} 到 xtx_t 添加一个小的高斯噪声。这个离散过程有一个自然的连续极限——当时间步长 Δt→0\Delta t \to 0 时，马尔可夫链收敛于一个随机微分方程（SDE）。 ...

凯明的方法论：从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来何恺明（Kaiming He）的论文有一种一眼能认出的辨识度。这种辨识度并非来自文风。他的论文写作并不华丽，公式不多，章节短，图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度，但每一次削减都站在一个更深的先验（prior）上，因此不构成 cheating。 ...

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览：14B MoE DiT + Flow Matching + 3D VAE，详见 Wan2.2 GitHub 1. 承诺：视频生成即世界模拟当 OpenAI 在 2024 年初发布 Sora 时，其叙事框架经过了精心设计：这不仅仅是一个视频生成器，而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段，物体以合理的方式碰撞和变形，镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型，在某种层面上，必然理解世界是如何运作的。 ...

扩散模型与自动驾驶规划：从去噪的数学到轨迹的生成

为什么自动驾驶需要扩散模型？自动驾驶规划的核心难题在于"找到正确的轨迹分布"，而非仅仅是"找到一条轨迹"。考虑一个简单场景：自车接近一个无信号灯的 T 字路口。存在三种合理选项——左转、右转、直行通过。传统回归模型（L1/L2 损失）训练后面对此场景会输出三条轨迹的平均值：一条斜向路口中央的无意义曲线。这是损失函数的结构性局限，而非模型的能力缺陷——L2 回归在多模态分布上的最优解恰好是条件均值，而条件均值在物理上可能根本不可行。 ...