Qwen-VLA 解读：T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA（Qwen Team，arXiv:2605.30280，2026-05-28 v1）把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合；真正想清楚的设计在训练侧：四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来，T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT，让动作分布的语言索引在视觉介入之前就学完。

一句话总结：这是 π₀.5 / GR00T N1.6 这一代 VLA generalist 的 Qwen 版本，但在 training stage 的拆分上更明确，外加一个把 PPO 跨接到流匹配策略的 log-probability 技巧。

写完读了 HiF-VLA、VLA × VGGT 几何注入、Alpamayo (Nvidia VLA) 这几篇之后再回看 Qwen-VLA，会更清楚它在 VLA 训练 recipe 上的位置。读者预设：熟悉 OpenVLA / π₀ / GR00T 形态的 stack，知道 flow matching 是什么。

截至本文写作（2026-05-29），Qwen-VLA repo 只有 README + overview 图 + demo 视频，没有模型代码也没有权重。HF 上 Qwen/Qwen-VLA-Base 和 Qwen-VLA-Instruct 暂时也是 404。本文按 paper 走，等代码 release 再回填实现细节。

一、统一形式化：张量接口与 embodiment prompt

任务异构是表面，统一的是计算结构：感知视觉、理解语言、推理时空、预测未来动作或轨迹。Qwen-VLA 把这套写成一个条件预测：

p_\theta\bigl(y_{t:t+H-1} \mid o_t, x, e, z\bigr),

其中 $o_t$ 是当前观测（单帧、多视角或视频窗口）， $x$ 是任务指令， $e$ 是 embodiment 文本描述， $z$ 是可选的任务族标签， $H$ 是预测步长。目标 $y_{t:t+H-1}$ 在操作里是末端位姿或关节角，在导航里是 $(\Delta x, \Delta y, \Delta\theta)$ 路点，在人类自我中心数据里是手腕 SE(3) 变换 + PCA 压缩到 10 维的 eigengrasp 手指系数。

张量接口。每个样本输出 $Y \in \mathbb{R}^{H \times K}$ 张量， $H$ 是固定预测步长， $K$ 是所有控制模式共享的最大通道数。某个 embodiment 实际只用 $c \leq K$ 通道，那 $c$ 维占前 $c$ 列，后 $K-c$ 列零填充。一个二值 mask $M \in \{0,1\}^{H \times K}$ 记录有效项： $M_{h,k}=1$ 当且仅当 $k<c$ 且 $h<H_{\text{task}}$ 。这样一套 DiT 参数就能覆盖所有控制模式，mask 把填充位的梯度全部屏蔽掉。

形态约定走文本通道。文本 prompt 是平台特异性的唯一入口：

1
2
3
The robot is {robot_tag} with {single arm / dual arms}[, waist][, and mobile base].
The control frequency is {FPS} Hz. Please predict the next {chunk_size} control
actions to execute the following task: {ori_instruction}.

WidowX / Franka / Mobile ALOHA / AgiBot A2-D / Galaxea R1 / AIRBOT MMK2 / 天工 / Real Human 都用同一套 token 流接进模型，不同的只是 prompt 里的 robot_tag、 $\Delta$ 还是 Abs、EEF 还是 Joint。VLN 样本的 prompt 类比地写"导航约定 + 路点视野"。这是 Alpamayo 那一族"VLM 解释语言、action expert 出动作"分工的延伸——给 action expert 的 platform-specific 信息全走 VLM 这条语言通道。

每数据集分位归一化。每个数据集里每维取 1% 和 99% 分位 $q^k_{01}, q^k_{99}$ ，线性映射到 $[-1, 1]$ 并 clip。各 embodiment 保留原生控制约定，归一化只去尺度差。

二、架构：Qwen3.5-4B 骨干 + 单流 DiT 动作专家

Qwen-VLA 架构总览 Fig 1：Qwen-VLA overview，引自原文 Figure 1。左：操作 / 导航 / VL 理解三类任务统一进 Qwen3.5 VLM；右：Diffusion Transformer 动作专家，把 VLM hidden states 与 noisy action chunk 拼成一个序列做 joint self-attention，AdaLN 注入扩散 timestep，MLP 投影回原始动作维度。

VLM 骨干。Qwen3.5（Team 2026）是一个 natively multimodal 模型：ViT 出的视觉 token 经 spatial merging 后直接 interleave 进文本 token 流，单一 transformer 处理。它的 hybrid attention 把多数层做成 gated linear attention，每隔几层插一层 grouped-query softmax attention 保留全精度全局推理。这套设计在 Qwen3 vs Qwen3.5 架构里走过一遍，主旨是用线性注意力扛长 token，用 full attention 守住关键全局推理点。

动作专家。挂一个 single-stream DiT 风格（Esser 2024 / Peebles & Xie 2023）的流匹配（Lipman 2023）策略：把 VLM hidden states 与 noisy action chunk 拼成一个 token 序列，过 joint self-attention，AdaLN 注入扩散 timestep $\tau$ ，多段 RoPE 与骨干对齐。整套 1.15B 参数：16 个 DiT block 各 70.8M（共 1.13B），加上动作投影 MLP（4.9M）、VLM hidden → DiT channel 的线性层（3.9M）、timestep embedding（2.8M）、输出 AdaLN modulation（4.7M）。推理时 Euler 几步从 $\tau=1$ 走到 $\tau=0$ 即可，实时控制延迟可控。

流匹配损失。给定 clean target $Y_0 \in \mathbb{R}^{H \times K}$ 与高斯噪声 $Y_1 \sim \mathcal{N}(0, I)$ ，构造线性插值 $Y_\tau = (1-\tau)Y_0 + \tau Y_1$ ，训练专家 $v_\theta$ 拟合条件速度场。为避免填充梯度主导，做 per-channel per-step 两级平均：先对每个有效通道 $k<c$ 算 MSE

\ell_k = \frac{\sum_{h=1}^{H} M_{h,k}\bigl\Vert v_\theta(Y_\tau, \tau \mid o_{1:t}, x, e, z) - (Y_1 - Y_0)\bigr\Vert^2_{h,k}}{\sum_{h=1}^{H} M_{h,k}},

再对 $c$ 个激活通道均匀平均

\mathcal{L}_{\text{act}} = \mathbb{E}_{\tau, Y_0, Y_1}\!\left[\frac{1}{c}\sum_{k=0}^{c-1} \ell_k\right].

每个控制维度等权贡献梯度，无论该 embodiment 用了几维。VL 数据走标准下一 token 预测损失 $\mathcal{L}_{\text{vl}}$ 防止灾难性遗忘。总损失 $\mathcal{L} = \lambda_{\text{act}}\mathcal{L}_{\text{act}} + \lambda_{\text{vl}}\mathcal{L}_{\text{vl}}$ 。

三、四阶段训练 recipe：把"语言-动作"先验独立学

四阶段训练 recipe Fig 2：Qwen-VLA 训练 recipe，引自原文 Figure 2。Stage I (T2A) 只训 DiT、冻 VLM、屏蔽图像；Stage II (CPT) 解冻所有，灌入图像；Stage III (SFT) 分多任务和真机两条支线；Stage IV (RL) 用 SimplerEnv reward 优化闭环成功率。

paper 用 cerebrum vs cerebellum 的类比解释 recipe 动机：VLM 骨干已大规模预训，DiT 动作解码器是随机初始化的，两个模块进入优化时处于深度不对称状态；硬启 multimodal joint training 会一边浪费算力学动作分布，一边让解码器的早期噪声梯度扰动 VLM 表征。压缩-解压视角：语言指令 + embodiment prompt 是 dozen-token 的压缩描述，对应的动作轨迹是 hundreds-of-high-dim 的密集序列；桥接这个维度差距是一个结构化解压问题，T2A 就是专门学这张解压表。

我对这套修辞的态度是：用类比让设计 motivate 起来确实自然，但工程上 T2A 等价于"freeze-VLM 的 imitation warm-start"——压缩视角是后置说辞，下面消融读起来更直接。

Stage I：T2A（Text-to-Action DiT 预训）。冻 VLM，屏蔽图像，DiT 仅以文本 + embodiment prompt 为条件。这是 paper 主推的设计选择：语言 token 已包含任务 intent 的压缩编码，DiT 必须学会"哪些语言短语索引哪片动作分布"、“embodiment prompt 如何把同一意图调制成平台特异的运动程序”、“以及 flow matching 自身的去噪动力学”，全部在没有视觉捷径的情况下。下一阶段 CPT 接手时，多模态算力可以专攻视觉接地，不必再从零学动作生成。

Stage II：CPT（Continued Pretraining）。解冻 VLM 和 DiT，在 §四表格的异构数据混合（74.2% 操作 + 6% 自我中心人类 + 7.5% 导航 + 3.7% 合成 + 8.5% VL）上联合训练。这一步把语言索引的动作先验"灌图像"。CPT 后的 checkpoint = Qwen-VLA-Base，已具备跨任务跨形态的泛化广度。

Stage III：SFT。两条并行分支：(a) multi-task SFT 在 VQA + spatial grounding + 操作 + 导航的 embodiment-balanced + task-balanced 采样上微调；(b) ALOHA 真机 SFT 在内部 teleoperation 数据上微调。VL loss 权重 0.1，操作和导航 action loss 权重 1.0，让梯度容量集中到动作生成，同时保留语言视觉理解。

Stage IV：RL。从 multi-task SFT checkpoint 出发，RLinf 框架跑 PPO + GAE，仅在 SimplerEnv 单一仿真环境里 rollout，稀疏二值 reward（成功 1，失败 0）。reward 不学，全是 simulator 的成功语义。critic 是挂在 VLM hidden states 上的 lightweight value head（mean-pool + linear projection + stop-gradient），learning rate $10^{-4}$ （约为 actor $5\times 10^{-6}$ 的 20×），让 value 收敛快而 policy 步幅保守。

把 PPO 跨接到流匹配策略的 log-probability 技巧

PPO 的重要性比例 $r_t(\theta) = \pi_\theta(a_t \mid s_t) / \pi_{\theta_{\text{old}}}(a_t \mid s_t)$ 需要可计算的 log-probability。AR token 策略走 softmax 即可；流匹配定义的是隐式密度，通过学到的速度场和迭代去噪给出分布。Qwen-VLA 的处理：

把确定性 probability-flow ODE 在每个 Euler 去噪步注入受控噪声转成 SDE（Song 2021），每一步过渡变成显式 Gaussian。
rollout 时存所有中间去噪状态。
PPO 更新时随机选一个去噪步 $\tau_i$ ，用当前参数重算速度场，得到该步的 Gaussian log-prob，构成 importance ratio。

只需多一次 DiT forward，importance ratio 精度够 PPO 用。log-prob 和 advantage 都在动作块层面计算：一个 $H=16$ 步 chunk 一个 scalar reward、一个 GAE advantage，匹配流匹配解码器的时间粒度。

rollout 基础设施：客户端-服务端解耦，N=128 并行 env 实例，每次迭代 8 epoch × 128 步 = 8192 个 transition chunk。训练用 $\tau=1.0$ 采样保多样性，评估用 $\tau=0.6$ 锐化动作分布。

四、T2A 消融读解：五条互锁的设计选择

T2A 五维消融 Fig 6：T2A 预训消融，引自原文 Figure 6。(a) 数据组成与序列预测模式；(b) 流匹配 timestep 分布；(c) T2A 训练时长。所有消融在 Simpler-WidowX 上做。

维度	最优设置	副作用
(a) 数据组成	20% 合成 + 80% 真机（图像屏蔽）	纯真机 51.0%；纯合成 64.1%；混合 71.1%
(a) 序列模式	full-sequence 全长预测	chunk 预测 -2.9~4.9 pp，因为切碎损失轨迹级 coherence
(a) 视觉输入	屏蔽（vision-free）	加入图像 -2.87 pp，DiT 走视觉捷径就学不好语言-动作映射
(b) timestep 分布	T2A 用 Sigmoid-Normal，SFT 切回 Beta	反过来 -5.7~8.3 pp，两个 Beta 最差 59.4%
(c) 训练步数	2,000 steps	4k/10k 稳定 67%+；40k 过拟合到 60.4%

五条互锁起来支撑同一个设计哲学：T2A 是一个无视觉、纯语言索引动作分布的低维任务，目标是"装好一个语言-动作的结构化先验"。

(a) 数据组成最有意思。纯真机数据物理动力学真实但任务覆盖窄；纯合成数据任务多样但运动学过于理想化。20:80 的混合让合成数据补语言-动作映射的覆盖广度，真机数据锚动力学的物理可行性。这是 paper 内能直接借走的 data recipe：要做语言-动作先验阶段，合成数据值得加但占比不要过半。

(b) timestep 分布。Beta 分布把密度集中在 clean 端（ $\tau$ 接近 0），适合有强条件信号（VLM hidden states）的去噪学习——梯度可以均匀分配到所有 noise level，因为 backbone 提供了足够信息让 DiT 拒绝大噪声样本。Sigmoid-Normal 分布把密度集中在中间 noise level，在 T2A 无视觉条件时这才是信号最大的区域。换言之，timestep 分布的"最优形态"取决于条件信息的丰富度。这条对其他想做"先文本预训再灌视觉"的流匹配策略有可移植性。

剩下两条 (full-sequence vs chunk) 和 (vision-free) 的方向都符合设计动机：full-sequence 才能学到 trajectory-level coherence；任何视觉信号在这一步都是捷径，会污染纯语言索引的先验。

消融的局限。所有 T2A 五维消融都在 Simpler-WidowX 单臂 tabletop 上做。双臂 / 全身 / 灵巧手是否服从同样的甜蜜点（20:80 数据混合、Sig-Normal timestep、2k 步），paper 没回答。

五、协训与投影：VL 数据、DiT 迁移、Zero-Padding

VL 协训 + DiT 预训迁移 Fig 7：VL 协训 + DiT 预训迁移消融，引自原文 Figure 7。(a) VL 数据混入对动作学习的影响（VL+VLA 在复杂 benchmark 上 +4.6~4.9 pp）；(b) 预训 DiT 接到新 backbone 比从头训收敛更快且峰值更高。

VL 数据混入操作训练。LIBERO / Simpler-WidowX 这种简单 benchmark 上 VL+VLA 与 VLA-only 几乎并列；到 RoboCasa-GR1（杂乱厨房场景）和 RoboTwin-2.0（双臂复杂任务）上，VL 协训 +4.9 / +4.6 pp。这一条很 robust：VL 数据帮的是细粒度物体识别和组合指令解析，简单 benchmark 不需要这种能力所以看不出差异，复杂 benchmark 才显出来。这同时回答了"VL 数据会不会干扰动作学习"的隐含担忧——在两个最简单的 benchmark 上看到无差异已经证明没有显著干扰。

预训 DiT 的可迁移性。把 Qwen-VLA 训好的 DiT 解耦下来，配到一个 fresh Qwen3.5-4B 上 SFT，收敛更快、峰值更高（Fig 7 (b)）。这意味着 DiT 内部学到的动作先验是 backbone-agnostic 的，理论上可以作为"动作专家"模块复用到其他 VLM。

投影设计。DiT 隐空间到 per-embodiment 动作维度之间的投影，paper 比较了三种：

设计	参数量	Bridge	Robocasa
Multi-MLP（每 embodiment 一对 enc/dec）	$2h \sum_i d_i$	63.3	52.1
Concatenation（共享 enc/dec 处理拼接全向量）	$2h \sum_i d_i$	63.0	52.8
Zero-Padding（共享 enc/dec 处理 padded 向量）	$2h \cdot d_{\max}$	63.0	53.2
单 embodiment baseline	—	62.8	53.4

三种共训设计都不掉点（甚至略涨），架构选择对成功率影响 <1.2 pp，参数最少的 Zero-Padding 胜出。这条结论对其他想做多形态共训的工程团队有借鉴：不必为每个 embodiment 设计专属投影头，一个 padded 共享 MLP 够用。

state conditioning。把关节角直接喂进 VLM prompt 还是 DiT，相比纯视觉 baseline 边际收益 +0.7~1.3 pp，paper 选不带——多视角已经覆盖了机器人当前 configuration 的可观测部分，且流匹配解码器预测的是相对位移而非绝对位姿，对当前 state 引用需求低。

六、实验：generalist 与 specialist 的边界

多基准 head-to-head：

方法	类型	LIBERO	RoboCasa-GR1	Simpler-WidowX	RoboTwin-Easy	RoboTwin-Hard
π₀	specialist	94.4	–	–	65.9	58.4
StarVLA-OFT	specialist	96.6	48.8	64.6	50.4	–
GR00T N1.6	specialist	97.2	49.9	63.2	47.6	–
π₀.5	specialist	97.6	37.0	46.9	82.7	76.8
ABot-M0	specialist	98.6	58.3	–	86.0	85.0
Being-H0.5	specialist	97.6	53.3	–	–	–
Qwen-VLA-Base	generalist	90.8	40.4	64.3	64.3	66.4
Qwen-VLA-Instruct	generalist	97.9	56.7	73.7	86.1	87.2

Qwen-VLA-Instruct（一个 generalist）在 5 个 benchmark 上互相超越多数 specialist：LIBERO 与 ABot-M0 几乎并列；RoboCasa-GR1 仅次于 ABot-M0；Simpler-WidowX 直接拿第一；RoboTwin Easy/Hard 双双略超 ABot-M0。“一个模型走天下"的承诺基本兑现。

真机 ALOHA OOD：

模型	平均 OOD
GR00T N1.6	25.4
π₀.5	41.5
Qwen-VLA-aloha w/o pretrain	36.2
Qwen-VLA-aloha w/ pretrain	76.9

w/o vs w/ pretrain 同架构对比 +40.7 pp，证明 generalist 预训带来的真实迁移收益，不是架构功劳。但 Qwen-VLA-aloha w/ pretrain 与 π₀.5 / GR00T-N1.6 的 35+ pp 差距大得有些不自然——π₀.5 在自家平台上不会只有 41.5%，这里的对比可能没让 baseline 充分适配 ALOHA。这条数字看相对差异（同架构 +40.7 pp）比看绝对差异（vs π₀.5 +35.4 pp）更可信。

导航 R2R/RxR。Qwen-VLA-Instruct 在 R2R Val-Unseen OS 69.0、SR 57.5；RxR Val-Unseen SR 59.6、SPL 47.8，超 StreamVLN。VLN 不是 paper 的主战场但顺手刷过，说明同一套 action-and-trajectory 框架处理 $(\Delta x, \Delta y, \Delta\theta)$ 路点没问题。

DOMINO 动态操控零样本。DOMINO benchmark 是 2026 年新出的动态操控评测，目标是看 VLA 能不能处理独立运动的物体。Qwen-VLA-Instruct 零样本 SR 26.6 / MS 39.5，超过所有显式在 DOMINO 上 fine-tune 的方法（最高是 PUMA 17.2 / 35.0）。这是全文最有说服力的迁移结果：没见过 dynamic manipulation 数据，靠大规模联合预训学到的"transferable spatial-to-kinematic prior"就能赢过专门为该任务设计的 baseline。70%+ 的失败率说明动态操控远没解决，但 zero-shot 超 fine-tuned 的方向性是真实的。

RL 的跨基准迁移：

Stage	Simpler	RoboCasa	RoboTwin-E	RoboTwin-H	LIBERO	SimplerOOD	DOMINO SR	DOMINO MS
CPT	64.3	40.4	64.3	66.4	90.8	25.3	21.1	37.4
+ SFT	70.8	56.0	86.3	87.1	97.8	31.6	25.7	39.1
+ RL	73.7	56.7	86.1	87.2	97.9	32.0	26.6	39.5

RL 在 rollout 环境 Simpler 上提升 +2.9 pp；其他 benchmark 上 +0.1~0.7 pp。paper 写"preserved or mildly improved”——很 honest。我读这张表的取向：RL 没造成跨任务遗忘是好消息，跨基准的小幅正迁移大概率在统计噪声范围内，关键论点是"task-success optimization 不会破坏 SFT 学到的多任务能力"。

七、横向定位：与同梯队 VLA 的对话

模型	骨干	动作专家	核心创新
π₀ / π₀.5	PaliGemma	DiT flow matching	“VLM + flow matching action expert” 范式开创者
GR00T N1.6	Eagle-2-VL	DiT flow matching	NVIDIA 在 humanoid 上的 generalist
Being-H0.5	–	–	大规模人类视频 pretrain
X-VLA	–	soft-prompt transformer	跨形态用 soft prompt 而非文本
ABot-M0	–	action manifold	RoboTwin 上当下最强 specialist
Qwen-VLA	Qwen3.5-4B	single-stream DiT FM	T2A 解压先验 + 流匹配 PPO

Qwen-VLA 的 delta 集中在两点。第一，T2A 阶段的视觉屏蔽：π₀ / GR00T 都从随机初始化 DiT 直接 joint-train，Qwen-VLA 把语言索引的动作先验先独立学一遍，让 CPT 把算力集中到视觉接地。第二，流匹配 PPO 的 log-prob 技巧：把 PPO 用到流匹配策略上是非平凡的（log-prob 不显式），Qwen-VLA 给出了一个 ODE→SDE + 单步 Euler 重算的 cost-O(1) 解法。

骨干选择上，Qwen3.5 hybrid linear/full attention 的设计让长 token 序列（多视角图像 + embodiment prompt + 指令 + 历史）的 attention 算力可控，这是把多形态多视角灌进一个 transformer 的前置条件。

八、几条保留的怀疑

compression view 是修辞。“语言是 dozen-token 压缩描述、动作是 hundred-dim 解压目标"读起来漂亮，工程上 T2A 等价于"freeze-VLM 的 imitation warm-start”。维度差距框架并没有真的给出新的数学约束或损失项，把它去掉也能讲清楚 T2A 的设计。这条不影响实验结论，但影响读者把 paper 的洞察迁移到其他设定时的 lens：真正的可移植要素是"在引入视觉前先建好动作先验"，不是"解压"。

T2A 消融全在单臂 tabletop。五维 ablation 都在 Simpler-WidowX 上做。20:80 数据混合、Sigmoid-Normal timestep、2k 步这三条数字是否能直接搬到双臂 RoboTwin、全身 RoboCasa-GR1、灵巧手 AIRBOT MMK2 上，paper 没回答。复现时这一条值得在自己平台上重做一遍 sweep。

真机 vs π₀.5 / GR00T-N1.6 的对比看相对。绝对数字差距 50+ pp 大概率包含"baseline 没在 ALOHA 上充分适配"的因素。Qwen-VLA 的 generalist pretrain 在自家平台上是强的（同架构 w/o vs w/ pretrain +40.7 pp 是干净对比），但跨架构跨平台数字需要打折看。

RL 跨基准迁移 +0.1~0.7 pp 在噪声范围。paper 用词"preserved or mildly improved" 是诚实的写法。RL 这一步的真实贡献是 in-domain Simpler +2.9 pp，跨基准更像"没有破坏"而不是"显著迁移"。

推理代价的实时性没数字。1.15B DiT + 4B VLM 共 ~5B 参数，paper 没给单步推理延迟，也没给在真机上可承诺的控频上限。Euler 步数 vs 控频的 trade-off 表是工程读者最想看到的，缺位。

repo 与权重当前是 stub 状态。截至 2026-05-29，QwenLM/Qwen-VLA repo 只有 README + overview 图 + demo MP4，零代码零权重；HF 上 Qwen/Qwen-VLA-Base / Qwen-VLA-Instruct 是 404。paper 论点强、实验广，但能不能复现要等 release。这条是事实陈述，不是评价；只是提醒想跟进的读者先存住 arXiv，回头再看 release。

Qwen-VLA 在 Physical Intelligence π₀ 系谱里是一个明确的"统一通用策略"实例，重点贡献在训练 recipe 的拆分（T2A → CPT → SFT → RL）和把 PPO 跨接到流匹配策略的 log-prob 技巧。我读完最想拿走的两件事：一是"先把动作先验在视觉外学好，再灌视觉"的 stage 分离做法可以迁移到其他 VLA 设定，二是 timestep 分布要随条件信息丰富度切换这条经验值（无视觉时 Sigmoid-Normal，有视觉时 Beta）。等 weights + code release 之后再回这篇做一次工程读，看实现选择和 paper 描述对得上几分。

References

Fang et al. Towards Generalizable Robotic Manipulation in Dynamic Environments (DOMINO + PUMA). arXiv:2603.15620, 2026. ↩︎

一、统一形式化：张量接口与 embodiment prompt#

二、架构：Qwen3.5-4B 骨干 + 单流 DiT 动作专家#

三、四阶段训练 recipe：把"语言-动作"先验独立学#

把 PPO 跨接到流匹配策略的 log-probability 技巧#

四、T2A 消融读解：五条互锁的设计选择#

五、协训与投影：VL 数据、DiT 迁移、Zero-Padding#

六、实验：generalist 与 specialist 的边界#

七、横向定位：与同梯队 VLA 的对话#

八、几条保留的怀疑#

References#

相关文章