Qwen-VLA(Qwen Team,arXiv:2605.30280,2026-05-28 v1)把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合;真正想清楚的设计在训练侧:四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来,T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT,让动作分布的语言索引在视觉介入之前就学完。
一句话总结:这是 π₀.5 / GR00T N1.6 这一代 VLA generalist 的 Qwen 版本,但在 training stage 的拆分上更明确,外加一个把 PPO 跨接到流匹配策略的 log-probability 技巧。
写完读了 HiF-VLA、VLA × VGGT 几何注入、Alpamayo (Nvidia VLA) 这几篇之后再回看 Qwen-VLA,会更清楚它在 VLA 训练 recipe 上的位置。读者预设:熟悉 OpenVLA / π₀ / GR00T 形态的 stack,知道 flow matching 是什么。
截至本文写作(2026-05-29),Qwen-VLA repo 只有 README + overview 图 + demo 视频,没有模型代码也没有权重。HF 上 Qwen/Qwen-VLA-Base 和 Qwen-VLA-Instruct 暂时也是 404。本文按 paper 走,等代码 release 再回填实现细节。
一、统一形式化:张量接口与 embodiment prompt
任务异构是表面,统一的是计算结构:感知视觉、理解语言、推理时空、预测未来动作或轨迹。Qwen-VLA 把这套写成一个条件预测:
其中 是当前观测(单帧、多视角或视频窗口), 是任务指令, 是 embodiment 文本描述, 是可选的任务族标签, 是预测步长。目标 在操作里是末端位姿或关节角,在导航里是 路点,在人类自我中心数据里是手腕 SE(3) 变换 + PCA 压缩到 10 维的 eigengrasp 手指系数。
张量接口。每个样本输出 张量, 是固定预测步长, 是所有控制模式共享的最大通道数。某个 embodiment 实际只用 通道,那 维占前 列,后 列零填充。一个二值 mask 记录有效项: 当且仅当 且 。这样一套 DiT 参数就能覆盖所有控制模式,mask 把填充位的梯度全部屏蔽掉。
形态约定走文本通道。文本 prompt 是平台特异性的唯一入口:
| |
WidowX / Franka / Mobile ALOHA / AgiBot A2-D / Galaxea R1 / AIRBOT MMK2 / 天工 / Real Human 都用同一套 token 流接进模型,不同的只是 prompt 里的 robot_tag、 还是 Abs、EEF 还是 Joint。VLN 样本的 prompt 类比地写"导航约定 + 路点视野"。这是 Alpamayo 那一族"VLM 解释语言、action expert 出动作"分工的延伸——给 action expert 的 platform-specific 信息全走 VLM 这条语言通道。
每数据集分位归一化。每个数据集里每维取 1% 和 99% 分位 ,线性映射到 并 clip。各 embodiment 保留原生控制约定,归一化只去尺度差。
二、架构:Qwen3.5-4B 骨干 + 单流 DiT 动作专家
VLM 骨干。Qwen3.5(Team 2026)是一个 natively multimodal 模型:ViT 出的视觉 token 经 spatial merging 后直接 interleave 进文本 token 流,单一 transformer 处理。它的 hybrid attention 把多数层做成 gated linear attention,每隔几层插一层 grouped-query softmax attention 保留全精度全局推理。这套设计在 Qwen3 vs Qwen3.5 架构 里走过一遍,主旨是用线性注意力扛长 token,用 full attention 守住关键全局推理点。
动作专家。挂一个 single-stream DiT 风格(Esser 2024 / Peebles & Xie 2023)的流匹配(Lipman 2023)策略:把 VLM hidden states 与 noisy action chunk 拼成一个 token 序列,过 joint self-attention,AdaLN 注入扩散 timestep ,多段 RoPE 与骨干对齐。整套 1.15B 参数:16 个 DiT block 各 70.8M(共 1.13B),加上动作投影 MLP(4.9M)、VLM hidden → DiT channel 的线性层(3.9M)、timestep embedding(2.8M)、输出 AdaLN modulation(4.7M)。推理时 Euler 几步从 走到 即可,实时控制延迟可控。
流匹配损失。给定 clean target 与高斯噪声 ,构造线性插值 ,训练专家 拟合条件速度场。为避免填充梯度主导,做 per-channel per-step 两级平均:先对每个有效通道 算 MSE
再对 个激活通道均匀平均
每个控制维度等权贡献梯度,无论该 embodiment 用了几维。VL 数据走标准下一 token 预测损失 防止灾难性遗忘。总损失 。
三、四阶段训练 recipe:把"语言-动作"先验独立学
paper 用 cerebrum vs cerebellum 的类比解释 recipe 动机:VLM 骨干已大规模预训,DiT 动作解码器是随机初始化的,两个模块进入优化时处于深度不对称状态;硬启 multimodal joint training 会一边浪费算力学动作分布,一边让解码器的早期噪声梯度扰动 VLM 表征。压缩-解压视角:语言指令 + embodiment prompt 是 dozen-token 的压缩描述,对应的动作轨迹是 hundreds-of-high-dim 的密集序列;桥接这个维度差距是一个结构化解压问题,T2A 就是专门学这张解压表。
我对这套修辞的态度是:用类比让设计 motivate 起来确实自然,但工程上 T2A 等价于"freeze-VLM 的 imitation warm-start"——压缩视角是后置说辞,下面消融读起来更直接。
Stage I:T2A(Text-to-Action DiT 预训)。冻 VLM,屏蔽图像,DiT 仅以文本 + embodiment prompt 为条件。这是 paper 主推的设计选择:语言 token 已包含任务 intent 的压缩编码,DiT 必须学会"哪些语言短语索引哪片动作分布"、“embodiment prompt 如何把同一意图调制成平台特异的运动程序”、“以及 flow matching 自身的去噪动力学”,全部在没有视觉捷径的情况下。下一阶段 CPT 接手时,多模态算力可以专攻视觉接地,不必再从零学动作生成。
Stage II:CPT(Continued Pretraining)。解冻 VLM 和 DiT,在 §四 表格的异构数据混合(74.2% 操作 + 6% 自我中心人类 + 7.5% 导航 + 3.7% 合成 + 8.5% VL)上联合训练。这一步把语言索引的动作先验"灌图像"。CPT 后的 checkpoint = Qwen-VLA-Base,已具备跨任务跨形态的泛化广度。
Stage III:SFT。两条并行分支:(a) multi-task SFT 在 VQA + spatial grounding + 操作 + 导航的 embodiment-balanced + task-balanced 采样上微调;(b) ALOHA 真机 SFT 在内部 teleoperation 数据上微调。VL loss 权重 0.1,操作和导航 action loss 权重 1.0,让梯度容量集中到动作生成,同时保留语言视觉理解。
Stage IV:RL。从 multi-task SFT checkpoint 出发,RLinf 框架跑 PPO + GAE,仅在 SimplerEnv 单一仿真环境里 rollout,稀疏二值 reward(成功 1,失败 0)。reward 不学,全是 simulator 的成功语义。critic 是挂在 VLM hidden states 上的 lightweight value head(mean-pool + linear projection + stop-gradient),learning rate (约为 actor 的 20×),让 value 收敛快而 policy 步幅保守。
把 PPO 跨接到流匹配策略的 log-probability 技巧
PPO 的重要性比例 需要可计算的 log-probability。AR token 策略走 softmax 即可;流匹配定义的是隐式密度,通过学到的速度场和迭代去噪给出分布。Qwen-VLA 的处理:
- 把确定性 probability-flow ODE 在每个 Euler 去噪步注入受控噪声转成 SDE(Song 2021),每一步过渡变成显式 Gaussian。
- rollout 时存所有中间去噪状态。
- PPO 更新时随机选一个去噪步 ,用当前参数重算速度场,得到该步的 Gaussian log-prob,构成 importance ratio。
只需多一次 DiT forward,importance ratio 精度够 PPO 用。log-prob 和 advantage 都在动作块层面计算:一个 步 chunk 一个 scalar reward、一个 GAE advantage,匹配流匹配解码器的时间粒度。
rollout 基础设施:客户端-服务端解耦,N=128 并行 env 实例,每次迭代 8 epoch × 128 步 = 8192 个 transition chunk。训练用 采样保多样性,评估用 锐化动作分布。
四、T2A 消融读解:五条互锁的设计选择
| 维度 | 最优设置 | 副作用 |
|---|---|---|
| (a) 数据组成 | 20% 合成 + 80% 真机(图像屏蔽) | 纯真机 51.0%;纯合成 64.1%;混合 71.1% |
| (a) 序列模式 | full-sequence 全长预测 | chunk 预测 -2.9~4.9 pp,因为切碎损失轨迹级 coherence |
| (a) 视觉输入 | 屏蔽(vision-free) | 加入图像 -2.87 pp,DiT 走视觉捷径就学不好语言-动作映射 |
| (b) timestep 分布 | T2A 用 Sigmoid-Normal,SFT 切回 Beta | 反过来 -5.7~8.3 pp,两个 Beta 最差 59.4% |
| (c) 训练步数 | 2,000 steps | 4k/10k 稳定 67%+;40k 过拟合到 60.4% |
五条互锁起来支撑同一个设计哲学:T2A 是一个无视觉、纯语言索引动作分布的低维任务,目标是"装好一个语言-动作的结构化先验"。
(a) 数据组成最有意思。纯真机数据物理动力学真实但任务覆盖窄;纯合成数据任务多样但运动学过于理想化。20:80 的混合让合成数据补语言-动作映射的覆盖广度,真机数据锚动力学的物理可行性。这是 paper 内能直接借走的 data recipe:要做语言-动作先验阶段,合成数据值得加但占比不要过半。
(b) timestep 分布。Beta 分布把密度集中在 clean 端( 接近 0),适合有强条件信号(VLM hidden states)的去噪学习——梯度可以均匀分配到所有 noise level,因为 backbone 提供了足够信息让 DiT 拒绝大噪声样本。Sigmoid-Normal 分布把密度集中在中间 noise level,在 T2A 无视觉条件时这才是信号最大的区域。换言之,timestep 分布的"最优形态"取决于条件信息的丰富度。这条对其他想做"先文本预训再灌视觉"的流匹配策略有可移植性。
(c) 训练步数与 (a) 的解读呼应:2000 步就够,因为 T2A 学的是低维结构性映射,不是高维生成。继续训只会让 DiT 记住具体轨迹实例,挤掉后续 CPT 的可塑性。
剩下两条 (full-sequence vs chunk) 和 (vision-free) 的方向都符合设计动机:full-sequence 才能学到 trajectory-level coherence;任何视觉信号在这一步都是捷径,会污染纯语言索引的先验。
消融的局限。所有 T2A 五维消融都在 Simpler-WidowX 单臂 tabletop 上做。双臂 / 全身 / 灵巧手是否服从同样的甜蜜点(20:80 数据混合、Sig-Normal timestep、2k 步),paper 没回答。
五、协训与投影:VL 数据、DiT 迁移、Zero-Padding
VL 数据混入操作训练。LIBERO / Simpler-WidowX 这种简单 benchmark 上 VL+VLA 与 VLA-only 几乎并列;到 RoboCasa-GR1(杂乱厨房场景)和 RoboTwin-2.0(双臂复杂任务)上,VL 协训 +4.9 / +4.6 pp。这一条很 robust:VL 数据帮的是细粒度物体识别和组合指令解析,简单 benchmark 不需要这种能力所以看不出差异,复杂 benchmark 才显出来。这同时回答了"VL 数据会不会干扰动作学习"的隐含担忧——在两个最简单的 benchmark 上看到无差异已经证明没有显著干扰。
预训 DiT 的可迁移性。把 Qwen-VLA 训好的 DiT 解耦下来,配到一个 fresh Qwen3.5-4B 上 SFT,收敛更快、峰值更高(Fig 7 (b))。这意味着 DiT 内部学到的动作先验是 backbone-agnostic 的,理论上可以作为"动作专家"模块复用到其他 VLM。
投影设计。DiT 隐空间到 per-embodiment 动作维度之间的投影,paper 比较了三种:
| 设计 | 参数量 | Bridge | Robocasa |
|---|---|---|---|
| Multi-MLP(每 embodiment 一对 enc/dec) | 63.3 | 52.1 | |
| Concatenation(共享 enc/dec 处理拼接全向量) | 63.0 | 52.8 | |
| Zero-Padding(共享 enc/dec 处理 padded 向量) | 63.0 | 53.2 | |
| 单 embodiment baseline | — | 62.8 | 53.4 |
三种共训设计都不掉点(甚至略涨),架构选择对成功率影响 <1.2 pp,参数最少的 Zero-Padding 胜出。这条结论对其他想做多形态共训的工程团队有借鉴:不必为每个 embodiment 设计专属投影头,一个 padded 共享 MLP 够用。
state conditioning。把关节角直接喂进 VLM prompt 还是 DiT,相比纯视觉 baseline 边际收益 +0.7~1.3 pp,paper 选不带——多视角已经覆盖了机器人当前 configuration 的可观测部分,且流匹配解码器预测的是相对位移而非绝对位姿,对当前 state 引用需求低。
六、实验:generalist 与 specialist 的边界
多基准 head-to-head:
| 方法 | 类型 | LIBERO | RoboCasa-GR1 | Simpler-WidowX | RoboTwin-Easy | RoboTwin-Hard |
|---|---|---|---|---|---|---|
| π₀ | specialist | 94.4 | – | – | 65.9 | 58.4 |
| StarVLA-OFT | specialist | 96.6 | 48.8 | 64.6 | 50.4 | – |
| GR00T N1.6 | specialist | 97.2 | 49.9 | 63.2 | 47.6 | – |
| π₀.5 | specialist | 97.6 | 37.0 | 46.9 | 82.7 | 76.8 |
| ABot-M0 | specialist | 98.6 | 58.3 | – | 86.0 | 85.0 |
| Being-H0.5 | specialist | 97.6 | 53.3 | – | – | – |
| Qwen-VLA-Base | generalist | 90.8 | 40.4 | 64.3 | 64.3 | 66.4 |
| Qwen-VLA-Instruct | generalist | 97.9 | 56.7 | 73.7 | 86.1 | 87.2 |
Qwen-VLA-Instruct(一个 generalist)在 5 个 benchmark 上互相超越多数 specialist:LIBERO 与 ABot-M0 几乎并列;RoboCasa-GR1 仅次于 ABot-M0;Simpler-WidowX 直接拿第一;RoboTwin Easy/Hard 双双略超 ABot-M0。“一个模型走天下"的承诺基本兑现。
真机 ALOHA OOD:
| 模型 | 平均 OOD |
|---|---|
| GR00T N1.6 | 25.4 |
| π₀.5 | 41.5 |
| Qwen-VLA-aloha w/o pretrain | 36.2 |
| Qwen-VLA-aloha w/ pretrain | 76.9 |
w/o vs w/ pretrain 同架构对比 +40.7 pp,证明 generalist 预训带来的真实迁移收益,不是架构功劳。但 Qwen-VLA-aloha w/ pretrain 与 π₀.5 / GR00T-N1.6 的 35+ pp 差距大得有些不自然——π₀.5 在自家平台上不会只有 41.5%,这里的对比可能没让 baseline 充分适配 ALOHA。这条数字看相对差异(同架构 +40.7 pp)比看绝对差异(vs π₀.5 +35.4 pp)更可信。
导航 R2R/RxR。Qwen-VLA-Instruct 在 R2R Val-Unseen OS 69.0、SR 57.5;RxR Val-Unseen SR 59.6、SPL 47.8,超 StreamVLN。VLN 不是 paper 的主战场但顺手刷过,说明同一套 action-and-trajectory 框架处理 路点没问题。
DOMINO 动态操控零样本。DOMINO benchmark 是 2026 年新出的动态操控评测,目标是看 VLA 能不能处理独立运动的物体。Qwen-VLA-Instruct 零样本 SR 26.6 / MS 39.5,超过所有显式在 DOMINO 上 fine-tune 的方法(最高是 PUMA 17.2 / 35.0)。这是全文最有说服力的迁移结果:没见过 dynamic manipulation 数据,靠大规模联合预训学到的"transferable spatial-to-kinematic prior"就能赢过专门为该任务设计的 baseline。70%+ 的失败率说明动态操控远没解决,但 zero-shot 超 fine-tuned 的方向性是真实的。
RL 的跨基准迁移:
| Stage | Simpler | RoboCasa | RoboTwin-E | RoboTwin-H | LIBERO | SimplerOOD | DOMINO SR | DOMINO MS |
|---|---|---|---|---|---|---|---|---|
| CPT | 64.3 | 40.4 | 64.3 | 66.4 | 90.8 | 25.3 | 21.1 | 37.4 |
| + SFT | 70.8 | 56.0 | 86.3 | 87.1 | 97.8 | 31.6 | 25.7 | 39.1 |
| + RL | 73.7 | 56.7 | 86.1 | 87.2 | 97.9 | 32.0 | 26.6 | 39.5 |
RL 在 rollout 环境 Simpler 上提升 +2.9 pp;其他 benchmark 上 +0.1~0.7 pp。paper 写"preserved or mildly improved”——很 honest。我读这张表的取向:RL 没造成跨任务遗忘是好消息,跨基准的小幅正迁移大概率在统计噪声范围内,关键论点是"task-success optimization 不会破坏 SFT 学到的多任务能力"。
七、横向定位:与同梯队 VLA 的对话
| 模型 | 骨干 | 动作专家 | 核心创新 |
|---|---|---|---|
| π₀ / π₀.5 | PaliGemma | DiT flow matching | “VLM + flow matching action expert” 范式开创者 |
| GR00T N1.6 | Eagle-2-VL | DiT flow matching | NVIDIA 在 humanoid 上的 generalist |
| Being-H0.5 | – | – | 大规模人类视频 pretrain |
| X-VLA | – | soft-prompt transformer | 跨形态用 soft prompt 而非文本 |
| ABot-M0 | – | action manifold | RoboTwin 上当下最强 specialist |
| Qwen-VLA | Qwen3.5-4B | single-stream DiT FM | T2A 解压先验 + 流匹配 PPO |
Qwen-VLA 的 delta 集中在两点。第一,T2A 阶段的视觉屏蔽:π₀ / GR00T 都从随机初始化 DiT 直接 joint-train,Qwen-VLA 把语言索引的动作先验先独立学一遍,让 CPT 把算力集中到视觉接地。第二,流匹配 PPO 的 log-prob 技巧:把 PPO 用到流匹配策略上是非平凡的(log-prob 不显式),Qwen-VLA 给出了一个 ODE→SDE + 单步 Euler 重算的 cost-O(1) 解法。
骨干选择上,Qwen3.5 hybrid linear/full attention 的设计 让长 token 序列(多视角图像 + embodiment prompt + 指令 + 历史)的 attention 算力可控,这是把多形态多视角灌进一个 transformer 的前置条件。
相关阅读。VLA generalist 系列:HiF-VLA: codec motion 当时间记忆、VLA × VGGT 几何注入的负结果、ReconVLA: gaze-crop 重建做隐式接地、ATLAS: 视觉推理的动作词表。AD 侧的同梯队:Alpamayo (Nvidia VLA)、生产 VLA 的工程取舍。流匹配数学:diffusion for driving、Kaiming He CVPR 2026 流匹配五连。VLA RL:RL policy optimization for e2e driving。
八、几条保留的怀疑
compression view 是修辞。“语言是 dozen-token 压缩描述、动作是 hundred-dim 解压目标"读起来漂亮,工程上 T2A 等价于"freeze-VLM 的 imitation warm-start”。维度差距框架并没有真的给出新的数学约束或损失项,把它去掉也能讲清楚 T2A 的设计。这条不影响实验结论,但影响读者把 paper 的洞察迁移到其他设定时的 lens:真正的可移植要素是"在引入视觉前先建好动作先验",不是"解压"。
T2A 消融全在单臂 tabletop。五维 ablation 都在 Simpler-WidowX 上做。20:80 数据混合、Sigmoid-Normal timestep、2k 步这三条数字是否能直接搬到双臂 RoboTwin、全身 RoboCasa-GR1、灵巧手 AIRBOT MMK2 上,paper 没回答。复现时这一条值得在自己平台上重做一遍 sweep。
真机 vs π₀.5 / GR00T-N1.6 的对比看相对。绝对数字差距 50+ pp 大概率包含"baseline 没在 ALOHA 上充分适配"的因素。Qwen-VLA 的 generalist pretrain 在自家平台上是强的(同架构 w/o vs w/ pretrain +40.7 pp 是干净对比),但跨架构跨平台数字需要打折看。
RL 跨基准迁移 +0.1~0.7 pp 在噪声范围。paper 用词"preserved or mildly improved" 是诚实的写法。RL 这一步的真实贡献是 in-domain Simpler +2.9 pp,跨基准更像"没有破坏"而不是"显著迁移"。
推理代价的实时性没数字。1.15B DiT + 4B VLM 共 ~5B 参数,paper 没给单步推理延迟,也没给在真机上可承诺的控频上限。Euler 步数 vs 控频的 trade-off 表是工程读者最想看到的,缺位。
repo 与权重当前是 stub 状态。截至 2026-05-29,QwenLM/Qwen-VLA repo 只有 README + overview 图 + demo MP4,零代码零权重;HF 上 Qwen/Qwen-VLA-Base / Qwen-VLA-Instruct 是 404。paper 论点强、实验广,但能不能复现要等 release。这条是事实陈述,不是评价;只是提醒想跟进的读者先存住 arXiv,回头再看 release。
Qwen-VLA 在 Physical Intelligence π₀ 系谱里是一个明确的"统一通用策略"实例,重点贡献在训练 recipe 的拆分(T2A → CPT → SFT → RL)和把 PPO 跨接到流匹配策略的 log-prob 技巧。我读完最想拿走的两件事:一是"先把动作先验在视觉外学好,再灌视觉"的 stage 分离做法可以迁移到其他 VLA 设定,二是 timestep 分布要随条件信息丰富度切换这条经验值(无视觉时 Sigmoid-Normal,有视觉时 Beta)。等 weights + code release 之后再回这篇做一次工程读,看实现选择和 paper 描述对得上几分。
References
Fang et al. Towards Generalizable Robotic Manipulation in Dynamic Environments (DOMINO + PUMA). arXiv:2603.15620, 2026. ↩︎