RL | Xu'Blog

Qwen-VLA 解读：T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA（Qwen Team，arXiv:2605.30280，2026-05-28 v1）把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合；真正想清楚的设计在训练侧：四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来，T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT，让动作分布的语言索引在视觉介入之前就学完。 ...

ReflectDrive-2：理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言：离散扩散 + 端到端驾驶 = 新范式？ 2025-2026 年，端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。自回归(AR)派以 GPT-driver 和 VLA 系列为代表，token-by-token 顺序输出轨迹，串行解码慢，端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表，在连续空间去噪生成轨迹，但通常需要额外的 anchor 或 goal 系统辅助，破坏了原始数据分布。 ...

CORAL：面向开放式发现的自主多Agent进化

引言图片来自 CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discovery 开放式发现(Open-Ended Discovery)——在解空间缺乏清晰结构、评估可能代价高昂或信号稀疏的领域中搜索新颖且高质量的解——仍然是自动科学推理中最困难的挑战之一。与梯度或凸性可以引导搜索方向的约束优化不同，开放式问题要求持续的探索、部分洞察的积累，以及在进展停滞时重新调整方向的能力。数学猜想证明、系统级代码优化、组合设计等问题都属于这一范畴。 ...

Reinforcement Learning for End-to-End Autonomous Driving: From Offline DPO to Iterative Self-Improvement

引言将强化学习（Reinforcement Learning, RL）集成到端到端自动驾驶系统中，已成为突破监督学习轨迹规划能力天花板的可行方向。然而标准 RL 算法在驾驶任务上的直接应用面临三重基本挑战：日志回放环境中难以弥合的 sim-to-real gap、在线仿真造成的计算瓶颈，以及为连续轨迹生成定义稠密 reward signal 的固有困难。 ...

Alpamayo：面向自动驾驶的推理-动作对齐 VLA 系统

引言端到端自动驾驶近年来取得了显著进展，然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。基本困难有四。其一，多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化，而非仅处理静态快照。其二，驾驶决策必须是因果性的：模型必须建模为何采取某动作，而非仅学习场景与动作之间的统计相关性。其三，预测轨迹必须在满足运动学和动力学约束的同时保持多模态性，且足够高效以实现实时推理。其四，推理过程必须与动作输出紧密对齐——推理不应是事后合理化，而必须可被实际执行的动作验证和约束。 ...

Policy Optimization for End-to-End Autonomous Driving: From REINFORCE to GRPO

1. 为什么端到端驾驶需要强化学习 Figure from AlphaDrive: GRPO-based RL for Autonomous Driving 监督学习——无论是通过模仿学习（imitation learning）还是行为克隆（behavior cloning）——只能将自动驾驶系统带到一定水平。其根本局限在于分布性：训练数据来自专家演示，训练与部署之间的任何分布偏移都会导致误差累积。更关键的是，监督目标与驾驶的真正目标存在错位。最小化与真实轨迹的 L2 距离会同等严厉地惩罚安全偏差和危险偏差，且没有机制让模型发现比数据集中更好的轨迹。 ...

Trajectory Tokenization for Autoregressive Planning: Clustering, Matching, and the AR+Diffusion Paradigm

Figure from DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving 自回归（Autoregressive, AR）轨迹生成——将驾驶轨迹预测为离散 token 的序列，就像语言模型预测文本一样——已成为端到端自动驾驶的强大范式。但如何将连续轨迹转化为离散 token？如何确保分词后的表示保留足够的规划保真度？AR 范式又如何与扩散模型和强化学习结合以产生 SOTA 结果？本文将完整梳理整个流程，从分词理论到 RL 后训练。 ...