引言
上一篇 从预测未来到驱动行动:机器人世界模型的架构与评测 以 NTU/UC Berkeley/Stanford 联合综述为底本,把世界模型与策略的耦合方式归纳为六个范式:解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇:把同一套理论骨架带到自动驾驶,看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。
这五篇是 DriveLaW(华科+小米,NAVSIM v1 89.1)、DriveWorld-VLA(北交大+小米,v1 91.3 / v2 86.8)、LaST-VLA(清华+小米EV+澳大,v1 91.3 / v2 87.1)、Latent-WAM(中科院+长安,v2 89.3)、Uni-World VLA(理想,v1 89.4)。它们覆盖了从 2025 年 12 月到 2026 年 3 月的时间窗,团队来自学界与车企的不同组合,但收敛到一个共同关切:在 BEV、视频 latent、3D 几何特征里挑一个空间,把世界预测目标内化进端到端规划。
本文回答四个问题。AD 场景的物理约束如何重塑机器人那套范式的权衡(§1)?五篇分别落在六范式的哪个位置,以及 Uni-World VLA 提出的"交错生成"是否构成第七范式(§2)?哪些跨域结论稳健、哪些被场景差异翻转(§3)?NAVSIM 的 PDMS 与机器人侧的 closed-loop success rate 是否同样存在同构指标问题(§4)?最后是对实际工作的几条指引(§5)。
1. 从机器人到自动驾驶:场景差异决定权衡差异
机器人侧综述在 §4 列出三大挑战:因果条件化差距、推理效率瓶颈、物理 grounding。把这三条原样搬到 AD 不会出错,但权重需要重新分配。
接触 vs 几何的 grounding 侧重。机器人接触丰富任务要求触觉、本体感觉、力反馈与视觉互补——视频预测无法稳定恢复夹爪是否真的接触。AD 场景没有接触物理(碰撞即灾难,模型的任务恰恰是避免它),grounding 的全部重量压在视觉与几何侧:BEV 占据栅格、单目深度、3D 几何重建。Depth Anything 3 [3] 和 VGGT [4] 在 AD 场景里是 grounding 的主角,触觉模态不在场。LaST-VLA 用 VGGT 作为几何适配器的对齐目标、Latent-WAM 用 WorldMirror 做几何蒸馏、Uni-World VLA 用 Depth Anything 3 做深度融合——三家不同团队、三种方法,都把 3D 几何作为世界模型的强先验。
安全裕度反转。机器人允许重试,夹取失败可以重置回原位再试。AD 不允许——一次碰撞、压实线、闯红灯就是任务失败。这一差异让"反事实想象"(基于不同候选动作推演不同未来)在 AD 上比在机器人上更被重视。DriveWorld-VLA 的 Stage 3 专门做未来引导的闭环评估:先预测动作,再用 DiT 分支以预测动作为条件推演未来 BEV,引入 reward function 评分,把高分轨迹的梯度权重抬高。这种"想象多条 rollout、选最优、再训"的循环在机器人综述里也存在,但在 AD 上是核心训练目标而非附加优化。
控制频率约束反转。机器人操作任务通常 10-30 Hz 闭环,每一拍可以容许 30-100 ms 的模型推理。AD 在高速场景下决策延迟必须低于 100 ms,逼近 GPU 单步推理极限。这一约束直接传导到架构选择:Latent-WAM 把推理参数压到 104M、完全跳过显式视频生成;DriveLaW 用 LTX-Video 的 32×32×8 高压缩潜空间(1:192 压缩比);Fast-WAM 的 train-imagine-execute-fast 思路(训练时学未来、推理时不算未来)在 AD 上被独立验证。机器人综述里 Fast-WAM 的结论是亮点,AD 综述里同款结论已经成为基础设施。
数据分布差异。机器人数据集 GigaWorld 用 10k 小时具身视频,覆盖第一视角操作。AD 用 nuScenes + nuPlan + Waymo Open Motion,规模到百万小时但场景分布偏窄——主要是城市道路 + 高速。这导致 AD 世界模型的"想象"任务比机器人简单(车辆运动遵循刚体动力学、道路结构服从交通规则)但泛化要求更高(必须覆盖罕见 corner case)。DriveLaW 的消融显示视频预训练数据从 0 扩到 7.6M 帧带来 PDMS 从 85.9 到 89.1 的单调提升,预训练规模在 AD 上的收益尚未饱和。
这四条差异不是孤立的。它们解释了为什么 AD 的五篇工作集中在统一 VLA 与 Latent-space 两个范式上——既要 grounding 强、又要 inference 快、又要支持反事实评估、又要在大规模数据上保持训练效率。
2. AD 五篇 × 六范式映射
把五篇逐个放进机器人综述给出的范式空间。
| 论文 | 主要范式 | 视觉表征 | 动作预测 | NAVSIM 成绩 |
|---|---|---|---|---|
| DriveLaW | MoE/MoT 串联变体 | LTX-Video latent (32×32×8) | 133M Action DiT (flow matching) | v1 89.1 |
| DriveWorld-VLA | 统一 VLA + Latent reward | BEV (ResNet-34/Swin-T) | InternVL3-2B + Action Decoder | v1 91.3, v2 86.8 |
| LaST-VLA | 统一 VLA(结构化预测) | Cosmos + VGGT 对齐特征 | InternVL3 + waypoints | v1 91.3, v2 87.1 |
| Latent-WAM | Latent-space | DINOv2-Base + WorldMirror 蒸馏 | 4 层 Transformer Decoder | v2 89.3 |
| Uni-World VLA | 交错生成(新范式候选) | MagVIT-v2 + DA3 深度融合 | 交错的 frame/action token | v1 89.4 |
2.1 DriveLaW:视频 → 动作的串联 MoE/MoT
DriveLaW 把世界模型与规划器从"并行训练"重组为"串联推理":先训 2B 参数的 LTX-Video 视频模型,再让 133M 参数的 Action DiT 读取 Video DiT 在第一次去噪时每一层 transformer block 的隐特征 ,把它们作为 cross-attention 的 condition。三阶段训练对应"低分辨率长帧学动作规律 → 高分辨率短帧提质 → 视频与动作联合训"。
形式上,给定 latent video 、条件 (导航指令 + 自车状态),
是 Video DiT 的去噪步骤, 是从去噪过程抽取隐特征的算子。Action DiT 接受 作为输入预测轨迹。
把它放回机器人综述的六范式:视觉流(Video DiT)与动作流(Action DiT)保持独立结构、独立参数,通过共享隐特征交互——这是 MoE/MoT 的形态。但与典型 MoE/MoT 的并行去噪不同,DriveLaW 是串联的:视频在时间上领先动作,Action DiT 在 Video DiT 完成第一步去噪后才取特征。这种串联让 Action DiT 可以利用视频模型在大规模视频上预训练的世界知识,但代价是 Action 必须等 Video 的第一步去噪——推理路径上多了一道顺序依赖。
值得一提的细节是 Noise Reinjection:训练时不全局加噪声、只给高频细节区域(车道线、车灯、车辆边缘、路面纹理)有选择地重新注入少量噪声,强迫模型主动重绘这些细节而不是平滑掉。这一技巧在机器人侧没有对应——机器人场景的高频细节是接触点与物体边缘,主要靠触觉数据补全,没有人在视频侧做类似处理。
2.2 DriveWorld-VLA:统一 VLA + Latent reward refinement
DriveWorld-VLA 把所有模态都接到 InternVL3-2B 的潜空间里:多视角图片、BEV 特征、历史动作、文本指令。VLM 输出共享潜在特征 ,由两个不同的 head 分头使用——预测未来 BEV 、预测动作 。这是典型的统一 VLA 形态:
但它在 Stage 2 与 Stage 3 走出了机器人侧综述未覆盖的一步。Stage 2 把未来的真实多视角图像送入冻结的 BEV 编码器拿到"真实未来 BEV 潜在状态" 作为监督信号,用第二个 DiT 分支(Action-conditioned Denoiser)在未来动作条件下推演未来 BEV:
这一损失函数是 flow matching 的标准形式(参见 Flow Matching 与一致性模型),但条件里有动作 这一项——意味着 denoiser 学到的是"给定动作时未来 BEV 长什么样"的条件分布,这正是因果条件化(control-consistent future)的具体实现。
Stage 3 把这个能力反过来用:先用 denoiser 第一分支预测未来 BEV ,再用 DiT 第二分支以预测动作为条件推演动作条件未来 BEV ,引入 reward function 评估二者一致性,把高分轨迹的梯度权重抬高:
这是机器人综述里讨论的 rollout evaluation 在 AD 上的形态——但具体到 NAVSIM 上还多了一步:真实奖励分数通过把轨迹丢进 NAVSIM 仿真器在线评估得到。机器人侧很少有类似 closed-loop simulator 的反馈渠道,AD 因为 NAVSIM 的存在多了这一手。
2.3 LaST-VLA:预测 Cosmos + VGGT 对齐特征的统一 VLA
LaST-VLA 与 DriveWorld-VLA 在范式归属上是同类(都是统一 VLA),区别在于预测目标的选择。DriveWorld-VLA 预测 BEV(人造的 2D 鸟瞰栅格),LaST-VLA 预测两个基础模型的中间特征:Cosmos(视频世界模型)的表征空间通过 Dynamics Adapter 对齐、VGGT(3D 基础模型)的密集特征空间通过 Geometry Adapter 对齐。
形式上 VLM 输出隐式 CoT 序列 ,划分为动态流(3×12 token,对应短/中/长期运动状态)和几何流(12 token),分别走两个适配器:
Stage 1 设 ,强制隐式 CoT 严格对齐教师模型特征——“学会思考”。Stage 2 权重反转——“学会行动”。这与机器人综述里讨论的 DreamVLA 是同型工作:预测结构化世界知识(动态区域、深度、语义)而非原始像素。AD 侧 LaST-VLA 把这一思路推得更彻底:用两个独立的基础模型作为教师,让 CoT 在两个正交维度(dynamic、geometric)上同时被约束。
两个特殊的注意力 mask 设计——隐式互掩码(动态隐式特征与几何隐式特征相互屏蔽)、视觉瓶颈掩码(动作 token 禁止直接关注原始图像特征)——是确保隐式 CoT 真的承担推理责任的工程化保险。如果不做这两个 mask,模型会偷懒:把空间信息和时间信息混杂、或者绕过隐式特征直接从视觉特征生成动作。这两个 mask 在机器人侧没有对应——大概是因为机器人侧的隐式 CoT 还没复杂到需要这种正交化约束。
2.4 Latent-WAM:完全潜在空间的世界模型
Latent-WAM 是五篇里最干净的 Latent-space 范式实例。整个 pipeline 不做任何像素级别的视频生成,全部在 DINOv2 + 几何蒸馏的潜在空间运转。Spatial-Aware Compressive World Encoder(SCWE)是 DINOv2-Base + 几何对齐到 WorldMirror 的输出:
Dynamic Latent World Model(DLWM)用 4 层 Transformer Decoder + 3D-RoPE,把过去几帧的 作为 KV 缓存,用随机初始化的 future query 提取未来信息。世界模型损失 用 MSE 监督 DLWM 预测的未来状态向 EMA 老师模型给出的真值靠拢。
最重要的是推理路径:只用 World Encoder + 轨迹解码器,DLWM 在推理时被裁掉——和 Fast-WAM 在机器人侧的设计完全同构。总推理参数 104M,是五篇里最小的。NAVSIM v2 上 89.3 的成绩证明:在 AD 上,Fast-WAM “训练时学未来、推理时不算未来” 的结论同样成立,而且压缩到 104M 参数仍然能跑出 v2 89.3 的 EPDMS。
这一跨域结论很硬。如果 Fast-WAM 与 Latent-WAM 在两个完全不同的场景(机器人桌面操作 vs 城市道路驾驶)都证明视频分支在推理时可以裁掉,那这就不再是"某个范式的特例"——而是"世界建模在 VLA 训练中起的是正则化作用、不是 inference-time 的预测作用"这一更普遍命题的两次独立证据。
2.5 Uni-World VLA:交错生成是否构成第七范式
Uni-World VLA 用统一大模型交替生成帧 token 和动作 token:在每一步循环里先预测 (下一帧 token),再预测 (下一动作 token),下一帧的预测基于已生成的帧与动作历史,下一动作的预测又基于已生成的帧(含新预测的那一帧):
这种交错生成跟机器人综述里六范式的任何一个都不完全吻合。它不是 MoE/MoT——视觉流和动作流是同一个大模型而非两个独立流。它不是统一 VLA——后者把预测目标作为辅助损失内化,Uni-World 直接把帧 token 作为 first-class 输出。它也不是单骨干生成——后者并行去噪所有 token,Uni-World 是严格的因果交错。
机器人侧最接近的工作是 LingBot-VA(蚂蚁灵波),它在自回归扩散框架里把视频和动作交错放进一个序列。但 LingBot-VA 是双流 MoT(视频 DiT + 动作 DiT,宽度不同)+ 共享的因果注意力,本质上仍是 MoE/MoT 的因果变体。Uni-World VLA 是真正的单一大模型 + 模态间因果分隔,更激进。
把它归类为"交错生成"是否构成第七范式,取决于六范式的划分粒度。如果把 MoE/MoT 理解为"任何形式的多模态因果交互",Uni-World 可以塞进去;如果坚持 MoE/MoT 要求模态流物理分离,Uni-World 就需要独立的范式标签。本文倾向后者——单一大模型 + 模态间因果分隔是足够独立的设计选择,应当被识别为 candidate 第七范式。这一判断的落地证据:理想团队报告的 NAVSIM v1 89.4 是该范式下的最高分,未来若有更多团队走相同路线、且成绩稳定在 90 分以上,这一范式就坐实了。
值得注意的辅助设计是 Uni-World 的 MagVIT-v2 双路编码——一路高清慢编码成上下文 token(看环境结构)、一路低清快编码成动态 token(看运动变化)。这是对"AD 场景里运动信息与结构信息的时间尺度差异"的工程响应,机器人侧场景结构变化慢、不需要这一区分。
3. 同范式跨域对偶
把 AD 五篇与机器人侧综述提到的代表性工作做配对,看哪些跨域结论稳健、哪些被场景差异翻转。
对偶一:Fast-WAM ↔ Latent-WAM。两者都验证"训练时学未来、推理时跳过"。Fast-WAM 在 LIBERO 与 RoboTwin 上证明这一思路的可行性,Latent-WAM 在 NAVSIM v2 上跑出 89.3 EPDMS。结论稳健,已经从"某个范式的特例"上升为"跨域 robust insight"。对工作的启示:在自家 AD 系统里如果显式 video rollout 占用推理预算,可以放心剪掉、只在训练阶段保留视频共训。
对偶二:DreamVLA ↔ LaST-VLA。两者都是统一 VLA 的"预测结构化知识"变体,不是预测原始像素。机器人侧 DreamVLA 预测动态区域 + 深度 + 语义,AD 侧 LaST-VLA 预测 Cosmos + VGGT 对齐特征。结论:在统一 VLA 范式下,预测目标的"语义结构化程度"决定上限——预测原始像素信息量过载、预测低维 BEV 信息量不足、预测基础模型对齐特征居中且 grounding 强。对工作的启示:选择预测目标时,向"已经被基础模型提炼过"的特征空间靠拢,比向原始像素或人工设计的 BEV 靠拢更可能拿到高分。
对偶三:GigaWorld-Policy ↔ Uni-World VLA。两者都是交错生成范式的代表,分别在 Wan2.2 5B 基座与理想自研基座上实现。GigaWorld 用 5B 参数 + 10k 小时具身预训练在 RoboTwin 上拿 92.9,Uni-World 用未公开规模的基座在 NAVSIM v1 拿 89.4。对工作的启示:交错生成可能是六范式之外值得跟踪的第七条线,2026 H2 应当关注是否会有更多团队走这一路线。
对偶四:LingBot-VA ↔ DriveWorld-VLA。两者都引入 reward refinement 做闭环优化。机器人侧 LingBot-VA 通过自回归 + KV cache 实现推理时的闭环修正,AD 侧 DriveWorld-VLA 通过 NAVSIM 仿真器的在线评分实现训练时的 reward weighting。关键场景差异:机器人侧的"闭环"主要发生在推理期(实际机械臂的状态反馈),AD 侧的"闭环"主要发生在训练期(NAVSIM 仿真器作为奖励来源)。AD 的部署时推理仍然是开环——因为高速场景下没有时间做多步 rollout 比较。
对偶五:VLA-JEPA ↔ Latent-WAM。两者都用 JEPA-style 潜在空间预测,机器人侧 VLA-JEPA 在 V-JEPA 2 上做、AD 侧 Latent-WAM 在 DINOv2 + 几何蒸馏上做。结论稳健:潜在空间预测是高效世界模型的共同选择,在两个场景里都能跑到该范式下的 SOTA 附近。对工作的启示:如果自家系统的推理预算紧张,Latent-space 范式是当前最可行的高分路线。
翻转的结论
不是所有机器人侧的结论都直接搬过来。
反例一:触觉/力觉 grounding 在 AD 上完全不适用。机器人综述强调触觉数据集不足是 grounding 的瓶颈,AD 侧这一问题不存在——AD 场景不需要触觉。AD 的对应瓶颈是"罕见 corner case 数据稀疏"——长尾分布问题。
反例二:单骨干生成范式在 AD 五篇里完全缺席。机器人侧 UVA、UWA、Cosmos Policy、GigaWorld-Policy 多个工作走单骨干路线,AD 侧没有任何一篇这样做。可能的原因:AD 数据规模虽大但场景分布窄,单骨干联合优化容易让动作模态被视觉模态压制;机器人侧的接触物理给动作模态独立的 grounding 信号,更耐受单骨干的模态挤压。这是一个尚未被充分讨论的场景差异。
反例三:符号/规划器范式在 AD 侧也基本缺席。机器人侧 TD-MPC2、LeWorldModel 走梯度规划,AD 侧没有对应工作。这并非因为 AD 不需要符号——交通规则、车道拓扑都是符号——而是因为 AD 数据驱动方法已经把符号信息隐式编码进 BEV 表征里,显式符号推理还没被证明能在 NAVSIM 这类大规模 benchmark 上拿到竞争性成绩。
4. NAVSIM PDMS 是同构指标吗
机器人综述的 §6 指出一个被低估的开放问题:closed-loop success rate 是 single-scalar 同构指标,把世界模型的多个独立责任压成一个数字。这个批判可以平移到 NAVSIM 的 PDMS 与 EPDMS 上吗?
NAVSIM v1 的 PDMS 是这样定义的:
NC 是 no-collision、DAC 是 drivable area compliance、TTC 是 time-to-collision、CF 是 comfort、EP 是 ego progress。乘积形式意味着任何一项掉到 0 就整体清零。NAVSIM v2 的 EPDMS 把 NC 拆成 NC 与 DDC(driving direction compliance),把 EP 拆成 EP 与 TLC(traffic light compliance)等更细维度,但底层仍是若干 sub-metric 的乘积或加权。
表面上看 PDMS 比 success rate 更精细——它已经把"避碰、车道、舒适、进度"几个责任分开度量。但从机器人综述提的 disentangled metric 视角看,PDMS 仍然有同构问题,只是粒度更细:
问题一:PDMS 是乘积,不是和。一个在 NC、DAC、TTC、CF 上都 99 分但 EP 只有 50 分的模型,PDMS 大约 48;一个在所有维度上都 80 分的模型,PDMS 也大约 33。PDMS 的差异主要由短板决定,模型的真实长板在指标里被吞掉。
问题二:sub-metric 不正交。DAC 与 NC 高度相关——偏离可行驶区域大概率会引起碰撞。TTC 与 NC 也高度相关。把这些相关性强的 metric 直接相乘,等于在同一个轴上重复罚分。
问题三:世界模型的真正能力没有被任何一个 sub-metric 直接度量。DriveLaW 与 LaST-VLA 在 PDMS 上分数相近(89.1 vs 91.3),但前者预测 LTX-Video 的视频 latent、后者预测 Cosmos + VGGT 对齐特征——这两种预测在"对未来的因果理解"上完全不同。PDMS 没有任何一项专门评估"预测的未来是否反映真实 forward dynamics",所以模型可以视频预测错得离谱,只要最后输出的轨迹凑巧通过 NAVSIM 检测就拿高分。
机器人综述在 §6 提的 disentangled metric——dynamics correctness、action feasibility、physical plausibility 分开度量——可以对应到 AD 的 disentangled metric:predicted scene dynamics fidelity(预测的他车轨迹是否与 NAVSIM 仿真器的真实他车轨迹一致)、counterfactual action validity(对替代候选动作的反事实想象是否物理合理)、long-horizon stability(5s 以上的预测是否仍稳定)。这三项目前都不在 NAVSIM 的指标里。WoTE [5] 与 Ctrl-World 在做的工作部分指向这一方向,但还远未形成评测共识。
对工作的启示:在自家 AD 系统的内部评测里,除了跑 NAVSIM 拿 PDMS,应当显式加上 disentangled 指标——至少包括 scene dynamics fidelity 与 counterfactual validity。这两项不会出现在 leaderboard 上,但会决定模型在真实路况下的鲁棒性边界。
5. 对工作的几条具体指引
把前四节的分析合并成可以落到日常工作里的几条 takeaway。
指引一:统一 VLA 范式在 AD 上是当前主流(DriveWorld-VLA + LaST-VLA 占据 v1 91.3 双榜首)。如果从零起步选范式,统一 VLA + 结构化预测目标(向 Cosmos / VGGT / DA3 这类基础模型的对齐特征靠拢)是当前最稳健的路线。预测原始视频或低维 BEV 是次优——前者信息过载、后者信息不足。
指引二:Latent-space 范式在 AD 上已经在 104M 参数(Latent-WAM)跑到 v2 89.3。这给推理预算紧张的部署场景指出一条明确的路径——用 DINOv2 / DA3 这类视觉基模做 SCWE + 几何蒸馏,把世界模型分支只在训练时用、推理时裁掉。
指引三:交错生成(Uni-World VLA)是值得跟踪的新兴范式。如果团队有定制基座的能力,可以尝试把帧 token 与动作 token 在因果序列里交错的设计。但需要警惕:这一范式当前只有理想一家在做,未经第三方独立复现验证。
指引四:反事实想象(DriveWorld-VLA Stage 3)的工程价值被低估。在 NAVSIM 仿真器仍然可用的训练环境下,把"想象多条动作 rollout、用仿真器给奖励、按奖励加权梯度"作为额外训练阶段,是当前所有五篇里收益/成本比最高的训练 trick——Stage 3 单独贡献了 DriveWorld-VLA 从 89.5 到 91.3 的提升。
指引五:PDMS 是同构指标。在内部评测里增加 disentangled metric(dynamics fidelity、counterfactual validity、long-horizon stability),否则一个在 PDMS 上看似优秀的模型可能在真实路况下出问题——同样的 89 分背后可能是非常不同的世界建模能力。
6. 系列内位置
graph TD
RW["机器人侧综述
预测-行动接口(机器人)"]
AD["本文
自动驾驶侧对偶(AD)"]
VG["VGGT
3D 几何重建"] --> AD
DA["DA3
逐像素深度"] --> AD
VJ["V-JEPA 2.1
潜在空间预测"] --> AD
DJ["Driving JEPA
驾驶世界模型"] --> AD
WA["Wan2.2
视频生成边界"] --> AD
XC["X-Cache
推理加速"] --> AD
RW <--> AD
style RW fill:#d5f5e3,stroke:#1abc9c
style AD fill:#d5f5e3,stroke:#1abc9c
style VG fill:#d4efdf,stroke:#27ae60
style DA fill:#d4efdf,stroke:#27ae60
style VJ fill:#d4efdf,stroke:#27ae60
style WA fill:#fadbd8,stroke:#e74c3c
style DJ fill:#d6eaf8,stroke:#3498db
style XC fill:#fdebd0,stroke:#e67e22这一对偶完成了世界模型 × Action 的两侧 mapping——机器人侧由 NTU/Berkeley/Stanford 联合综述领衔,AD 侧由 2026 H1 的五篇 NAVSIM 工作领衔。两侧共享六范式骨架,但在场景约束(接触 vs 几何、安全裕度、控制频率、数据分布)下做出不同的权衡。共同的开放问题是 disentangled metric——把世界模型的若干独立责任拆开打分,而非折叠进 success rate 或 PDMS 这类同构出口。
参考文献
[1] 从预测未来到驱动行动:机器人世界模型的架构与评测. 本系列文章
[2] Wan2.2 and the Boundary of Video World Models. 本系列文章
[3] Depth Anything 3: Geometric Grounding for World Models. 本系列文章
[4] VGGT: 几何重建作为世界模型的 reconstruct 维度. 本系列文章
[5] Li, B., et al. WoTE: World-on-the-Edge for End-to-End Driving Trajectory Evaluation. ICCV 2025.
[6] DriveLaW: Unifying Planning and Video Generation in a Latent Driving World. 华科 + 小米, 2025.12.
[7] DriveWorld-VLA: Unified Latent-Space World Modeling with Vision–Language–Action for Autonomous Driving. 北交大 + 小米, 2026.2.
[8] LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving. 清华 + 小米EV + 澳大, 2026.3.
[9] Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving. 中科院 + 长安, 2026.3.
[10] Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving. 理想, 2026.3.
[11] Yuan, T., Dong, Z., Liu, Y., Zhao, H. Fast-WAM: Do World Action Models Need Test-time Future Imagination? 2026.3.
[12] Causal World Modeling for Robot Control (LingBot-VA). 蚂蚁灵波, 2026.1.
[13] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model. 中科大, 2026.2.
[14] World Guidance (WoG): World Modeling in Condition Space for Action Generation. 字节 Seed + HKU, 2026.2.
[15] GigaWorld-Policy: An Efficient Action-Centered World–Action Model. 2026.3.
[16] NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking. Dauner et al., NeurIPS 2024.