World-Model

X-Foresight：长时 chunk-wise AR 把世界模型嵌进 VLA 主干

X-Foresight（PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08）是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象，X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练，让同一张网络同时输出 chunk-wise 未来视频和 ego action，跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...

Dense Latent Predictive Supervision in AD VLA：为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone？打开任一篇 NAVSIM 93 PDMS 一档的 paper：监督信号是未来 12-16 个 (x,y)(x, y) waypoints，一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert（典型 500M），总可学习参数 2.5B 量级。 ...

X-World：小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言：从 Vista / DriveDreamer 到 X-World 的鸿沟驾驶世界模型这两年的论文非常密集，但把它们摆到一起，会发现一条很尴尬的分水岭：左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率；DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成；MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入；MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西：7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

自动驾驶世界模型 × Action：六范式在 NAVSIM 上的落地与跨域对偶

引言上一篇从预测未来到驱动行动：机器人世界模型的架构与评测以 NTU/UC Berkeley/Stanford 联合综述为底本，把世界模型与策略的耦合方式归纳为六个范式：解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇：把同一套理论骨架带到自动驾驶，看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。 ...

4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视

引言：4D 输入与 VLA 序列瓶颈的矛盾自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token，乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理（约 100 ms 预算）和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

从预测未来到驱动行动：机器人世界模型的架构与评测

引言在本系列前作中，V-JEPA 2.1 在潜在空间中做语义预测 [1]，Wan2.2 在像素空间中渲染视觉上合理的未来 [2]，VGGT 从 2D 观测中逆推 3D 几何 [3]，DA3 把空间结构蒸馏为逐像素深度 [4]，Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5]，2D 到 4D 综述梳理了视觉基模的几何觉醒 [6]，DINOv3 展示了自监督规模化对 dense feature 的突破 [7]，X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开，回答的都是表征侧的问题：世界模型应该长什么样。 ...

X-Cache：小鹏自动驾驶世界模型的推理加速 Infra

引言：世界模型的 Infra 瓶颈自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA（Vision-Language-Action）系统。在这个新范式中，世界模型（World Model）正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机：传统几何重建在什么地方失效一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声，IMU 漂移开始累积，前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题：相机相对于隧道结构的位姿是什么？前方 30 米处那个反射点距离车头多远？ ...

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览：14B MoE DiT + Flow Matching + 3D VAE，详见 Wan2.2 GitHub 1. 承诺：视频生成即世界模拟当 OpenAI 在 2024 年初发布 Sora 时，其叙事框架经过了精心设计：这不仅仅是一个视频生成器，而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段，物体以合理的方式碰撞和变形，镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型，在某种层面上，必然理解世界是如何运作的。 ...

从 2D 到 4D：视觉表征的本体论问题

文章定位本文讨论 4D 视觉表征的本体论问题：什么是 4D？为什么 4D 是 world model 的关键？spatial-temporal joint vs decoupled 在表征空间几何上意味着什么？这些问题既不能从单个 paper 推出，也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...