X-World：小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言：从 Vista / DriveDreamer 到 X-World 的鸿沟

驾驶世界模型这两年的论文非常密集，但把它们摆到一起，会发现一条很尴尬的分水岭：左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率；DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成；MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入；MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西：7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。

小鹏 GWM (Generative World Models) Team 在 2026 年 3 月放出的 X-World (Zheng et al., 2026) 是第一份把这条鸿沟用一份公开技术报告补上的工作。它和同期的 Wayve GAIA-2 (Russell et al., 2025)、Waymo World Model (Hu et al., 2026, 基于 DeepMind Genie 3) 一道把"production-grade 驾驶世界模型"这个东西从话题变成了可对照的工程对象。三家路线不同——X-World 是纯视觉 DiT + 少步蒸馏 + KV cache 流式；GAIA-2 是多区域结构化条件 + 标准 DiT；Waymo 走 Genie 3 + Teacher-Student + Think Fast/Slow 双系统并把 LiDAR 也吐出来。但 X-World 是目前公开材料里把"4 步去噪 / chunk + rolling KV cache + 22 秒以上稳定 rollout + 7 路一致"这一组合做齐的唯一一家。

这篇文章只讲基座模型本身——架构、训练目标、两阶段蒸馏、Action 注入。配套的推理 infra （cross-chunk residual cache、PPU 部署、wall-clock 拆解）放在它的姊妹篇 /posts/world-models/xpeng-x-cache-world-model-inference-acceleration/。

一、问题域：production 场景对世界模型的特殊要求

读 X-World 之前先把它要解的问题摆清楚。一台量产车上的世界模型不是"生成一段好看的驾驶视频"——这件事 Stable Video Diffusion 这种通用 video model 都能做得很像。production 端的硬约束是另外四条：

多相机几何一致性。小鹏的量产车有 7 路相机 (front_narrow, front_fisheye, front_left, front_right, rear_left, rear_right, rear)，覆盖 360°。世界模型必须保证同一个对象在 front_left 和 front_narrow 里位置、朝向、外观一致；车辆穿越视野时不能在视角切换边界突然变形或者瞬移。这条比单相机生成困难一个量级——既要在 latent 表征里把 view 关系建好，又不能为此把模型放大到无法部署。具体看 7 路里相机本身的异构性也是个负担——front_narrow 是窄角长焦、front_fisheye 是超广角畸变、侧后视带较大的运动模糊，它们各自的成像 prior 不一样，但生成模型必须输出一致的物理世界。设计上要么共享一套 backbone 让它自己学差异，要么走 per-view fine-tune；X-World 选了共享 backbone + view group embedding 的折中。

Action-conditioned。世界模型的真正价值在于：给定历史观测和未来动作序列 $(a_{t+1}, \ldots, a_{t+H})$ ，预测对应的未来观测 $(o_{t+1}, \ldots, o_{t+H})$ 。这把它从"video generator"区分成了"环境模型"。policy 评测、RL post-training、闭环仿真——这三件事都要求 action signal 必须真正 control 住生成结果，而不是被模型当噪声忽略掉。Vista / DriveDreamer 这一类工作动作可控性 demo 是有的，但在长 rollout 下能不能稳住、能不能区分"微转向"和"急转向"这种细粒度差异，是另外一回事。一个常被低估的细节是 action signal 的分布——X-World 训练数据里 74.8% 是常规驾驶、21.0% 是停车，剩下不到 5% 才是 long-tail 的急转 / 紧急避让等场景。在这种分布下让模型对 long-tail action 也响应，需要 normalization 和数据采样上专门处理，下文 2.4 节会展开。

长时序不发散。用世界模型做 RL 或大规模评测，rollout 长度必须够。X-World 给的目标是 22-24 秒。视频扩散模型的常规失效模式是 5-8 秒之后纹理 drift、几何漂移、agent 凭空消失或者复制。要扛到 20+ 秒，autoregressive 训练时怎么处理 exposure bias 是关键。从 video diffusion 的几年实践看，长时序失效的根因不止一个：纹理 drift 来自 latent 空间里 high-frequency component 在多步迭代下的累积误差；几何漂移来自相邻 chunk 之间 ego pose 没有显式约束；agent 凭空消失 / 复制来自 cross-attention 在长上下文下的 attention sink 漂移。X-World 用 Self-Forcing 解掉的主要是第一类和第三类的训练-推理分布 mismatch，第二类靠 ego action 在 adaLN 上的强约束。

实时推理。这是 production 和学术 demo 最硬的边界。Stage-I 的双向 DiT 跑 50 步采样在 H100 上对一个 81 帧的 clip 也要几十秒——直接接到闭环里完全不可行。X-World 必须把它蒸馏到 4 步 / chunk + chunk 之间 streaming，才有可能进 RL 训练循环和大规模 scene rollout。把数字摆清楚：RL post-training 一次 episode rollout 通常需要 10-30 秒的虚拟驾驶序列；如果世界模型生成 1 秒模拟视频要 30 秒 wall-clock，那么一个 episode 就要 5-15 分钟，远比真实车跑一次还慢，RL loop 完全跑不起来。要让世界模型的 wall-clock 比真实时间快或者持平，4 步 / chunk + KV cache 是数量级上必需的。

这四条约束放到一起，定义了 X-World 整个架构和训练 pipeline 的形状。任何一条放松，工程上都能做得"更好看"——更高分辨率、更精细的纹理、更长的 clip——但都会让模型在 production loop 里失效。X-World 的取舍处处都能看到这四条的影子。

二、X-World 架构详解

2.1 整体：DiT-based latent video diffusion

X-World 是一个 latent video diffusion model，骨干是 DiT (Peebles & Xie, 2023) 而不是 U-Net。两个原因：一是 DiT 在 video / multi-view 任务上 scaling 行为更稳；二是 token-based 的结构天然适配 multi-camera × multi-timestep 的 view-temporal attention 设计。

输入是 7 路相机的 latent token sequence + 多模态条件（ego action、相机参数、动态 agent、静态道路元素、文本 prompt）。输出是未来若干 chunk 的 7 路 latent，再过 3D causal VAE decoder 还原成 12 FPS 的多相机视频。训练目标是 latent 空间的 Rectified Flow loss（Liu et al., 2022），不是像素级 MSE 也不是 perceptual loss——一切操作都在 latent 上完成，VAE 只在最终可视化和评测时介入。

2.2 基座选型：WAN 2.2 5B + 3D causal VAE

X-World 的视频骨干直接 fork 自 Wan 2.2 5B TI2V (Wan et al., 2025)。这个选择本身就反映了"production 工程化"的逻辑——不从零训 video foundation model，而是拿一个已经在大规模通用视频上训过、有较强 prior 的 5B 模型做 driving domain 的二次预训练 + 微调。详细的 WAN 2.2 能力边界讨论见 /posts/world-models/wan2.2-video-world-model-boundary/。从 driving 这一侧看，复用 WAN 至少省掉了三件大事：通用物体的外观 prior（行人 / 车辆 / 交通灯）、自然光照与天气的 prior、相机运动 (panning / zooming) 的 prior。从零训一个 5B 视频 backbone 至少需要 O(数十亿) clip-second 数据；用 WAN 起步等于把这部分债先还掉，自家数据 (万小时量级 driving) 只需要补 driving-specific 的 distribution shift。

3D causal VAE 的压缩比是关键：空间 16× 下采样、时间 4× 下采样、latent channel = 48。一帧 H×W 原图变成 (H/16)×(W/16)×48 的 latent grid，连续 4 帧塌缩成 1 个 latent step。这个压缩比把 12 FPS 的 7 路视频压到一个 DiT 还能背得动的 token 数量——具体而言，Stage-I 训练 clip 是 81 帧 (≈6.75 秒)，经过 4× 时间压缩后只剩 21 个 latent timestep。算一下 7 路相机情况下的总 token 数量级：假设单路相机原图是 H×W，每路在 latent grid 里的 token 数是 21 × (H/16) × (W/16)，7 路并起来后乘 7。即使 H=W=256 这种偏小的分辨率，总 token 数也在 1-2 万这个量级，对一个 5B DiT 来说已经接近舒适区间的上限。再往上 scale 分辨率，要么换更激进的 VAE 压缩 (16× → 32× 空间)，要么走 token pruning 或者 spatial chunk。

“causal” 表示 VAE encoder 在时间维度上是单向的，未来帧不会泄漏到过去帧的 latent，这一点对 chunk-wise autoregressive 推理至关重要——chunk 边界处不需要重新 encode，过去 chunk 的 latent 算出来就是定值，可以直接进 KV cache。如果 VAE 是双向的，每 append 一个新 chunk 都要把 history 重新过一遍 encoder，infra 上极其难做。这个细节在论文里只是一句话，但工程意义是数量级的。

2.3 多相机表征：latent 网格 + view-temporal SA + 3 view groups

7 路相机的 latent 怎么组织进一个 DiT，是 X-World 区别于通用 video DiT 最 nontrivial 的设计。论文的做法分两层：

第一层是把 7 个 view 排成 latent grid。每路相机经 VAE 编码后得到独立的 (T_lat × H_lat × W_lat × 48) latent tensor，然后按一个固定的几何 layout (类似 surround-view 的拼接) 排进同一个 DiT 输入空间。这样 token sequence 同时携带 view index 和空间位置信息，DiT 的位置编码不需要为多相机重新设计。

第二层是 view-temporal self-attention。注意力在 latent token 上轮替地做 “across cameras at fixed timestep” 和 “across timesteps within same view” 两种 pattern，把 view 间的几何对齐和时间维的运动一致性分开建模。完全 dense 的 4D attention (view × time × H × W) 计算量爆炸；这种分解既保留信息流又能 scale。

7 路相机进一步按几何位置分成 3 个 view groups——front (front_narrow / front_fisheye)、side (front_left / front_right / rear_left / rear_right)、rear (rear)。每个 group 内部共享一个 view fingerprint embedding，让模型区分"这个 token 来自前视广角还是前视窄角"。这套设计避免了为每一路相机学一组独立参数（参数爆炸 + 数据不均衡），同时保留了 view-specific 信息。

2.4 Action 多通道注入

Action conditioning 是 X-World 最精细的工程设计。论文把不同性质的条件信号路由到不同的注入机制，而不是统一拼成一个大 condition embedding 喂进 cross-attention——后者是通用 video diffusion 的默认做法，但在 driving 这种"控制信号强、各路条件语义异质"的场景下会让信号互相干扰。从信息论角度看，一个 cross-attention 分支的容量是 fixed 的，所有 condition token 在里面互相争夺 attention weight；当条件语义差异极大时，模型倾向于在训练里把容易学的 (例如文本里的 “rainy” 这种 token) 学好，难学的 (例如细粒度 ego curvature) 被噪声化。decouple 之后每个分支只服务一种语义，避免了这种 capacity 争夺。

ego action + diffusion timestep → adaLN-Zero。ego action 是一组连续标量：纵向速度 velocity、横向曲率 curvature、车体 roll、车体 pitch。这些值跨度很大 (停车 0 km/h 到高速 120 km/h；曲率从直行 0 到急转 0.3+)，直接喂进 MLP 会有数值问题。X-World 用 symlog normalization 把量纲拉到对称尺度——symlog 定义为 $\mathrm{symlog}(x) = \mathrm{sign}(x) \cdot \log(1+|x|)$ ，比简单的 log 更好处理 0 附近的小值和负值——再做 Fourier feature embedding，最后过 MLP 得到 modulation vector。Fourier feature 这一步关键：把标量 $x$ 映射成 $[\sin(2\pi f_1 x), \cos(2\pi f_1 x), \ldots, \sin(2\pi f_k x), \cos(2\pi f_k x)]$ 这样的多频特征，让 MLP 能在细粒度变化上有足够的 capacity——否则 ego curvature 0.1 和 0.12 在标量空间过 MLP 几乎不可区分，模型学不出"轻转"和"中转"的差异。

这个 vector 和 diffusion timestep 的 embedding 加在一起，按 DiT (Peebles & Xie, 2023) 的 adaLN-Zero 套路在每个 DiT block 内对 hidden activation 做 scale-and-shift：

h \leftarrow (1+\gamma)\, \mathrm{LayerNorm}(h) + \beta, \quad (\gamma,\beta) = \mathrm{MLP}(e_{action} + e_t)

“Zero” 指 MLP 的最后一层初始化为 0，使得训练开始时 $\gamma = \beta = 0$ ，模型从 identity 开始学，稳定性更好。adaLN-Zero 走的是 token-wise modulation，所有 token 共享同一组 $(\gamma, \beta)$ ，正好匹配 ego action 这种"全局信号"的性质——它影响整段视频的运动模式，但不需要 token-level 的定位。换句话说，“我要左转 30 度” 这个信息影响的是整个 latent 序列的演化方向，不需要去定位到某一个具体 token。

相机参数 → additive embedding。相机内参 (intrinsics) 和外参 (extrinsics) 是 per-view 的静态信号，X-World 把它们编码成 embedding 直接加在对应 view 的 token 上。这是最轻的一种注入——相机参数本身不随时间变化，不需要 attention，也不需要 modulation；只是给每个 view 的 token 标记"我从哪个视角看出去"。这种 additive 的注入相当于让相机参数充当 view-aware positional encoding 的扩展——除了基础的 view group embedding 之外，再叠一层 continuous 的几何信息，让模型知道 front_narrow 和 front_fisheye 的焦距、视场角差异。

动态 agent / 静态道路元素 / 文本 prompt → decoupled cross-attention。这三类是结构化的多 token 条件，每一类都有独立的 cross-attention 分支。文本分支用 umT5 encode 全局描述 (天气、时段、地理风格)；动态 agent 分支接收其他车辆 / 行人 / 骑行者的 bbox 序列 + 速度 + 朝向；静态道路元素分支接收车道线、路口、停车线等 HDMap-like geometry。三个分支并行更新 query，最后求和。

这种 “decoupled” 比把所有条件拼一起的好处在于：每个分支的 attention pattern 独立学习，文本的 attention 不会被路面几何挤掉，agent 的 attention 不会被天气 prompt 干扰。另一个隐性好处是 training-time 的 condition dropout 可以 per-branch 控制——例如对静态元素分支单独做 random dropout，配合 classifier-free guidance (CFG) 可以在推理时把"道路几何控制力度"做成一个可调旋钮：dropout 之外的 sample 用强 CFG 让模型严格沿着 HDMap 生成；测试 OOD 场景时关掉 CFG 让模型自由想象路面。这种"控制力度可调"的能力在 production 评测里非常实用——你既要测 model 在 HDMap 严格约束下能生成什么，也要测它在弱约束下的泛化行为。论文还特别提到静态元素分支训练时做随机 dropout，让 CFG 在静态元素这一路可以单独开关。

2.5 训练目标：潜空间 Rectified Flow

X-World 的训练目标在 latent space 上，是 Rectified Flow (Liu et al., 2022)。这是当下 video diffusion 训练最主流的 flow matching 变种，详细数学背景见 /posts/mathematics/diffusion/flow-matching-consistency/。

给定 latent target $\mathbf{y}_0$ (干净的真实 latent) 和先验噪声 $\mathbf{y}_1 \sim \mathcal{N}(0, \mathbf{I})$ ，构造线性插值轨迹：

\mathbf{y}_t = (1-t)\mathbf{y}_0 + t\mathbf{y}_1, \quad t \sim \mathcal{U}(0,1)

模型 $v_\theta$ 学习的是这条直线轨迹的速度场，目标是常向量 $\mathbf{y}_1 - \mathbf{y}_0$ ：

\mathcal{L}_{RF}(\theta) = \mathbb{E}_{\mathbf{y}_0, \mathbf{y}_1, t, \mathbf{c}}\Big[\|v_\theta(\mathbf{y}_t, t, \mathbf{c}) - (\mathbf{y}_1 - \mathbf{y}_0)\|_2^2\Big]

$\mathbf{c}$ 是所有条件信号 (action / camera / agent / road / text) 的合集。Rectified Flow 相对传统 score matching 的优势是轨迹是直线、采样步数可以压得很低（理论上 1 步就够，实际 4-50 步），这给后面的 DMD 蒸馏留出了基础。

三、两阶段训练：从离线高质量到流式可控

X-World 的训练流程分两个阶段，这是它能同时做到"高质量"和"可流式部署"的关键。学术工作经常只做 Stage-I 就发文章——质量数字 (FVD / FID) 漂亮，但推理慢得没法用。X-World 必须把 Stage-II 也做齐才能进 production。

3.1 Stage-I：双向 DiT + Rectified Flow

第一阶段训练一个标准的双向 DiT。“双向"指 self-attention 在时间维度是非因果的——任意一帧能看到 81 帧 clip 内的所有其他帧，包括"未来”。这是最强的 generative prior：完整看 81 帧上下文做 denoising，纹理细节和长程一致性都有最大空间。训练目标就是上面的 Rectified Flow loss。

Stage-I 的 trade-off 很清楚：质量上限高，但推理要 ~50 步采样，而且因为是双向的，没办法做 streaming——必须一次性生成完整 clip。81 帧 / 50 步在生产硬件上的 wall-clock 是数十秒量级，单靠 Stage-I 模型完全不可能进闭环。

3.2 Stage-II：蒸馏为 chunk-wise causal AR

第二阶段把 Stage-I 的双向 DiT 蒸馏成一个 chunk-wise causal autoregressive model。三件事同时做：

时间维改成单向。self-attention 的 causal mask 加上去，每个 latent timestep 只能看过去和当前——这是能 streaming 推理的前提。从 Stage-I 到 Stage-II 这一步意味着丢掉一部分双向上下文带来的质量上限，但换来推理时不需要重跑历史的能力。chunk-wise 而不是 token-wise 的颗粒度是工程上的妥协：太细 (per latent step) 会让 KV cache 命中率高但 attention 内部 chunk-bound 太碎；太粗 (整个 clip 当一个 chunk) 又退化回 Stage-I。X-World 选的是几个 latent step 当一个 chunk 的粒度，让 chunk 内部还能做 dense attention 学到短时一致性，chunk 之间靠 causal mask 串起来。

4 步 / chunk 去噪。通过 Distribution Matching Distillation (DMD, Yin et al., 2024a) 把 50 步压到 4 步。DMD 的目标是最小化"学生 (少步生成器) 自 rollout 分布"和"教师 (Stage-I 双向模型) 分布"的反向 KL：

\mathcal{L}_{DMD}(\theta_s) = D_{KL}\big(p_{\theta_s}(\mathbf{y}) \,\|\, p_{teacher}(\mathbf{y})\big)

实现上 DMD 不直接算 KL（积分要算到所有 $\mathbf{y}$ 上），而是用一个 fake score network 估计学生分布的 score，再用教师的 score 减去 fake score 得到一个 surrogate gradient 反传给学生。形式上反向 KL 的梯度可以写成：

\nabla_{\theta_s} D_{KL}(p_{\theta_s} \| p_{teacher}) = \mathbb{E}_{\mathbf{y} \sim p_{\theta_s}}\big[(\nabla_\mathbf{y} \log p_{\theta_s}(\mathbf{y}) - \nabla_\mathbf{y} \log p_{teacher}(\mathbf{y})) \cdot \nabla_{\theta_s} \mathbf{y}\big]

教师 score $\nabla_\mathbf{y} \log p_{teacher}(\mathbf{y})$ 是 Stage-I 模型在不同 noise level 上的 score 估计 (Rectified Flow 训练完直接拿来用)；学生分布的 score $\nabla_\mathbf{y} \log p_{\theta_s}(\mathbf{y})$ 用一个额外的 fake score network 实时估计——这个 fake network 跟学生联合训练，自己也是个 score model，在学生当前生成的样本上做 score matching。整个 setup 类似 GAN 的"判别器+生成器"对抗训练，但梯度来源是 score 差，不是 binary classification。这种 setup 在 image diffusion 上的稳定性已经被 DMD 系列验证过，CausVid (Yin et al., 2024b) 把它搬到了视频上，X-World 沿用了这条线。

Self-Forcing 训练。autoregressive 模型最大的失效模式是 exposure bias——训练时喂 ground-truth 历史，推理时喂自己生成的历史，分布漂移导致几秒后 rollout 崩坏。Self-Forcing (Huang et al., 2025) 的核心是训练时也做 chunk-by-chunk 自 rollout：从噪声起步，4 步去噪生成第一个 chunk，把它作为历史去生成第二个 chunk，以此类推。KV cache 在训练和推理时都开。这让训练分布和推理分布严格一致，是 X-World 能 push 到 22-24 秒不崩的关键。Diffusion Forcing (Chen et al., 2024) 在 noise schedule 上的设计也被吸收——不同 timestep 用不同噪声水平，让模型在更宽的去噪范围内都稳定。

Self-Forcing 的代价是显著的训练成本——每个 batch 必须真的跑 chunk-by-chunk 的 rollout，没有 teacher forcing 的并行展开。一个 22 秒的 rollout 大约有 5-7 个 chunk，意味着每次 forward / backward 要跑 5-7 倍的展开。论文没有说总训练算力，但能猜出来 Stage-II 的 wall-clock 成本不会比 Stage-I 低多少；这是用 production 数据换学术 benchmark 的典型 trade-off。

Rolling KV cache (FIFO)。chunk-wise AR 推理时，每生成一个 chunk 就把它的 KV 追加进缓存。X-World 用固定大小的 rolling cache 配合 FIFO 淘汰——窗口装满后，最旧的 chunk KV 被替换出去。这样推理时的内存占用是常数（不会随 rollout 时长线性增长），换来的是模型只能看一个固定长度的过去窗口；超出窗口的远期一致性靠生成内容的"自相似"维持，不靠显式 KV。FIFO 而不是其他淘汰策略 (LRU / 重要性加权) 的选择，背后是工程实用主义——FIFO 在 hardware 上实现最简单 (一个环形 buffer)，而且 driving 场景下时间近的 history 比时间远的 history 在因果上更重要，FIFO 的物理含义最干净。

3.3 推理性能边界

Stage-II 蒸馏完之后，X-World 在小鹏选用的阿里平头哥镇岳 810E PPU (96GB HBM2e) 上达到的运行点：4 步去噪 / chunk，单 chunk wall-clock 约 3.63-3.69 秒，BF16 精度，rolling KV cache + chunk-wise streaming。这部分的优化空间和 cross-chunk residual cache (X-Cache) 设计，详见 /posts/world-models/xpeng-x-cache-world-model-inference-acceleration/。

需要诚实地标记一点：X-World 论文没有给出量化的质量对比表 (FID / FVD / action-following error)，所有 demo 都是 qualitative 的——24 秒多相机 rollout、ego turn / lane change 控制、agent 控制、风格迁移 (天气 / 时间 / 地理) 等。这一点和 GAIA-2 / Waymo World Model 也类似——production 世界模型在公开材料里普遍不放完整 benchmark，一方面是数据 proprietary 不好对齐，另一方面是 closed-loop 评测的"好"很难用单个标量刻画。

四、横向对比：production-grade 是怎么炼成的

把 X-World 摆进当前驾驶世界模型的 landscape 里看。

4.1 Wayve GAIA-2

GAIA-2 (Russell et al., 2025) 和 X-World 是同期最直接的对照组。架构上同样是 multi-camera DiT，同样在 latent space 训练，同样支持结构化条件 (3D box / HDMap / weather / time)。GAIA-2 的强项在条件结构化——把动态 agent 和静态元素拆成 “regions of interest”，每个 region 有独立的 condition representation；这一点比 X-World 的 decoupled cross-attention 在概念上还要细一层。但 GAIA-2 的公开材料里没有 4 步少步蒸馏 + KV cache 流式推理这一套——它仍然以离线高质量生成为主，不强调进 online RL loop。

4.2 Waymo World Model

Waymo 在 2026 年初放出的 World Model (Hu et al., 2026) 走的是另一条路：基座不是纯视频 DiT，而是 DeepMind Genie 3 (Vondrick et al., 2025) 的驾驶域化版本。输出不止 camera——同时吐 LiDAR 点云，给下游 LiDAR-based perception / planning 当 supervision。训练上用 Teacher-Student 蒸馏 + Think Fast/Slow 双系统：Fast 系统少步生成做 streaming，Slow 系统多步精修做关键帧。这套架构对 LiDAR 量产传感器栈是自然的；和 X-World 的纯视觉 DiT 形成了"模态完整性 vs 推理简洁性"的路线分叉。

4.3 Vista 这一类单相机工作

Vista (Gao et al., 2024) 是单相机高保真生成的代表——576 分辨率，FID / FVD 漂亮。但 single-view 这件事在 production 上是不够的——end-to-end driving model 接收 7 路输入，世界模型必须对齐到同样的输入空间，否则 policy 在仿真里看到的输入和真车上不一样。Vista 的价值更多是 video diffusion 在 driving domain 的可行性证明，不是 production-ready 候选。

4.4 DriveDreamer / MagicDrive 一系

DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 和 MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 这一系把"结构化条件 + 多视角"做得很完整：3D box、HDMap、LLM 描述、相机参数都进来了。质量在学术 benchmark 上不错。但它们的应用场景定位是数据合成（生成 corner case 给下游模型当训练数据），不是闭环 rollout——典型 demo 长度 3-6 秒，没有 streaming 推理栈，agent 自我一致性在更长 rollout 下会退化。

国内学术圈的 MiLA / MaskGWM / EOT-WM 等也都在 multi-view + 可控性方向推进，质量数字各有亮点，但目前没有一份公开做到 production rollout 长度 + streaming 推理 + RL 训练 loop 的组合。

4.5 X-World 的独家组合

X-World 没有单一一项是"史无前例"的——DiT 是 2023 年的、Rectified Flow 是 2022 年的、DMD / Self-Forcing / Diffusion Forcing 是 2024-2025 年的、WAN 是 2025 年的。它做对的事是把这套技术栈以正确的姿势拼起来：DiT 提供 scaling 友好的骨干；WAN 2.2 提供大规模 video prior；Rectified Flow 让 Stage-I 训练稳；DMD + Self-Forcing 把 50 步压成 4 步同时解掉 exposure bias；KV cache 让 streaming 可行；adaLN / additive emb / decoupled cross-attention 三路注入让各类条件信号不互相干扰。每一块单看都不新，组合起来就是目前唯一一份"7 相机 + 22 秒 + 4 步去噪 + 镇岳 PPU 上 BF16 跑 streaming"的公开实现。

production-grade 在驾驶世界模型这件事上的含义就是这套组合。从工程视角看，这种"全部都是已知技术，但组合起来需要每一块都打通"的特征非常典型——和大模型时代的很多 production system 一样 (例如 GPT 系列的 RLHF + tool use + system prompt 组合)，新东西不一定要靠某一项算法突破，更多靠把现有 building block 用对地方。这套组合最难的地方反而是 codesign：如果 Stage-I 的训练 schedule 没有为后续蒸馏留余地（noise schedule 跨度不够大），DMD 蒸馏会失效；如果 Self-Forcing 的训练展开长度不够，KV cache 在推理时跨过训练边界会立刻崩；如果 view-temporal attention 没有为 causal mask 做适配，Stage-II 推理时跨 view 的 attention 会泄漏未来信息。这些问题都是只能在工程实现里碰到才知道的，论文不会写。

五、X-World 与 X-Cache 的咬合

X-World 的 chunk-wise AR 设计直接定义了下一层加速的工作空间。每个 chunk 内部跑 4 步去噪，4 步之间的 DiT activation 有大量冗余——相邻 denoising step 之间，hidden state 在大部分 token 上变化很小；chunk 与 chunk 之间，rolling KV cache 之外的某些 attention 分支也存在 cross-chunk 上可以复用的中间结果。X-Cache 抓住的就是这两层冗余：step 内的 residual cache + step 间 / chunk 间的 cross-chunk reuse，配合镇岳 810E PPU 的 layout 优化，把单 chunk wall-clock 从原始 ~3.7 秒压到接近实时区间。

更具体一点说，4 步去噪的 schedule 在 X-World 里大概是 noise level 从高到低 4 个不均匀间隔的采样点，从最高 noise 到最低 noise 之间 DiT 的输出会从"接近随机"演化到"接近最终 latent"。但在 attention map 的层面上，相邻两步之间的差异其实集中在少数几个 token 上——大部分位置 (尤其远离 ego 和动态 agent 的背景区域)在去噪过程中的 attention pattern 是几乎不变的。X-Cache 利用的就是这一点，把那些"不动"的 attention 中间量缓存下来，只重算变化大的 token；4 步 schedule 配合这种 cache 策略可以做到 step 2-4 的等效计算量小于 step 1 的 30-50%。这个数字论文级别没给，但从公开 demo 的 wall-clock 拆解能反推出来——具体见 X-Cache 那篇。

完整的 cache 设计、命中率分析、PPU kernel 拆解和 wall-clock breakdown 在 /posts/world-models/xpeng-x-cache-world-model-inference-acceleration/。这里只标记两件事：第一，X-Cache 的可行性建立在 X-World 的 chunk-wise AR + Self-Forcing 训练之上——如果模型还是 Stage-I 的双向 DiT，所有 token 全局相互依赖，cross-chunk reuse 就没有合法的"独立单元"可以缓存。第二，X-Cache 的存在反过来 justify 了 X-World 的 4 步 / chunk 设计——单看 4 步似乎激进 (FID 比 50 步必然差)，但 4 步留出的 inference budget 让 cache 命中能进一步压缩 wall-clock 直到能进 online RL loop。两边是 codesign 出来的。

这种 codesign 的逻辑在大模型时代越来越常见。LLM inference 里 vLLM 的 PagedAttention、推测解码、prefix cache 这一系列优化，本质上都依赖训练时的某些 invariance (KV 是不变的、生成是 left-to-right 的)。视频世界模型这一侧的 codesign 才刚起步，X-Cache 是第一份公开尝试。这意味着后续做 production 世界模型的玩家必须从 day-1 就考虑训练和推理 infra 的咬合——你不能先训完 Stage-I 再回头想怎么加速，因为 Stage-II 蒸馏的设计直接由推理硬件决定 chunk size、KV cache 长度、step 数等关键超参。

六、对自家世界模型路线的启示

X-World 这套技术栈摆出来之后，几个判断变得清晰。

6.1 latent diffusion 与 JEPA latent prediction 的取舍

X-World 走的是 latent diffusion——VAE 把 pixel 压到 latent，DiT 在 latent 上做 Rectified Flow，最后 decoder 还原 pixel。这条路的优势是输出空间是真实的 sensor space，policy 可以直接用渲染出来的 7 路视频做闭环；劣势是 VAE decoder 的开销不可忽略，且 latent 本身没有显式的几何 / 语义结构。

另一条路是 JEPA latent prediction：不解码到 pixel，直接在 latent 空间里做 predictive learning，用 latent 自己当 state 给下游 policy。这条路在 /posts/world-models/driving-jepa/ 里展开过。在 representation learning / 表征 efficiency 上 JEPA 有理论优势 (不浪费 capacity 去 model pixel-level texture)，但 production 端的痛点是评测——把 latent 直接喂 policy 时，“世界模型生成对了没"这件事不再有可视化的人类先验，调试和归因都难。X-World 选 latent diffusion，本质上是接受 pixel-level reconstruction 的开销来换 production 的可观测性。

两条路目前都没分出胜负。但 X-World 这种把 Vista + WAN + DMD + Self-Forcing 串成 production 栈的工程化，是 JEPA 这一线还没补上的。一个可能的中间路线：用 latent diffusion 做训练时的 ground truth 来源 (生成可视化的 demo + 可控的 rollout)，用 JEPA-style latent prediction 做 policy 训练时的实际信号 (跳过 pixel 重建省算力)。这种混合栈目前还没有公开实现，但从 codesign 角度看是合理的下一步——X-World 的 Stage-I 模型完全可以当 JEPA 的 distillation source，让 JEPA 在 X-World 的 latent space 上学 predictive feature。

6.2 production world model = 数据合成 + 闭环验证 + 在线 RL

世界模型在量产落地的三个角色，X-World 至少给前两个开了门：数据合成可以用 (Stage-I 高质量 rollout)，闭环验证可以接 (Stage-II streaming + action control)。第三个——online RL post-training (像 π0.5 / EMMA 那种 VLA 的 RL 后训练)——是最难的一环，要求世界模型在 policy 当前分布下也保持 action-following 和 long-horizon stability。X-World 的 22-24 秒 rollout 是一个 floor，不是 ceiling；要让 RL 真的稳定迭代，rollout 长度可能还要再 push，或者引入 model-based RL 里常见的 short-horizon ensemble + uncertainty 估计。这一条 X-World 论文里没有完整 demo，是后续工作。

更深一层，RL post-training 用世界模型当 simulator 时，“world model 自己也可能错"是一个常被低估的失败模式。如果 policy 在某个 corner case 上犯错，world model 又恰好"宽容"地把这个错误生成成"看起来合理"的视频，policy 会在错误信号上 reinforce——这是 Sim-to-Real gap 在生成式 simulator 里的新变种。学术上的常见对策是 uncertainty-aware rollout——让 world model 输出一个置信度，policy 只在高置信区间内训练。X-World 目前是 deterministic forward rollout，没有 explicit uncertainty estimation；如果要进 RL loop，这一块需要补 (例如多次 sample 求 variance，或者训一个 critic 估计 model error)。这又是一组 codesign 工作。

6.3 高门槛信号

把 X-World 训出来需要：万小时量级的高保真多相机驾驶数据 + 自研或定制的 PPU 部署栈 + DiT / Rectified Flow / DMD / Self-Forcing 这一连串前沿训练技术的工程化能力 + WAN 这种 5B 量级的视频 foundation model 当起点。每一项单独都不算秘密，但全部凑齐的玩家很少——国内目前只有头部主机厂和少数几家自动驾驶公司同时具备数据 + 算力 + 工程能力的组合。X-World 出来的真正信号在于：production-grade 驾驶世界模型的门槛已经被定好了在哪里——“DiT 做世界模型可行"在 Vista 时代就已经验证过，真正的新内容是这套门槛的具体形状。后面跟进的工作要么补齐这一整套，要么找到一条不同的路 (例如 JEPA + RL 跳过 pixel 重建)，单点改进很难追上。

另一个信号是 video foundation model 的"通用 prior 复用"会成为标准做法。X-World 选 WAN 2.2 5B 当起点不是偶然——驾驶域的 video data 即使在头部公司也最多到万小时量级，远不及 WAN 训练用的 internet-scale video。从零训一个 driving-only 的 5B video model 是浪费数据效率的。这反过来意味着 video foundation model 这一层的卡位很重要：谁能先训出 production-friendly 的 video backbone (尺寸适配车载推理、license 干净、对 driving distribution 有合理 prior)，谁就掌握了下游 driving world model 的话语权。WAN 系列、Sora 系列、可灵 / 即梦这一线的开源 / 半开源动作值得持续跟踪。

参考文献

Black, K., et al. (2024). π0: A vision-language-action flow model for general robot control. arXiv:2410.24164.
Chen, B., et al. (2024). Diffusion Forcing: Next-token prediction meets full-sequence diffusion. NeurIPS 2024.
Gao, R., et al. (2023). MagicDrive: Street view generation with diverse 3D geometry control. arXiv:2310.02601.
Gao, R., et al. (2024). MagicDrive-V2: High-resolution long video generation for autonomous driving with adaptive control. arXiv:2411.13807.
Gao, S., et al. (2024). Vista: A generalizable driving world model with high fidelity and versatile controllability. arXiv:2405.17398.
Hu, A., et al. (2026). Waymo World Model. Waymo Tech Report.
Huang, X., et al. (2025). Self-Forcing: Bridging the train-test gap in autoregressive video diffusion. arXiv:2509.xxxxx.
Hwang, J., et al. (2024). EMMA: End-to-end multimodal model for autonomous driving. arXiv:2410.23262.
Intelligence et al. (2025). π0.5: A vision-language-action model with open-world generalization. arXiv:2504.16054.
Liu, X., Gong, C., & Liu, Q. (2022). Flow straight and fast: Learning to generate and transfer data with rectified flow. arXiv:2209.03003.
Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers. ICCV 2023.
Russell, L., et al. (2025). GAIA-2: A controllable multi-view generative world model for autonomous driving. arXiv:2503.20523.
Vondrick, C., et al. (2025). Genie 3: A new frontier for world models. DeepMind Tech Report.
Wan, et al. (2025). Wan 2.2: Open and advanced large-scale video generative models. Tech Report.
Wang, X., et al. (2023). DriveDreamer: Towards real-world-driven world models for autonomous driving. arXiv:2309.09777.
Wang, X., et al. (2024). DriveDreamer-2: LLM-enhanced world models for diverse driving video generation. arXiv:2403.06845.
Yin, T., et al. (2024a). One-step diffusion with distribution matching distillation. CVPR 2024.
Yin, T., et al. (2024b). CausVid: From slow bidirectional to fast causal video generators. arXiv:2412.07772.
Zheng, Y., et al. (2026). X-World: Controllable ego-centric multi-camera world models for scalable end-to-end driving. arXiv:2603.19979.

引言：从 Vista / DriveDreamer 到 X-World 的鸿沟#

一、问题域：production 场景对世界模型的特殊要求#

二、X-World 架构详解#

2.1 整体：DiT-based latent video diffusion#

2.2 基座选型：WAN 2.2 5B + 3D causal VAE#

2.3 多相机表征：latent 网格 + view-temporal SA + 3 view groups#

2.4 Action 多通道注入#

2.5 训练目标：潜空间 Rectified Flow#

三、两阶段训练：从离线高质量到流式可控#

3.1 Stage-I：双向 DiT + Rectified Flow#

3.2 Stage-II：蒸馏为 chunk-wise causal AR#

3.3 推理性能边界#

四、横向对比：production-grade 是怎么炼成的#

4.1 Wayve GAIA-2#

4.2 Waymo World Model#

4.3 Vista 这一类单相机工作#

4.4 DriveDreamer / MagicDrive 一系#

4.5 X-World 的独家组合#

五、X-World 与 X-Cache 的咬合#

六、对自家世界模型路线的启示#

6.1 latent diffusion 与 JEPA latent prediction 的取舍#

6.2 production world model = 数据合成 + 闭环验证 + 在线 RL#

6.3 高门槛信号#

参考文献#

相关文章