引言:从 Vista / DriveDreamer 到 X-World 的鸿沟
驾驶世界模型这两年的论文非常密集,但把它们摆到一起,会发现一条很尴尬的分水岭:左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率;DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成;MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入;MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西:7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。
小鹏 GWM (Generative World Models) Team 在 2026 年 3 月放出的 X-World (Zheng et al., 2026) 是第一份把这条鸿沟用一份公开技术报告补上的工作。它和同期的 Wayve GAIA-2 (Russell et al., 2025)、Waymo World Model (Hu et al., 2026, 基于 DeepMind Genie 3) 一道把"production-grade 驾驶世界模型"这个东西从话题变成了可对照的工程对象。三家路线不同——X-World 是纯视觉 DiT + 少步蒸馏 + KV cache 流式;GAIA-2 是多区域结构化条件 + 标准 DiT;Waymo 走 Genie 3 + Teacher-Student + Think Fast/Slow 双系统并把 LiDAR 也吐出来。但 X-World 是目前公开材料里把"4 步去噪 / chunk + rolling KV cache + 22 秒以上稳定 rollout + 7 路一致"这一组合做齐的唯一一家。
这篇文章只讲基座模型本身——架构、训练目标、两阶段蒸馏、Action 注入。配套的推理 infra (cross-chunk residual cache、PPU 部署、wall-clock 拆解)放在它的姊妹篇 /posts/world-models/xpeng-x-cache-world-model-inference-acceleration/。
一、问题域:production 场景对世界模型的特殊要求
读 X-World 之前先把它要解的问题摆清楚。一台量产车上的世界模型不是"生成一段好看的驾驶视频"——这件事 Stable Video Diffusion 这种通用 video model 都能做得很像。production 端的硬约束是另外四条:
多相机几何一致性。小鹏的量产车有 7 路相机 (front_narrow, front_fisheye, front_left, front_right, rear_left, rear_right, rear),覆盖 360°。世界模型必须保证同一个对象在 front_left 和 front_narrow 里位置、朝向、外观一致;车辆穿越视野时不能在视角切换边界突然变形或者瞬移。这条比单相机生成困难一个量级——既要在 latent 表征里把 view 关系建好,又不能为此把模型放大到无法部署。具体看 7 路里相机本身的异构性也是个负担——front_narrow 是窄角长焦、front_fisheye 是超广角畸变、侧后视带较大的运动模糊,它们各自的成像 prior 不一样,但生成模型必须输出一致的物理世界。设计上要么共享一套 backbone 让它自己学差异,要么走 per-view fine-tune;X-World 选了共享 backbone + view group embedding 的折中。
Action-conditioned。世界模型的真正价值在于:给定历史观测和未来动作序列 ,预测对应的未来观测 。这把它从"video generator"区分成了"环境模型"。policy 评测、RL post-training、闭环仿真——这三件事都要求 action signal 必须真正 control 住生成结果,而不是被模型当噪声忽略掉。Vista / DriveDreamer 这一类工作动作可控性 demo 是有的,但在长 rollout 下能不能稳住、能不能区分"微转向"和"急转向"这种细粒度差异,是另外一回事。一个常被低估的细节是 action signal 的分布——X-World 训练数据里 74.8% 是常规驾驶、21.0% 是停车,剩下不到 5% 才是 long-tail 的急转 / 紧急避让等场景。在这种分布下让模型对 long-tail action 也响应,需要 normalization 和数据采样上专门处理,下文 2.4 节会展开。
长时序不发散。用世界模型做 RL 或大规模评测,rollout 长度必须够。X-World 给的目标是 22-24 秒。视频扩散模型的常规失效模式是 5-8 秒之后纹理 drift、几何漂移、agent 凭空消失或者复制。要扛到 20+ 秒,autoregressive 训练时怎么处理 exposure bias 是关键。从 video diffusion 的几年实践看,长时序失效的根因不止一个:纹理 drift 来自 latent 空间里 high-frequency component 在多步迭代下的累积误差;几何漂移来自相邻 chunk 之间 ego pose 没有显式约束;agent 凭空消失 / 复制来自 cross-attention 在长上下文下的 attention sink 漂移。X-World 用 Self-Forcing 解掉的主要是第一类和第三类的训练-推理分布 mismatch,第二类靠 ego action 在 adaLN 上的强约束。
实时推理。这是 production 和学术 demo 最硬的边界。Stage-I 的双向 DiT 跑 50 步采样在 H100 上对一个 81 帧的 clip 也要几十秒——直接接到闭环里完全不可行。X-World 必须把它蒸馏到 4 步 / chunk + chunk 之间 streaming,才有可能进 RL 训练循环和大规模 scene rollout。把数字摆清楚:RL post-training 一次 episode rollout 通常需要 10-30 秒的虚拟驾驶序列;如果世界模型生成 1 秒模拟视频要 30 秒 wall-clock,那么一个 episode 就要 5-15 分钟,远比真实车跑一次还慢,RL loop 完全跑不起来。要让世界模型的 wall-clock 比真实时间快或者持平,4 步 / chunk + KV cache 是数量级上必需的。
这四条约束放到一起,定义了 X-World 整个架构和训练 pipeline 的形状。任何一条放松,工程上都能做得"更好看"——更高分辨率、更精细的纹理、更长的 clip——但都会让模型在 production loop 里失效。X-World 的取舍处处都能看到这四条的影子。
二、X-World 架构详解
2.1 整体:DiT-based latent video diffusion
X-World 是一个 latent video diffusion model,骨干是 DiT (Peebles & Xie, 2023) 而不是 U-Net。两个原因:一是 DiT 在 video / multi-view 任务上 scaling 行为更稳;二是 token-based 的结构天然适配 multi-camera × multi-timestep 的 view-temporal attention 设计。
输入是 7 路相机的 latent token sequence + 多模态条件(ego action、相机参数、动态 agent、静态道路元素、文本 prompt)。输出是未来若干 chunk 的 7 路 latent,再过 3D causal VAE decoder 还原成 12 FPS 的多相机视频。训练目标是 latent 空间的 Rectified Flow loss(Liu et al., 2022),不是像素级 MSE 也不是 perceptual loss——一切操作都在 latent 上完成,VAE 只在最终可视化和评测时介入。
2.2 基座选型:WAN 2.2 5B + 3D causal VAE
X-World 的视频骨干直接 fork 自 Wan 2.2 5B TI2V (Wan et al., 2025)。这个选择本身就反映了"production 工程化"的逻辑——不从零训 video foundation model,而是拿一个已经在大规模通用视频上训过、有较强 prior 的 5B 模型做 driving domain 的二次预训练 + 微调。详细的 WAN 2.2 能力边界讨论见 /posts/world-models/wan2.2-video-world-model-boundary/。从 driving 这一侧看,复用 WAN 至少省掉了三件大事:通用物体的外观 prior(行人 / 车辆 / 交通灯)、自然光照与天气的 prior、相机运动 (panning / zooming) 的 prior。从零训一个 5B 视频 backbone 至少需要 O(数十亿) clip-second 数据;用 WAN 起步等于把这部分债先还掉,自家数据 (万小时量级 driving) 只需要补 driving-specific 的 distribution shift。
3D causal VAE 的压缩比是关键:空间 16× 下采样、时间 4× 下采样、latent channel = 48。一帧 H×W 原图变成 (H/16)×(W/16)×48 的 latent grid,连续 4 帧塌缩成 1 个 latent step。这个压缩比把 12 FPS 的 7 路视频压到一个 DiT 还能背得动的 token 数量——具体而言,Stage-I 训练 clip 是 81 帧 (≈6.75 秒),经过 4× 时间压缩后只剩 21 个 latent timestep。算一下 7 路相机情况下的总 token 数量级:假设单路相机原图是 H×W,每路在 latent grid 里的 token 数是 21 × (H/16) × (W/16),7 路并起来后乘 7。即使 H=W=256 这种偏小的分辨率,总 token 数也在 1-2 万这个量级,对一个 5B DiT 来说已经接近舒适区间的上限。再往上 scale 分辨率,要么换更激进的 VAE 压缩 (16× → 32× 空间),要么走 token pruning 或者 spatial chunk。
“causal” 表示 VAE encoder 在时间维度上是单向的,未来帧不会泄漏到过去帧的 latent,这一点对 chunk-wise autoregressive 推理至关重要——chunk 边界处不需要重新 encode,过去 chunk 的 latent 算出来就是定值,可以直接进 KV cache。如果 VAE 是双向的,每 append 一个新 chunk 都要把 history 重新过一遍 encoder,infra 上极其难做。这个细节在论文里只是一句话,但工程意义是数量级的。
2.3 多相机表征:latent 网格 + view-temporal SA + 3 view groups
7 路相机的 latent 怎么组织进一个 DiT,是 X-World 区别于通用 video DiT 最 nontrivial 的设计。论文的做法分两层:
第一层是把 7 个 view 排成 latent grid。每路相机经 VAE 编码后得到独立的 (T_lat × H_lat × W_lat × 48) latent tensor,然后按一个固定的几何 layout (类似 surround-view 的拼接) 排进同一个 DiT 输入空间。这样 token sequence 同时携带 view index 和空间位置信息,DiT 的位置编码不需要为多相机重新设计。
第二层是 view-temporal self-attention。注意力在 latent token 上轮替地做 “across cameras at fixed timestep” 和 “across timesteps within same view” 两种 pattern,把 view 间的几何对齐和时间维的运动一致性分开建模。完全 dense 的 4D attention (view × time × H × W) 计算量爆炸;这种分解既保留信息流又能 scale。
7 路相机进一步按几何位置分成 3 个 view groups——front (front_narrow / front_fisheye)、side (front_left / front_right / rear_left / rear_right)、rear (rear)。每个 group 内部共享一个 view fingerprint embedding,让模型区分"这个 token 来自前视广角还是前视窄角"。这套设计避免了为每一路相机学一组独立参数(参数爆炸 + 数据不均衡),同时保留了 view-specific 信息。
2.4 Action 多通道注入
Action conditioning 是 X-World 最精细的工程设计。论文把不同性质的条件信号路由到不同的注入机制,而不是统一拼成一个大 condition embedding 喂进 cross-attention——后者是通用 video diffusion 的默认做法,但在 driving 这种"控制信号强、各路条件语义异质"的场景下会让信号互相干扰。从信息论角度看,一个 cross-attention 分支的容量是 fixed 的,所有 condition token 在里面互相争夺 attention weight;当条件语义差异极大时,模型倾向于在训练里把容易学的 (例如文本里的 “rainy” 这种 token) 学好,难学的 (例如细粒度 ego curvature) 被噪声化。decouple 之后每个分支只服务一种语义,避免了这种 capacity 争夺。
ego action + diffusion timestep → adaLN-Zero。ego action 是一组连续标量:纵向速度 velocity、横向曲率 curvature、车体 roll、车体 pitch。这些值跨度很大 (停车 0 km/h 到高速 120 km/h;曲率从直行 0 到急转 0.3+),直接喂进 MLP 会有数值问题。X-World 用 symlog normalization 把量纲拉到对称尺度——symlog 定义为 ,比简单的 log 更好处理 0 附近的小值和负值——再做 Fourier feature embedding,最后过 MLP 得到 modulation vector。Fourier feature 这一步关键:把标量 映射成 这样的多频特征,让 MLP 能在细粒度变化上有足够的 capacity——否则 ego curvature 0.1 和 0.12 在标量空间过 MLP 几乎不可区分,模型学不出"轻转"和"中转"的差异。
这个 vector 和 diffusion timestep 的 embedding 加在一起,按 DiT (Peebles & Xie, 2023) 的 adaLN-Zero 套路在每个 DiT block 内对 hidden activation 做 scale-and-shift:
“Zero” 指 MLP 的最后一层初始化为 0,使得训练开始时 ,模型从 identity 开始学,稳定性更好。adaLN-Zero 走的是 token-wise modulation,所有 token 共享同一组 ,正好匹配 ego action 这种"全局信号"的性质——它影响整段视频的运动模式,但不需要 token-level 的定位。换句话说,“我要左转 30 度” 这个信息影响的是整个 latent 序列的演化方向,不需要去定位到某一个具体 token。
相机参数 → additive embedding。相机内参 (intrinsics) 和外参 (extrinsics) 是 per-view 的静态信号,X-World 把它们编码成 embedding 直接加在对应 view 的 token 上。这是最轻的一种注入——相机参数本身不随时间变化,不需要 attention,也不需要 modulation;只是给每个 view 的 token 标记"我从哪个视角看出去"。这种 additive 的注入相当于让相机参数充当 view-aware positional encoding 的扩展——除了基础的 view group embedding 之外,再叠一层 continuous 的几何信息,让模型知道 front_narrow 和 front_fisheye 的焦距、视场角差异。
动态 agent / 静态道路元素 / 文本 prompt → decoupled cross-attention。这三类是结构化的多 token 条件,每一类都有独立的 cross-attention 分支。文本分支用 umT5 encode 全局描述 (天气、时段、地理风格);动态 agent 分支接收其他车辆 / 行人 / 骑行者的 bbox 序列 + 速度 + 朝向;静态道路元素分支接收车道线、路口、停车线等 HDMap-like geometry。三个分支并行更新 query,最后求和。
这种 “decoupled” 比把所有条件拼一起的好处在于:每个分支的 attention pattern 独立学习,文本的 attention 不会被路面几何挤掉,agent 的 attention 不会被天气 prompt 干扰。另一个隐性好处是 training-time 的 condition dropout 可以 per-branch 控制——例如对静态元素分支单独做 random dropout,配合 classifier-free guidance (CFG) 可以在推理时把"道路几何控制力度"做成一个可调旋钮:dropout 之外的 sample 用强 CFG 让模型严格沿着 HDMap 生成;测试 OOD 场景时关掉 CFG 让模型自由想象路面。这种"控制力度可调"的能力在 production 评测里非常实用——你既要测 model 在 HDMap 严格约束下能生成什么,也要测它在弱约束下的泛化行为。论文还特别提到静态元素分支训练时做随机 dropout,让 CFG 在静态元素这一路可以单独开关。
2.5 训练目标:潜空间 Rectified Flow
X-World 的训练目标在 latent space 上,是 Rectified Flow (Liu et al., 2022)。这是当下 video diffusion 训练最主流的 flow matching 变种,详细数学背景见 /posts/mathematics/diffusion/flow-matching-consistency/。
给定 latent target (干净的真实 latent) 和先验噪声 ,构造线性插值轨迹:
模型 学习的是这条直线轨迹的速度场,目标是常向量 :
是所有条件信号 (action / camera / agent / road / text) 的合集。Rectified Flow 相对传统 score matching 的优势是轨迹是直线、采样步数可以压得很低(理论上 1 步就够,实际 4-50 步),这给后面的 DMD 蒸馏留出了基础。
三、两阶段训练:从离线高质量到流式可控
X-World 的训练流程分两个阶段,这是它能同时做到"高质量"和"可流式部署"的关键。学术工作经常只做 Stage-I 就发文章——质量数字 (FVD / FID) 漂亮,但推理慢得没法用。X-World 必须把 Stage-II 也做齐才能进 production。
3.1 Stage-I:双向 DiT + Rectified Flow
第一阶段训练一个标准的双向 DiT。“双向"指 self-attention 在时间维度是非因果的——任意一帧能看到 81 帧 clip 内的所有其他帧,包括"未来”。这是最强的 generative prior:完整看 81 帧上下文做 denoising,纹理细节和长程一致性都有最大空间。训练目标就是上面的 Rectified Flow loss。
Stage-I 的 trade-off 很清楚:质量上限高,但推理要 ~50 步采样,而且因为是双向的,没办法做 streaming——必须一次性生成完整 clip。81 帧 / 50 步在生产硬件上的 wall-clock 是数十秒量级,单靠 Stage-I 模型完全不可能进闭环。
3.2 Stage-II:蒸馏为 chunk-wise causal AR
第二阶段把 Stage-I 的双向 DiT 蒸馏成一个 chunk-wise causal autoregressive model。三件事同时做:
时间维改成单向。self-attention 的 causal mask 加上去,每个 latent timestep 只能看过去和当前——这是能 streaming 推理的前提。从 Stage-I 到 Stage-II 这一步意味着丢掉一部分双向上下文带来的质量上限,但换来推理时不需要重跑历史的能力。chunk-wise 而不是 token-wise 的颗粒度是工程上的妥协:太细 (per latent step) 会让 KV cache 命中率高但 attention 内部 chunk-bound 太碎;太粗 (整个 clip 当一个 chunk) 又退化回 Stage-I。X-World 选的是几个 latent step 当一个 chunk 的粒度,让 chunk 内部还能做 dense attention 学到短时一致性,chunk 之间靠 causal mask 串起来。
4 步 / chunk 去噪。通过 Distribution Matching Distillation (DMD, Yin et al., 2024a) 把 50 步压到 4 步。DMD 的目标是最小化"学生 (少步生成器) 自 rollout 分布"和"教师 (Stage-I 双向模型) 分布"的反向 KL:
实现上 DMD 不直接算 KL(积分要算到所有 上),而是用一个 fake score network 估计学生分布的 score,再用教师的 score 减去 fake score 得到一个 surrogate gradient 反传给学生。形式上反向 KL 的梯度可以写成:
教师 score 是 Stage-I 模型在不同 noise level 上的 score 估计 (Rectified Flow 训练完直接拿来用);学生分布的 score 用一个额外的 fake score network 实时估计——这个 fake network 跟学生联合训练,自己也是个 score model,在学生当前生成的样本上做 score matching。整个 setup 类似 GAN 的"判别器+生成器"对抗训练,但梯度来源是 score 差,不是 binary classification。这种 setup 在 image diffusion 上的稳定性已经被 DMD 系列验证过,CausVid (Yin et al., 2024b) 把它搬到了视频上,X-World 沿用了这条线。
Self-Forcing 训练。autoregressive 模型最大的失效模式是 exposure bias——训练时喂 ground-truth 历史,推理时喂自己生成的历史,分布漂移导致几秒后 rollout 崩坏。Self-Forcing (Huang et al., 2025) 的核心是训练时也做 chunk-by-chunk 自 rollout:从噪声起步,4 步去噪生成第一个 chunk,把它作为历史去生成第二个 chunk,以此类推。KV cache 在训练和推理时都开。这让训练分布和推理分布严格一致,是 X-World 能 push 到 22-24 秒不崩的关键。Diffusion Forcing (Chen et al., 2024) 在 noise schedule 上的设计也被吸收——不同 timestep 用不同噪声水平,让模型在更宽的去噪范围内都稳定。
Self-Forcing 的代价是显著的训练成本——每个 batch 必须真的跑 chunk-by-chunk 的 rollout,没有 teacher forcing 的并行展开。一个 22 秒的 rollout 大约有 5-7 个 chunk,意味着每次 forward / backward 要跑 5-7 倍的展开。论文没有说总训练算力,但能猜出来 Stage-II 的 wall-clock 成本不会比 Stage-I 低多少;这是用 production 数据换学术 benchmark 的典型 trade-off。
Rolling KV cache (FIFO)。chunk-wise AR 推理时,每生成一个 chunk 就把它的 KV 追加进缓存。X-World 用固定大小的 rolling cache 配合 FIFO 淘汰——窗口装满后,最旧的 chunk KV 被替换出去。这样推理时的内存占用是常数(不会随 rollout 时长线性增长),换来的是模型只能看一个固定长度的过去窗口;超出窗口的远期一致性靠生成内容的"自相似"维持,不靠显式 KV。FIFO 而不是其他淘汰策略 (LRU / 重要性加权) 的选择,背后是工程实用主义——FIFO 在 hardware 上实现最简单 (一个环形 buffer),而且 driving 场景下时间近的 history 比时间远的 history 在因果上更重要,FIFO 的物理含义最干净。
3.3 推理性能边界
Stage-II 蒸馏完之后,X-World 在小鹏选用的阿里平头哥镇岳 810E PPU (96GB HBM2e) 上达到的运行点:4 步去噪 / chunk,单 chunk wall-clock 约 3.63-3.69 秒,BF16 精度,rolling KV cache + chunk-wise streaming。这部分的优化空间和 cross-chunk residual cache (X-Cache) 设计,详见 /posts/world-models/xpeng-x-cache-world-model-inference-acceleration/。
需要诚实地标记一点:X-World 论文没有给出量化的质量对比表 (FID / FVD / action-following error),所有 demo 都是 qualitative 的——24 秒多相机 rollout、ego turn / lane change 控制、agent 控制、风格迁移 (天气 / 时间 / 地理) 等。这一点和 GAIA-2 / Waymo World Model 也类似——production 世界模型在公开材料里普遍不放完整 benchmark,一方面是数据 proprietary 不好对齐,另一方面是 closed-loop 评测的"好"很难用单个标量刻画。
四、横向对比:production-grade 是怎么炼成的
把 X-World 摆进当前驾驶世界模型的 landscape 里看。
4.1 Wayve GAIA-2
GAIA-2 (Russell et al., 2025) 和 X-World 是同期最直接的对照组。架构上同样是 multi-camera DiT,同样在 latent space 训练,同样支持结构化条件 (3D box / HDMap / weather / time)。GAIA-2 的强项在条件结构化——把动态 agent 和静态元素拆成 “regions of interest”,每个 region 有独立的 condition representation;这一点比 X-World 的 decoupled cross-attention 在概念上还要细一层。但 GAIA-2 的公开材料里没有 4 步少步蒸馏 + KV cache 流式推理这一套——它仍然以离线高质量生成为主,不强调进 online RL loop。
4.2 Waymo World Model
Waymo 在 2026 年初放出的 World Model (Hu et al., 2026) 走的是另一条路:基座不是纯视频 DiT,而是 DeepMind Genie 3 (Vondrick et al., 2025) 的驾驶域化版本。输出不止 camera——同时吐 LiDAR 点云,给下游 LiDAR-based perception / planning 当 supervision。训练上用 Teacher-Student 蒸馏 + Think Fast/Slow 双系统:Fast 系统少步生成做 streaming,Slow 系统多步精修做关键帧。这套架构对 LiDAR 量产传感器栈是自然的;和 X-World 的纯视觉 DiT 形成了"模态完整性 vs 推理简洁性"的路线分叉。
4.3 Vista 这一类单相机工作
Vista (Gao et al., 2024) 是单相机高保真生成的代表——576 分辨率,FID / FVD 漂亮。但 single-view 这件事在 production 上是不够的——end-to-end driving model 接收 7 路输入,世界模型必须对齐到同样的输入空间,否则 policy 在仿真里看到的输入和真车上不一样。Vista 的价值更多是 video diffusion 在 driving domain 的可行性证明,不是 production-ready 候选。
4.4 DriveDreamer / MagicDrive 一系
DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 和 MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 这一系把"结构化条件 + 多视角"做得很完整:3D box、HDMap、LLM 描述、相机参数都进来了。质量在学术 benchmark 上不错。但它们的应用场景定位是 数据合成(生成 corner case 给下游模型当训练数据),不是闭环 rollout——典型 demo 长度 3-6 秒,没有 streaming 推理栈,agent 自我一致性在更长 rollout 下会退化。
国内学术圈的 MiLA / MaskGWM / EOT-WM 等也都在 multi-view + 可控性方向推进,质量数字各有亮点,但目前没有一份公开做到 production rollout 长度 + streaming 推理 + RL 训练 loop 的组合。
4.5 X-World 的独家组合
X-World 没有单一一项是"史无前例"的——DiT 是 2023 年的、Rectified Flow 是 2022 年的、DMD / Self-Forcing / Diffusion Forcing 是 2024-2025 年的、WAN 是 2025 年的。它做对的事是把这套技术栈以正确的姿势拼起来:DiT 提供 scaling 友好的骨干;WAN 2.2 提供大规模 video prior;Rectified Flow 让 Stage-I 训练稳;DMD + Self-Forcing 把 50 步压成 4 步同时解掉 exposure bias;KV cache 让 streaming 可行;adaLN / additive emb / decoupled cross-attention 三路注入让各类条件信号不互相干扰。每一块单看都不新,组合起来就是目前唯一一份"7 相机 + 22 秒 + 4 步去噪 + 镇岳 PPU 上 BF16 跑 streaming"的公开实现。
production-grade 在驾驶世界模型这件事上的含义就是这套组合。从工程视角看,这种"全部都是已知技术,但组合起来需要每一块都打通"的特征非常典型——和大模型时代的很多 production system 一样 (例如 GPT 系列的 RLHF + tool use + system prompt 组合),新东西不一定要靠某一项算法突破,更多靠把现有 building block 用对地方。这套组合最难的地方反而是 codesign:如果 Stage-I 的训练 schedule 没有为后续蒸馏留余地(noise schedule 跨度不够大),DMD 蒸馏会失效;如果 Self-Forcing 的训练展开长度不够,KV cache 在推理时跨过训练边界会立刻崩;如果 view-temporal attention 没有为 causal mask 做适配,Stage-II 推理时跨 view 的 attention 会泄漏未来信息。这些问题都是只能在工程实现里碰到才知道的,论文不会写。
五、X-World 与 X-Cache 的咬合
X-World 的 chunk-wise AR 设计直接定义了下一层加速的工作空间。每个 chunk 内部跑 4 步去噪,4 步之间的 DiT activation 有大量冗余——相邻 denoising step 之间,hidden state 在大部分 token 上变化很小;chunk 与 chunk 之间,rolling KV cache 之外的某些 attention 分支也存在 cross-chunk 上可以复用的中间结果。X-Cache 抓住的就是这两层冗余:step 内的 residual cache + step 间 / chunk 间的 cross-chunk reuse,配合镇岳 810E PPU 的 layout 优化,把单 chunk wall-clock 从原始 ~3.7 秒压到接近实时区间。
更具体一点说,4 步去噪的 schedule 在 X-World 里大概是 noise level 从高到低 4 个不均匀间隔的采样点,从最高 noise 到最低 noise 之间 DiT 的输出会从"接近随机"演化到"接近最终 latent"。但在 attention map 的层面上,相邻两步之间的差异其实集中在少数几个 token 上——大部分位置 (尤其远离 ego 和动态 agent 的背景区域)在去噪过程中的 attention pattern 是几乎不变的。X-Cache 利用的就是这一点,把那些"不动"的 attention 中间量缓存下来,只重算变化大的 token;4 步 schedule 配合这种 cache 策略可以做到 step 2-4 的等效计算量小于 step 1 的 30-50%。这个数字论文级别没给,但从公开 demo 的 wall-clock 拆解能反推出来——具体见 X-Cache 那篇。
完整的 cache 设计、命中率分析、PPU kernel 拆解和 wall-clock breakdown 在 /posts/world-models/xpeng-x-cache-world-model-inference-acceleration/。这里只标记两件事:第一,X-Cache 的可行性建立在 X-World 的 chunk-wise AR + Self-Forcing 训练之上——如果模型还是 Stage-I 的双向 DiT,所有 token 全局相互依赖,cross-chunk reuse 就没有合法的"独立单元"可以缓存。第二,X-Cache 的存在反过来 justify 了 X-World 的 4 步 / chunk 设计——单看 4 步似乎激进 (FID 比 50 步必然差),但 4 步留出的 inference budget 让 cache 命中能进一步压缩 wall-clock 直到能进 online RL loop。两边是 codesign 出来的。
这种 codesign 的逻辑在大模型时代越来越常见。LLM inference 里 vLLM 的 PagedAttention、推测解码、prefix cache 这一系列优化,本质上都依赖训练时的某些 invariance (KV 是不变的、生成是 left-to-right 的)。视频世界模型这一侧的 codesign 才刚起步,X-Cache 是第一份公开尝试。这意味着后续做 production 世界模型的玩家必须从 day-1 就考虑训练和推理 infra 的咬合——你不能先训完 Stage-I 再回头想怎么加速,因为 Stage-II 蒸馏的设计直接由推理硬件决定 chunk size、KV cache 长度、step 数等关键超参。
六、对自家世界模型路线的启示
X-World 这套技术栈摆出来之后,几个判断变得清晰。
6.1 latent diffusion 与 JEPA latent prediction 的取舍
X-World 走的是 latent diffusion——VAE 把 pixel 压到 latent,DiT 在 latent 上做 Rectified Flow,最后 decoder 还原 pixel。这条路的优势是输出空间是真实的 sensor space,policy 可以直接用渲染出来的 7 路视频做闭环;劣势是 VAE decoder 的开销不可忽略,且 latent 本身没有显式的几何 / 语义结构。
另一条路是 JEPA latent prediction:不解码到 pixel,直接在 latent 空间里做 predictive learning,用 latent 自己当 state 给下游 policy。这条路在 /posts/world-models/driving-jepa/ 里展开过。在 representation learning / 表征 efficiency 上 JEPA 有理论优势 (不浪费 capacity 去 model pixel-level texture),但 production 端的痛点是评测——把 latent 直接喂 policy 时,“世界模型生成对了没"这件事不再有可视化的人类先验,调试和归因都难。X-World 选 latent diffusion,本质上是接受 pixel-level reconstruction 的开销来换 production 的可观测性。
两条路目前都没分出胜负。但 X-World 这种把 Vista + WAN + DMD + Self-Forcing 串成 production 栈的工程化,是 JEPA 这一线还没补上的。一个可能的中间路线:用 latent diffusion 做训练时的 ground truth 来源 (生成可视化的 demo + 可控的 rollout),用 JEPA-style latent prediction 做 policy 训练时的实际信号 (跳过 pixel 重建省算力)。这种混合栈目前还没有公开实现,但从 codesign 角度看是合理的下一步——X-World 的 Stage-I 模型完全可以当 JEPA 的 distillation source,让 JEPA 在 X-World 的 latent space 上学 predictive feature。
6.2 production world model = 数据合成 + 闭环验证 + 在线 RL
世界模型在量产落地的三个角色,X-World 至少给前两个开了门:数据合成可以用 (Stage-I 高质量 rollout),闭环验证可以接 (Stage-II streaming + action control)。第三个——online RL post-training (像 π0.5 / EMMA 那种 VLA 的 RL 后训练)——是最难的一环,要求世界模型在 policy 当前分布下也保持 action-following 和 long-horizon stability。X-World 的 22-24 秒 rollout 是一个 floor,不是 ceiling;要让 RL 真的稳定迭代,rollout 长度可能还要再 push,或者引入 model-based RL 里常见的 short-horizon ensemble + uncertainty 估计。这一条 X-World 论文里没有完整 demo,是后续工作。
更深一层,RL post-training 用世界模型当 simulator 时,“world model 自己也可能错"是一个常被低估的失败模式。如果 policy 在某个 corner case 上犯错,world model 又恰好"宽容"地把这个错误生成成"看起来合理"的视频,policy 会在错误信号上 reinforce——这是 Sim-to-Real gap 在生成式 simulator 里的新变种。学术上的常见对策是 uncertainty-aware rollout——让 world model 输出一个置信度,policy 只在高置信区间内训练。X-World 目前是 deterministic forward rollout,没有 explicit uncertainty estimation;如果要进 RL loop,这一块需要补 (例如多次 sample 求 variance,或者训一个 critic 估计 model error)。这又是一组 codesign 工作。
6.3 高门槛信号
把 X-World 训出来需要:万小时量级的高保真多相机驾驶数据 + 自研或定制的 PPU 部署栈 + DiT / Rectified Flow / DMD / Self-Forcing 这一连串前沿训练技术的工程化能力 + WAN 这种 5B 量级的视频 foundation model 当起点。每一项单独都不算秘密,但全部凑齐的玩家很少——国内目前只有头部主机厂和少数几家自动驾驶公司同时具备数据 + 算力 + 工程能力的组合。X-World 出来的真正信号在于:production-grade 驾驶世界模型的门槛已经被定好了在哪里——“DiT 做世界模型可行"在 Vista 时代就已经验证过,真正的新内容是这套门槛的具体形状。后面跟进的工作要么补齐这一整套,要么找到一条不同的路 (例如 JEPA + RL 跳过 pixel 重建),单点改进很难追上。
另一个信号是 video foundation model 的"通用 prior 复用"会成为标准做法。X-World 选 WAN 2.2 5B 当起点不是偶然——驾驶域的 video data 即使在头部公司也最多到万小时量级,远不及 WAN 训练用的 internet-scale video。从零训一个 driving-only 的 5B video model 是浪费数据效率的。这反过来意味着 video foundation model 这一层的卡位很重要:谁能先训出 production-friendly 的 video backbone (尺寸适配车载推理、license 干净、对 driving distribution 有合理 prior),谁就掌握了下游 driving world model 的话语权。WAN 系列、Sora 系列、可灵 / 即梦这一线的开源 / 半开源动作值得持续跟踪。
参考文献
- Black, K., et al. (2024). π0: A vision-language-action flow model for general robot control. arXiv:2410.24164.
- Chen, B., et al. (2024). Diffusion Forcing: Next-token prediction meets full-sequence diffusion. NeurIPS 2024.
- Gao, R., et al. (2023). MagicDrive: Street view generation with diverse 3D geometry control. arXiv:2310.02601.
- Gao, R., et al. (2024). MagicDrive-V2: High-resolution long video generation for autonomous driving with adaptive control. arXiv:2411.13807.
- Gao, S., et al. (2024). Vista: A generalizable driving world model with high fidelity and versatile controllability. arXiv:2405.17398.
- Hu, A., et al. (2026). Waymo World Model. Waymo Tech Report.
- Huang, X., et al. (2025). Self-Forcing: Bridging the train-test gap in autoregressive video diffusion. arXiv:2509.xxxxx.
- Hwang, J., et al. (2024). EMMA: End-to-end multimodal model for autonomous driving. arXiv:2410.23262.
- Intelligence et al. (2025). π0.5: A vision-language-action model with open-world generalization. arXiv:2504.16054.
- Liu, X., Gong, C., & Liu, Q. (2022). Flow straight and fast: Learning to generate and transfer data with rectified flow. arXiv:2209.03003.
- Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers. ICCV 2023.
- Russell, L., et al. (2025). GAIA-2: A controllable multi-view generative world model for autonomous driving. arXiv:2503.20523.
- Vondrick, C., et al. (2025). Genie 3: A new frontier for world models. DeepMind Tech Report.
- Wan, et al. (2025). Wan 2.2: Open and advanced large-scale video generative models. Tech Report.
- Wang, X., et al. (2023). DriveDreamer: Towards real-world-driven world models for autonomous driving. arXiv:2309.09777.
- Wang, X., et al. (2024). DriveDreamer-2: LLM-enhanced world models for diverse driving video generation. arXiv:2403.06845.
- Yin, T., et al. (2024a). One-step diffusion with distribution matching distillation. CVPR 2024.
- Yin, T., et al. (2024b). CausVid: From slow bidirectional to fast causal video generators. arXiv:2412.07772.
- Zheng, Y., et al. (2026). X-World: Controllable ego-centric multi-camera world models for scalable end-to-end driving. arXiv:2603.19979.