X-Cache：小鹏自动驾驶世界模型的推理加速 Infra

引言：世界模型的 Infra 瓶颈

自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA（Vision-Language-Action）系统。在这个新范式中，世界模型（World Model） 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。

小鹏汽车的 X-World 世界模型已进入闭环仿真、在线强化学习和数据生成等生产流程，用于 VLA 2.0 的研发与验证。但一个根本性瓶颈横亘在前：

推理太慢了。

世界模型的工作模式是自回归的：每生成一段未来画面 → 策略模型观察后输出动作 → 世界模型继续响应下一段。这个交互链路如果每一环都要等几十秒，闭环效率将无法支撑规模化训练和实时评测。

X-Cache 正是针对这一瓶颈提出的 training-free 推理加速方案：在 DiT（Diffusion Transformer）block 层面 实现跨段缓存复用，达到 2.6~2.7 倍壁钟加速、~71% block skip rate，同时保持 SSIM > 0.9990 的极低画质损失。

本文将从问题动机、核心技术架构、工程设计细节三个维度进行深度解析。

一、为什么传统扩散缓存不适用于世界模型

1.1 传统扩散缓存的假设

现有视频扩散模型的推理加速主要沿 denoising step 轴做缓存——即复用相邻去噪步骤之间的中间特征。其核心假设是：

\text{相邻 step } t \text{ 与 } t-1 \text{ 的 latent 表示高度相似} \implies \text{可复用}

这在标准的 DDPM / DDIM 采样流程中效果显著，因为这些采样器通常需要 50~1000 步去噪，步间冗余极为丰富。

1.2 少步蒸馏后的结构性变化

然而，面向生产部署的世界模型普遍采用了 few-step distillation 技术（如 Consistency Models、Progressive Distillation），将去噪步数压缩到 4~8 步甚至更少。这带来两个关键变化：

维度	多步场景 (50+ steps)	少步场景 (4-8 steps)
每步承担的更新量	小（渐进式细化）	大（一步到位）
跨步冗余度	高	急剧下降
传统缓存收益	显著	微乎其微

换句话说，少步蒸馏挤掉了跨步冗余的空间。

1.3 X-Cache 的关键洞察

X-Cache 的核心洞察是：跨步冗余虽然被压缩了，但跨段冗余依然存在。

这里的「段」（chunk）指的是自回归生成中的连续视频片段。物理世界的连续性决定了：

车向前开一秒 → 场景不会突变。远处的楼还在那里，车道线只是平移了几像素，路边的树还是那棵树。

这种跨 chunk 的结构连续性不依赖去噪轨迹的邻近性，而是来自物理世界的本质属性——因此不受蒸馏步数的影响。

1
2
3
4
5
6
7
传统缓存轴 vs X-Cache 缓存轴:

传统:  step_1 ──→ step_2 ──→ step_3 ──→ ... ──→ step_T   (沿时间步)
        [缓存]    [复用]     [复用]

X-Cache: chunk_1 ──→ chunk_2 ──→ chunk_3 ──→ ... ──→ chunk_N  (沿序列块)
           [全算]      [~71%跳过]    [~71%跳过]

二、X-Cache 五层架构

X-Cache 是一套精心设计的分层系统，从底层的 residual cache 到高层的 safety mechanism，共五层协同工作。

2.1 第一层：Per-Block Residual Cache

核心机制

对于多块 Causal DiT 中的第 $b$ 个 Transformer block，在第 $n$ 个 generation chunk、第 $t$ 个 denoising step 上，标准的前向传播为：

z_{t}^{(n,b)} = z_{t}^{(n,b-1)} + \text{DiT}_b(z_{t}^{(n,b-1)}, c)

其中 $c$ 为条件向量（包含 timestep embedding、action vector、text embedding 等）。定义 block residual 为：

r_{b}^{(n,t)} = \text{DiT}_b(z_{t}^{(n,b-1)}, c)

X-Cache 在每个 $(b, t)$ 位置维护一个持久化的 residual cache：当第 $n$ 个 chunk 的某个 block 完整计算后，将其 residual 存入缓存；当处理第 $n+1$ 个 chunk 时，如果门控判断允许跳过，则直接复用：

\hat{z}_{t}^{(n+1, b)} = z_{t}^{(n+1, b-1)} + r_{b}^{\text{cached}}

关键区别于传统 KV cache：X-Cache 缓存的是 block 的计算增量（residual）而非中间表示（KV），这使得缓存可以在不同 input latent 之间安全复用。

2.2 第二层：Structure & Action-Aware Fingerprint

要决定是否跳过一个 block，首先需要一个可靠的相似性度量。X-Cache 设计了一种专门适配多相机驾驶场景的 fingerprint 机制：

3D Grid Subsampling

不同于 flatten 后在一维 token 轴上均匀采样的朴素做法，X-Cache 直接在 latent 的三维时空网格 $(T, H, W)$ 上按固定比例取点：

F_b^n = \text{Subsample}(z_{t=0}^{(n,b)}, s_T:s_H:s_W)

这种方式保留了空间局部性和时序连续性，更适合检测场景中物体的位置漂移而非全局统计偏移。

Multi-Camera Grouping

七路相机被分为 front / side / rear 三组分别计算 fingerprint。这是因为：

Front camera 承载最多的语义信息（车道线、交通标志、前方车辆）
Side camera 主要负责侧向障碍物
Rear camera 变化最慢（车后方场景相对稳定）

分组计算使 fingerprint 能捕捉到视角特定的变化模式。

Dual Channel Fingerprint

最终指纹由两个通道组成：

通道	输入	捕捉的信息
Global Channel	Block input token 的均值	整体 latent 分布漂移（光照、天气渐变）
Condition Channel	当前 chunk 的 action vector	动作意图的变化（转向/刹车/加速）

引入 Condition Channel 的动机值得展开：自动驾驶世界模型是 action-conditioned 的，action 通过 adaLN-Zero 机制注入每个 DiT block。如果 fingerprint 仅看 block input，动作变化的效应可能要到后续 block 才显现出来，导致门控判断滞后。将 action vector 直接纳入 fingerprint 解决了这个问题。

2.3 第三层：Dual-Metric Gating

有了指纹之后，需要决策引擎来判断是否跳过。X-Cache 采用双指标联合判决：

Metric 1: Cosine Similarity（余弦相似度）

s_{\cos}(F_b^{n}, F_b^{n+1}) = \frac{F_b^{n} \cdot F_b^{n+1}}{\|F_b^{n}\| \|F_b^{n+1}\|}

衡量整体方向一致性。值接近 1 说明两段的 block input 在高维空间中指向相近方向。

Metric 2: Maximum Token Deviation（最大 token 偏差）

d_{\max}(F_b^{n}, F_b^{n+1}) = \max_i |F_{b,i}^{n} - F_{b,i}^{n+1}|

衡量局部最大异常变化。

Skip Decision 规则

只有当两个条件同时满足时才跳过该 block：

\text{skip}_b = \mathbb{I}[s_{\cos} > \tau_{\cos}] \land \mathbb{I}[d_{\max} < \tau_{dev}]

双指标的必要性来自自动驾驶的特殊场景：局部突变频繁发生。侧方突然出现车辆、路口行人横穿、某个相机视角内有大运动物体进入——这些情况下整体 cosine similarity 可能仍然很高（因为大多数 spatial location 未变），但局部偏差已经超标。Maximum deviation 就是给这些局部异常事件留的一根保险丝。

2.4 第四层：Adaptive Threshold（自适应阈值）

全局固定阈值在不同场景下表现不一致。X-Cache 为每个 $(t, b)$ 位置维护一个 EMA（指数移动平均）：

\bar{s}_{t,b}^{(n)} = \alpha \cdot s_{\cos}^{(n)} + (1 - \alpha) \cdot \bar{s}_{t,b}^{(n-1)}

阈值动态调整为 EMA 的函数：

\tau_{t,b}^{(n)} = f(\bar{s}_{t,b}^{(n)})

这意味着：

Block 类型	行为	效果
长期稳定（如背景天空区域）	EMA 持续高位 → 阈值放宽	更激进地跳过
高度变化（如前景车辆区域）	EMA 波动大 → 阈值收紧	保持保守

无需额外的 compute budget controller，系统自然形成稳定的 compute profile。

2.5 第五层：KV Update Chunk Protection（安全冗余层）

这是 X-Cache 最具工程洞察的设计之一。

问题：误差级联风险

自回归视频扩散模型采用 rolling KV cache 策略：每生成完一个 chunk 后，模型会用完全去噪后的 clean latent 再跑一次前向，计算 key-value projection 并写入持久化的 KV cache。未来所有后续 chunk 都会 attend 到这些历史 KV 条目。

如果某个写入 KV 的 chunk 使用了 cached（近似）residual 而非精确计算，近似误差将被永久编码进 KV cache，并在所有后续 chunk 中持续放大——形成误差级联（error cascade）。

保护机制

X-Cache 引入 KV Update Chunk Identification：识别出哪些 chunk 会触发 KV cache 写入操作，对这些 chunk 无条件强制 full computation：

\text{is\_kv\_update}(n) \implies \forall b: \text{skip}_b^{(n)} = \text{False}

这就像自动驾驶系统中的安全冗余设计：平时可以用轻量计算提速，但凡涉及长期状态记忆、闭环反馈路径的底层条件，必须回到精确计算。

三、实验验证

3.1 实验配置

项目	配置
基座模型	X-World（生产级多相机动作条件驾驶世界模型）
测试集	训练分布内 internal held-out split
测试时长	22 秒 clip
测试场景	Urban Street / Highway / U-turn

3.2 核心性能指标

场景	DiT 加速倍数	Skip Rate	PSNR (7-cam avg)	SSIM	LPIPS↓
Urban Street	2.65×	71.3%	51–55 dB	> 0.9990	< 4×10⁻⁴
Highway	2.66×	71.5%	51–55 dB	> 0.9990	< 4×10⁻⁴
U-turn	2.70×	71.6%	51–55 dB	> 0.9990	< 4×10⁻⁴

3.3 关键发现

最值得注意的是稳定性：

三个场景的 skip rate 差异仅 0.3 个百分点
U-turn 场景并未出现明显掉速——因为真正的大转向只占部分时间，且运动模糊降低了高频像素域的误差敏感度
PSNR 始终保持在 51–55 dB 区间，表明重建质量几乎无损

3.4 与其他加速路线的关系

X-Cache 不是替代其他加速手段，而是与之正交互补：

技术路线	加速维度	与 X-Cache 的关系
Few-step distillation	减少去噪步数	✅ 兼容（X-Cache 不影响蒸馏过程）
Latent-space world model	降低分辨率/通道数	⚠️ 可能改变 block 冗余特征
Token pruning	减少序列长度	✅ 可叠加
Kernel optimization / FlashAttention	单算子优化	✅ 可叠加（底层加速 × 缓存加速）
Hardware compilation	算子融合/硬件映射	✅ 可叠加

真正可部署的系统大概率是多种 Infra 技术叠出来的组合拳。

四、讨论：从 Demo 到 Infra

4.1 行业信号

X-Cache 的发布传递了一个重要信号：世界模型正在进入 Infra 深度优化的阶段。

过去业界讨论世界模型，注意力容易被生成效果吸引——视频有多逼真、可控性有多强。但在当前阶段，工程化价值可能更值得关注：

这就像你做了一个很强的驾驶考场，但每一道题要等几十秒才能刷新。考场再真实，也很难支撑规模化训练和评测。

4.2 自动驾驶世界模型的特殊约束

X-Cache 与通用视频生成的推理加速存在本质差异：

维度	通用视频生成 Cache	X-Cache（驾驶世界模型）
误差容忍度	当前帧稍模糊可接受	误差写入历史 KV → 变成未来条件
优化目标	图像质量最大化	闭环系统稳定性
因果约束	无严格因果依赖	必须等待 policy 输出 action
并行化潜力	支持 sequence-level parallelization	❌ 不能预知未来 action

这些约束使得驾驶世界模型的推理优化比纯视觉任务更具挑战性——也更有工程价值。

4.3 已知局限性与未来方向

局限方面	内容
测试范围	仅 22 秒 clip，训练分布内数据
未覆盖场景	更长 horizon、夜间、恶劣天气、激进驾驶
阈值校准	分布外场景下 EMA threshold 需重新 warm-up

四大待探索方向：

长时序闭环：复杂路口（连续变道、拥堵博弈、施工绕行）的错误可能数十秒后才积累爆发
Policy-in-the-Loop：真实闭环中 policy 会根据生成画面反向改变动作，形成更强的反馈耦合
分布外鲁棒性：高速急刹、鬼探头、恶劣天气下 cross-chunk redundancy 会下降，gating 需足够灵敏
多技术融合：X-Cache + distillation + pruning + kernel optimization 的联合优化

五、总结

X-Cache 的方法论可以浓缩为一句话：

当跨步冗余被蒸馏压缩殆尽时，回到物理世界的本源——跨段连续性——寻找新的可复用性。

这不是一个复杂的想法，但其工程实现的精致程度令人印象深刻：五层架构层层递进，从 per-block residual cache 的基础能力，到 dual-metric gating 的精细控制，再到 adaptive threshold 的自我调节，最后以 KV update protection 作为兜底的安全网。每一层都在回答一个具体的 what-if 问题——如果指纹不够准确怎么办？如果全局阈值不适合局部怎么办？如果缓存误差污染了长期状态怎么办？

对于正在构建或评估世界模型系统的团队来说，X-Cache 提供了一个即插即用的 training-free 加速方案，也展示了一套值得借鉴的推理优化设计哲学：在加速与精度之间，不是简单的 trade-off，而是通过深入理解应用领域的物理特性，找到结构性的免费午餐。

参考文献

Zeng, Y. et al., 2026. “X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference.” arXiv:2604.20289. PDF
小鹏 AI Infra Team, 2026. 「小鹏又一篇 X-Cache，开始补世界模型最硬的 Infra 拼图」自动驾驶之心.
小鹏汽车, 2026. “X-World: A Production-Grade Multi-Camera Action-Conditioned Driving World Model.” Technical Report.
Wayve, 2026. “GAIA-2: A Multimodal World Model for Autonomous Driving.” Technical Report.
Waymo, 2025. “A World Model for End-to-End Autonomous Driving.” CVPR 2025.

引言：世界模型的 Infra 瓶颈#

一、为什么传统扩散缓存不适用于世界模型#

1.1 传统扩散缓存的假设#

1.2 少步蒸馏后的结构性变化#

1.3 X-Cache 的关键洞察#

二、X-Cache 五层架构#

2.1 第一层：Per-Block Residual Cache#

核心机制#

2.2 第二层：Structure & Action-Aware Fingerprint#

3D Grid Subsampling#

Multi-Camera Grouping#

Dual Channel Fingerprint#

2.3 第三层：Dual-Metric Gating#

Metric 1: Cosine Similarity（余弦相似度）#

Metric 2: Maximum Token Deviation（最大 token 偏差）#

Skip Decision 规则#

2.4 第四层：Adaptive Threshold（自适应阈值）#

2.5 第五层：KV Update Chunk Protection（安全冗余层）#

问题：误差级联风险#

保护机制#

三、实验验证#

3.1 实验配置#

3.2 核心性能指标#

3.3 关键发现#

3.4 与其他加速路线的关系#

四、讨论：从 Demo 到 Infra#

4.1 行业信号#

4.2 自动驾驶世界模型的特殊约束#

4.3 已知局限性与未来方向#

五、总结#

参考文献#