引言:世界模型的 Infra 瓶颈

自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施

小鹏汽车的 X-World 世界模型已进入闭环仿真、在线强化学习和数据生成等生产流程,用于 VLA 2.0 的研发与验证。但一个根本性瓶颈横亘在前:

推理太慢了。

世界模型的工作模式是自回归的:每生成一段未来画面 → 策略模型观察后输出动作 → 世界模型继续响应下一段。这个交互链路如果每一环都要等几十秒,闭环效率将无法支撑规模化训练和实时评测。

X-Cache 正是针对这一瓶颈提出的 training-free 推理加速方案:在 DiT(Diffusion Transformer)block 层面 实现跨段缓存复用,达到 2.6~2.7 倍壁钟加速~71% block skip rate,同时保持 SSIM > 0.9990 的极低画质损失。

本文将从问题动机、核心技术架构、工程设计细节三个维度进行深度解析。


一、为什么传统扩散缓存不适用于世界模型

1.1 传统扩散缓存的假设

现有视频扩散模型的推理加速主要沿 denoising step 轴做缓存——即复用相邻去噪步骤之间的中间特征。其核心假设是:

相邻 step t 与 t1 的 latent 表示高度相似    可复用\text{相邻 step } t \text{ 与 } t-1 \text{ 的 latent 表示高度相似} \implies \text{可复用}

这在标准的 DDPM / DDIM 采样流程中效果显著,因为这些采样器通常需要 50~1000 步去噪,步间冗余极为丰富。

1.2 少步蒸馏后的结构性变化

然而,面向生产部署的世界模型普遍采用了 few-step distillation 技术(如 Consistency Models、Progressive Distillation),将去噪步数压缩到 4~8 步甚至更少。这带来两个关键变化:

维度多步场景 (50+ steps)少步场景 (4-8 steps)
每步承担的更新量小(渐进式细化)大(一步到位)
跨步冗余度急剧下降
传统缓存收益显著微乎其微

换句话说,少步蒸馏挤掉了跨步冗余的空间

1.3 X-Cache 的关键洞察

X-Cache 的核心洞察是:跨步冗余虽然被压缩了,但跨段冗余依然存在。

这里的「段」(chunk)指的是自回归生成中的连续视频片段。物理世界的连续性决定了:

车向前开一秒 → 场景不会突变。远处的楼还在那里,车道线只是平移了几像素,路边的树还是那棵树。

这种跨 chunk 的结构连续性不依赖去噪轨迹的邻近性,而是来自物理世界的本质属性——因此不受蒸馏步数的影响。

1
2
3
4
5
6
7
传统缓存轴 vs X-Cache 缓存轴:

传统:  step_1 ──→ step_2 ──→ step_3 ──→ ... ──→ step_T   (沿时间步)
        [缓存]    [复用]     [复用]

X-Cache: chunk_1 ──→ chunk_2 ──→ chunk_3 ──→ ... ──→ chunk_N  (沿序列块)
           [全算]      [~71%跳过]    [~71%跳过]

二、X-Cache 五层架构

X-Cache 是一套精心设计的分层系统,从底层的 residual cache 到高层的 safety mechanism,共五层协同工作。

2.1 第一层:Per-Block Residual Cache

核心机制

对于多块 Causal DiT 中的第 bb 个 Transformer block,在第 nn 个 generation chunk、第 tt 个 denoising step 上,标准的前向传播为:

zt(n,b)=zt(n,b1)+DiTb(zt(n,b1),c)z_{t}^{(n,b)} = z_{t}^{(n,b-1)} + \text{DiT}_b(z_{t}^{(n,b-1)}, c)

其中 cc 为条件向量(包含 timestep embedding、action vector、text embedding 等)。定义 block residual 为:

rb(n,t)=DiTb(zt(n,b1),c)r_{b}^{(n,t)} = \text{DiT}_b(z_{t}^{(n,b-1)}, c)

X-Cache 在每个 (b,t)(b, t) 位置维护一个持久化的 residual cache:当第 nn 个 chunk 的某个 block 完整计算后,将其 residual 存入缓存;当处理第 n+1n+1 个 chunk 时,如果门控判断允许跳过,则直接复用:

z^t(n+1,b)=zt(n+1,b1)+rbcached\hat{z}_{t}^{(n+1, b)} = z_{t}^{(n+1, b-1)} + r_{b}^{\text{cached}}

关键区别于传统 KV cache:X-Cache 缓存的是 block 的计算增量(residual)而非中间表示(KV),这使得缓存可以在不同 input latent 之间安全复用。

2.2 第二层:Structure & Action-Aware Fingerprint

要决定是否跳过一个 block,首先需要一个可靠的相似性度量。X-Cache 设计了一种专门适配多相机驾驶场景的 fingerprint 机制:

3D Grid Subsampling

不同于 flatten 后在一维 token 轴上均匀采样的朴素做法,X-Cache 直接在 latent 的三维时空网格 (T,H,W)(T, H, W) 上按固定比例取点:

Fbn=Subsample(zt=0(n,b),sT:sH:sW)F_b^n = \text{Subsample}(z_{t=0}^{(n,b)}, s_T:s_H:s_W)

这种方式保留了空间局部性和时序连续性,更适合检测场景中物体的位置漂移而非全局统计偏移。

Multi-Camera Grouping

七路相机被分为 front / side / rear 三组分别计算 fingerprint。这是因为:

  • Front camera 承载最多的语义信息(车道线、交通标志、前方车辆)
  • Side camera 主要负责侧向障碍物
  • Rear camera 变化最慢(车后方场景相对稳定)

分组计算使 fingerprint 能捕捉到视角特定的变化模式

Dual Channel Fingerprint

最终指纹由两个通道组成:

通道输入捕捉的信息
Global ChannelBlock input token 的均值整体 latent 分布漂移(光照、天气渐变)
Condition Channel当前 chunk 的 action vector动作意图的变化(转向/刹车/加速)

引入 Condition Channel 的动机值得展开:自动驾驶世界模型是 action-conditioned 的,action 通过 adaLN-Zero 机制注入每个 DiT block。如果 fingerprint 仅看 block input,动作变化的效应可能要到后续 block 才显现出来,导致门控判断滞后。将 action vector 直接纳入 fingerprint 解决了这个问题。

2.3 第三层:Dual-Metric Gating

有了指纹之后,需要决策引擎来判断是否跳过。X-Cache 采用双指标联合判决

Metric 1: Cosine Similarity(余弦相似度)

scos(Fbn,Fbn+1)=FbnFbn+1FbnFbn+1s_{\cos}(F_b^{n}, F_b^{n+1}) = \frac{F_b^{n} \cdot F_b^{n+1}}{\|F_b^{n}\| \|F_b^{n+1}\|}

衡量整体方向一致性。值接近 1 说明两段的 block input 在高维空间中指向相近方向。

Metric 2: Maximum Token Deviation(最大 token 偏差)

dmax(Fbn,Fbn+1)=maxiFb,inFb,in+1d_{\max}(F_b^{n}, F_b^{n+1}) = \max_i |F_{b,i}^{n} - F_{b,i}^{n+1}|

衡量局部最大异常变化

Skip Decision 规则

只有当两个条件同时满足时才跳过该 block:

skipb=I[scos>τcos]I[dmax<τdev]\text{skip}_b = \mathbb{I}[s_{\cos} > \tau_{\cos}] \land \mathbb{I}[d_{\max} < \tau_{dev}]

双指标的必要性来自自动驾驶的特殊场景:局部突变频繁发生。侧方突然出现车辆、路口行人横穿、某个相机视角内有大运动物体进入——这些情况下整体 cosine similarity 可能仍然很高(因为大多数 spatial location 未变),但局部偏差已经超标。Maximum deviation 就是给这些局部异常事件留的一根保险丝。

2.4 第四层:Adaptive Threshold(自适应阈值)

全局固定阈值在不同场景下表现不一致。X-Cache 为每个 (t,b)(t, b) 位置维护一个 EMA(指数移动平均)

sˉt,b(n)=αscos(n)+(1α)sˉt,b(n1)\bar{s}_{t,b}^{(n)} = \alpha \cdot s_{\cos}^{(n)} + (1 - \alpha) \cdot \bar{s}_{t,b}^{(n-1)}

阈值动态调整为 EMA 的函数:

τt,b(n)=f(sˉt,b(n))\tau_{t,b}^{(n)} = f(\bar{s}_{t,b}^{(n)})

这意味着:

Block 类型行为效果
长期稳定(如背景天空区域)EMA 持续高位 → 阈值放宽更激进地跳过
高度变化(如前景车辆区域)EMA 波动大 → 阈值收紧保持保守

无需额外的 compute budget controller,系统自然形成稳定的 compute profile

2.5 第五层:KV Update Chunk Protection(安全冗余层)

这是 X-Cache 最具工程洞察的设计之一。

问题:误差级联风险

自回归视频扩散模型采用 rolling KV cache 策略:每生成完一个 chunk 后,模型会用完全去噪后的 clean latent 再跑一次前向,计算 key-value projection 并写入持久化的 KV cache。未来所有后续 chunk 都会 attend 到这些历史 KV 条目。

如果某个写入 KV 的 chunk 使用了 cached(近似)residual 而非精确计算,近似误差将被永久编码进 KV cache,并在所有后续 chunk 中持续放大——形成误差级联(error cascade)

保护机制

X-Cache 引入 KV Update Chunk Identification:识别出哪些 chunk 会触发 KV cache 写入操作,对这些 chunk 无条件强制 full computation

is_kv_update(n)    b:skipb(n)=False\text{is\_kv\_update}(n) \implies \forall b: \text{skip}_b^{(n)} = \text{False}

这就像自动驾驶系统中的安全冗余设计:平时可以用轻量计算提速,但凡涉及长期状态记忆、闭环反馈路径的底层条件,必须回到精确计算。


三、实验验证

3.1 实验配置

项目配置
基座模型X-World(生产级多相机动作条件驾驶世界模型)
测试集训练分布内 internal held-out split
测试时长22 秒 clip
测试场景Urban Street / Highway / U-turn

3.2 核心性能指标

场景DiT 加速倍数Skip RatePSNR (7-cam avg)SSIMLPIPS↓
Urban Street2.65×71.3%51–55 dB> 0.9990< 4×10⁻⁴
Highway2.66×71.5%51–55 dB> 0.9990< 4×10⁻⁴
U-turn2.70×71.6%51–55 dB> 0.9990< 4×10⁻⁴

3.3 关键发现

最值得注意的是稳定性:

  • 三个场景的 skip rate 差异仅 0.3 个百分点
  • U-turn 场景并未出现明显掉速——因为真正的大转向只占部分时间,且运动模糊降低了高频像素域的误差敏感度
  • PSNR 始终保持在 51–55 dB 区间,表明重建质量几乎无损

3.4 与其他加速路线的关系

X-Cache 不是替代其他加速手段,而是与之正交互补:

技术路线加速维度与 X-Cache 的关系
Few-step distillation减少去噪步数✅ 兼容(X-Cache 不影响蒸馏过程)
Latent-space world model降低分辨率/通道数⚠️ 可能改变 block 冗余特征
Token pruning减少序列长度✅ 可叠加
Kernel optimization / FlashAttention单算子优化✅ 可叠加(底层加速 × 缓存加速)
Hardware compilation算子融合/硬件映射✅ 可叠加

真正可部署的系统大概率是多种 Infra 技术叠出来的组合拳。


四、讨论:从 Demo 到 Infra

4.1 行业信号

X-Cache 的发布传递了一个重要信号:世界模型正在进入 Infra 深度优化的阶段

过去业界讨论世界模型,注意力容易被生成效果吸引——视频有多逼真、可控性有多强。但在当前阶段,工程化价值可能更值得关注

这就像你做了一个很强的驾驶考场,但每一道题要等几十秒才能刷新。考场再真实,也很难支撑规模化训练和评测。

4.2 自动驾驶世界模型的特殊约束

X-Cache 与通用视频生成的推理加速存在本质差异:

维度通用视频生成 CacheX-Cache(驾驶世界模型)
误差容忍度当前帧稍模糊可接受误差写入历史 KV → 变成未来条件
优化目标图像质量最大化闭环系统稳定性
因果约束无严格因果依赖必须等待 policy 输出 action
并行化潜力支持 sequence-level parallelization❌ 不能预知未来 action

这些约束使得驾驶世界模型的推理优化比纯视觉任务更具挑战性——也更有工程价值。

4.3 已知局限性与未来方向

局限方面内容
测试范围仅 22 秒 clip,训练分布内数据
未覆盖场景更长 horizon、夜间、恶劣天气、激进驾驶
阈值校准分布外场景下 EMA threshold 需重新 warm-up

四大待探索方向:

  1. 长时序闭环:复杂路口(连续变道、拥堵博弈、施工绕行)的错误可能数十秒后才积累爆发
  2. Policy-in-the-Loop:真实闭环中 policy 会根据生成画面反向改变动作,形成更强的反馈耦合
  3. 分布外鲁棒性:高速急刹、鬼探头、恶劣天气下 cross-chunk redundancy 会下降,gating 需足够灵敏
  4. 多技术融合:X-Cache + distillation + pruning + kernel optimization 的联合优化

五、总结

X-Cache 的方法论可以浓缩为一句话:

当跨步冗余被蒸馏压缩殆尽时,回到物理世界的本源——跨段连续性——寻找新的可复用性。

这不是一个复杂的想法,但其工程实现的精致程度令人印象深刻:五层架构层层递进,从 per-block residual cache 的基础能力,到 dual-metric gating 的精细控制,再到 adaptive threshold 的自我调节,最后以 KV update protection 作为兜底的安全网。每一层都在回答一个具体的 what-if 问题——如果指纹不够准确怎么办?如果全局阈值不适合局部怎么办?如果缓存误差污染了长期状态怎么办?

对于正在构建或评估世界模型系统的团队来说,X-Cache 提供了一个即插即用的 training-free 加速方案,也展示了一套值得借鉴的推理优化设计哲学:在加速与精度之间,不是简单的 trade-off,而是通过深入理解应用领域的物理特性,找到结构性的免费午餐


参考文献

  • Zeng, Y. et al., 2026. “X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference.” arXiv:2604.20289. PDF
  • 小鹏 AI Infra Team, 2026. 「小鹏又一篇 X-Cache,开始补世界模型最硬的 Infra 拼图」自动驾驶之心.
  • 小鹏汽车, 2026. “X-World: A Production-Grade Multi-Camera Action-Conditioned Driving World Model.” Technical Report.
  • Wayve, 2026. “GAIA-2: A Multimodal World Model for Autonomous Driving.” Technical Report.
  • Waymo, 2025. “A World Model for End-to-End Autonomous Driving.” CVPR 2025.