X-Cache:小鹏自动驾驶世界模型的推理加速 Infra

引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 小鹏汽车的 X-World 世界模型已进入闭环仿真、在线强化学习和数据生成等生产流程,用于 VLA 2.0 的研发与验证。但一个根本性瓶颈横亘在前: 推理太慢了。 世界模型的工作模式是自回归的:每生成一段未来画面 → 策略模型观察后输出动作 → 世界模型继续响应下一段。这个交互链路如果每一环都要等几十秒,闭环效率将无法支撑规模化训练和实时评测。 X-Cache 正是针对这一瓶颈提出的 training-free 推理加速方案:在 DiT(Diffusion Transformer)block 层面 实现跨段缓存复用,达到 2.6~2.7 倍壁钟加速、~71% block skip rate,同时保持 SSIM > 0.9990 的极低画质损失。 本文将从问题动机、核心技术架构、工程设计细节三个维度进行深度解析。 一、为什么传统扩散缓存不适用于世界模型 1.1 传统扩散缓存的假设 现有视频扩散模型的推理加速主要沿 denoising step 轴做缓存——即复用相邻去噪步骤之间的中间特征。其核心假设是: 相邻 step t 与 t−1 的 latent 表示高度相似 ⟹ 可复用\text{相邻 step } t \text{ 与 } t-1 \text{ 的 latent 表示高度相似} \implies \text{可复用}这在标准的 DDPM / DDIM 采样流程中效果显著,因为这些采样器通常需要 50~1000 步去噪,步间冗余极为丰富。 ...

May 7, 2026 · 4 min read · LexHsu