Inference

引言：世界模型的 Infra 瓶颈自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA（Vision-Language-Action）系统。在这个新范式中，世界模型（World Model）正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。小鹏汽车的 X-World 世界模型已进入闭环仿真、在线强化学习和数据生成等生产流程，用于 VLA 2.0 的研发与验证。但一个根本性瓶颈横亘在前：推理太慢了。世界模型的工作模式是自回归的：每生成一段未来画面 → 策略模型观察后输出动作 → 世界模型继续响应下一段。这个交互链路如果每一环都要等几十秒，闭环效率将无法支撑规模化训练和实时评测。 X-Cache 正是针对这一瓶颈提出的 training-free 推理加速方案：在 DiT（Diffusion Transformer）block 层面实现跨段缓存复用，达到 2.6~2.7 倍壁钟加速、~71% block skip rate，同时保持 SSIM > 0.9990 的极低画质损失。本文将从问题动机、核心技术架构、工程设计细节三个维度进行深度解析。一、为什么传统扩散缓存不适用于世界模型 1.1 传统扩散缓存的假设现有视频扩散模型的推理加速主要沿 denoising step 轴做缓存——即复用相邻去噪步骤之间的中间特征。其核心假设是：相邻 step t 与 t−1 的 latent 表示高度相似 ⟹ 可复用\text{相邻 step } t \text{ 与 } t-1 \text{ 的 latent 表示高度相似} \implies \text{可复用}这在标准的 DDPM / DDIM 采样流程中效果显著，因为这些采样器通常需要 50~1000 步去噪，步间冗余极为丰富。 ...