X-Cache:小鹏自动驾驶世界模型的推理加速 Infra

引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 小鹏汽车的 X-World 世界模型已进入闭环仿真、在线强化学习和数据生成等生产流程,用于 VLA 2.0 的研发与验证。但一个根本性瓶颈横亘在前: 推理太慢了。 世界模型的工作模式是自回归的:每生成一段未来画面 → 策略模型观察后输出动作 → 世界模型继续响应下一段。这个交互链路如果每一环都要等几十秒,闭环效率将无法支撑规模化训练和实时评测。 X-Cache 正是针对这一瓶颈提出的 training-free 推理加速方案:在 DiT(Diffusion Transformer)block 层面 实现跨段缓存复用,达到 2.6~2.7 倍壁钟加速、~71% block skip rate,同时保持 SSIM > 0.9990 的极低画质损失。 本文将从问题动机、核心技术架构、工程设计细节三个维度进行深度解析。 一、为什么传统扩散缓存不适用于世界模型 1.1 传统扩散缓存的假设 现有视频扩散模型的推理加速主要沿 denoising step 轴做缓存——即复用相邻去噪步骤之间的中间特征。其核心假设是: 相邻 step t 与 t−1 的 latent 表示高度相似 ⟹ 可复用\text{相邻 step } t \text{ 与 } t-1 \text{ 的 latent 表示高度相似} \implies \text{可复用}这在标准的 DDPM / DDIM 采样流程中效果显著,因为这些采样器通常需要 50~1000 步去噪,步间冗余极为丰富。 ...

May 7, 2026 · 4 min read · LexHsu

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

The ability to simulate a 4D world — one that evolves in time and can be viewed from arbitrary perspectives — is a foundational capability for autonomous driving, robotics, and embodied AI. Existing video generation models produce visually compelling sequences but lack spatial consistency when the camera moves. 3D reconstruction methods achieve geometric fidelity but struggle with dynamic scenes and real-time performance. InSpatio-World bridges this gap through a spatiotemporal autoregressive (STAR) architecture that combines the strengths of both paradigms. ...

April 20, 2025 · 7 min read · LexHsu