X-Foresight:长时 chunk-wise AR 把世界模型嵌进 VLA 主干

X-Foresight(PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08)是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象,X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练,让同一张网络同时输出 chunk-wise 未来视频和 ego action,跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...

2026年6月9日 · 20 分钟 · LexHsu

Dense Latent Predictive Supervision in AD VLA:为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone?打开任一篇 NAVSIM 93 PDMS 一档的 paper:监督信号是未来 12-16 个 (x,y)(x, y) waypoints,一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert(典型 500M),总可学习参数 2.5B 量级。 ...

2026年5月24日 · 16 分钟 · LexHsu

X-World:小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言:从 Vista / DriveDreamer 到 X-World 的鸿沟 驾驶世界模型这两年的论文非常密集,但把它们摆到一起,会发现一条很尴尬的分水岭:左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率;DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成;MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入;MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西:7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

2026年5月20日 · 26 分钟 · LexHsu

自动驾驶世界模型 × Action:六范式在 NAVSIM 上的落地与跨域对偶

引言 上一篇 从预测未来到驱动行动:机器人世界模型的架构与评测 以 NTU/UC Berkeley/Stanford 联合综述为底本,把世界模型与策略的耦合方式归纳为六个范式:解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇:把同一套理论骨架带到自动驾驶,看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。 ...

2026年5月19日 · 19 分钟 · LexHsu

4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视

引言:4D 输入与 VLA 序列瓶颈的矛盾 自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token,乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理(约 100 ms 预算)和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

2026年5月17日 · 20 分钟 · LexHsu

从预测未来到驱动行动:机器人世界模型的架构与评测

引言 在本系列前作中,V-JEPA 2.1 在潜在空间中做语义预测 [1],Wan2.2 在像素空间中渲染视觉上合理的未来 [2],VGGT 从 2D 观测中逆推 3D 几何 [3],DA3 把空间结构蒸馏为逐像素深度 [4],Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5],2D 到 4D 综述梳理了视觉基模的几何觉醒 [6],DINOv3 展示了自监督规模化对 dense feature 的突破 [7],X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开,回答的都是表征侧的问题:世界模型应该长什么样。 ...

2026年5月15日 · 14 分钟 · LexHsu

X-Cache:小鹏自动驾驶世界模型的推理加速 Infra

引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...

2026年3月28日 · 10 分钟 · LexHsu

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机:传统几何重建在什么地方失效 一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声,IMU 漂移开始累积,前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题:相机相对于隧道结构的位姿是什么?前方 30 米处那个反射点距离车头多远? ...

2026年3月21日 · 17 分钟 · LexHsu

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览:14B MoE DiT + Flow Matching + 3D VAE,详见 Wan2.2 GitHub 1. 承诺:视频生成即世界模拟 当 OpenAI 在 2024 年初发布 Sora 时,其叙事框架经过了精心设计:这不仅仅是一个视频生成器,而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段,物体以合理的方式碰撞和变形,镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型,在某种层面上,必然理解世界是如何运作的。 ...

2026年3月14日 · 27 分钟 · LexHsu

从 2D 到 4D:视觉表征的本体论问题

文章定位 本文讨论 4D 视觉表征的本体论问题:什么是 4D?为什么 4D 是 world model 的关键?spatial-temporal joint vs decoupled 在表征空间几何上意味着什么?这些问题既不能从单个 paper 推出,也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...

2026年3月7日 · 11 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次