Xu'Blog

Dense Latent Predictive Supervision in AD VLA：为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone？打开任一篇 NAVSIM 93 PDMS 一档的 paper：监督信号是未来 12-16 个 (x,y)(x, y) waypoints，一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert（典型 500M），总可学习参数 2.5B 量级。 ...

自动驾驶 VLA 的 3D 视觉表征：从能力边界到工程注入

引言：这篇为什么写写在前面：本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D：视觉表征的本体论问题》讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题；《4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视》用信息瓶颈五条件审计了九种 4D encoder 方案；《X-World：小鹏可控自车视角多相机世界模型》拆解了重型 latent video diffusion 的生成派世界模型路径；Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...

ATLAS：视觉推理的动作词表

引言：模型什么时候需要画一条线几何题里的辅助线很少出现在题目里，却经常决定整道题能不能解出来。计数题里，先把候选目标圈出来，再逐个排除，比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似：判断猫有没有碰到杯子，视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...

X-World：小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言：从 Vista / DriveDreamer 到 X-World 的鸿沟驾驶世界模型这两年的论文非常密集，但把它们摆到一起，会发现一条很尴尬的分水岭：左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率；DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成；MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入；MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西：7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

自动驾驶世界模型 × Action：六范式在 NAVSIM 上的落地与跨域对偶

引言上一篇从预测未来到驱动行动：机器人世界模型的架构与评测以 NTU/UC Berkeley/Stanford 联合综述为底本，把世界模型与策略的耦合方式归纳为六个范式：解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇：把同一套理论骨架带到自动驾驶，看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。 ...

Polar Express：用 Chebyshev 逼近把 Muon 的矩阵正交化提速一倍

在 Muon 优化器：矩阵正交化驱动的梯度更新中，我们建立了 msign 算子的数学骨架：把梯度矩阵 GG 投影到最近的正交矩阵 msign(G)=UVT\text{msign}(G) = UV^T，并用 Newton-Schulz 迭代避免完整的 SVD。这套方案已经在 Kimi K2 上实现了 2× 训练加速，但它有一个隐疾：Newton-Schulz 在矩阵奇异值跨度大时，前十几步几乎不动。 ...

为什么大扩散模型不会背诵训练数据：两个时间尺度的隐式正则化

2023 年 Carlini 等人做了一件让 Stable Diffusion 团队和版权律师同时紧张的事：他们用一种"提示词反演"的攻击方法，从 Stable Diffusion 中逐像素重建出了部分训练图像，包括有身份的人脸和受版权保护的画作 [Carlini et al. 2023, USENIX]。论文里一张攻击图与训练原图的对照让人发凉——大模型确实在"背诵"。 ...

4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视

引言：4D 输入与 VLA 序列瓶颈的矛盾自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token，乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理（约 100 ms 预算）和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

从预测未来到驱动行动：机器人世界模型的架构与评测

引言在本系列前作中，V-JEPA 2.1 在潜在空间中做语义预测 [1]，Wan2.2 在像素空间中渲染视觉上合理的未来 [2]，VGGT 从 2D 观测中逆推 3D 几何 [3]，DA3 把空间结构蒸馏为逐像素深度 [4]，Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5]，2D 到 4D 综述梳理了视觉基模的几何觉醒 [6]，DINOv3 展示了自监督规模化对 dense feature 的突破 [7]，X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开，回答的都是表征侧的问题：世界模型应该长什么样。 ...

VLA 语义下的导航信息注入：从 Prompt 到 Diffusion Condition

在自动驾驶轨迹规划中，导航信息回答了一个根本问题：车应该往哪走？没有它，模型只能对所有合理选项均匀采样——左转、直行、右转都可能出现。但这个问题的有趣之处在于导航信息是以什么形式、在模型的什么位置被注入和消费的。 ...