Paper-Reading

Qwen-VLA 解读：T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA（Qwen Team，arXiv:2605.30280，2026-05-28 v1）把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合；真正想清楚的设计在训练侧：四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来，T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT，让动作分布的语言索引在视觉介入之前就学完。 ...

ATLAS：视觉推理的动作词表

引言：模型什么时候需要画一条线几何题里的辅助线很少出现在题目里，却经常决定整道题能不能解出来。计数题里，先把候选目标圈出来，再逐个排除，比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似：判断猫有没有碰到杯子，视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...

X-World：小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言：从 Vista / DriveDreamer 到 X-World 的鸿沟驾驶世界模型这两年的论文非常密集，但把它们摆到一起，会发现一条很尴尬的分水岭：左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率；DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成；MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入；MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西：7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

代码即感知：当大模型「看得懂代码」才是攻克理科题的钥匙

引言多模态大语言模型（MLLM）在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像，模型往往能给出看似合理的推理步骤，却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

ReflectDrive-2：理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言：离散扩散 + 端到端驾驶 = 新范式？ 2025-2026 年，端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。自回归(AR)派以 GPT-driver 和 VLA 系列为代表，token-by-token 顺序输出轨迹，串行解码慢，端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表，在连续空间去噪生成轨迹，但通常需要额外的 anchor 或 goal 系统辅助，破坏了原始数据分布。 ...

凯明的方法论：从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来何恺明（Kaiming He）的论文有一种一眼能认出的辨识度。这种辨识度并非来自文风。他的论文写作并不华丽，公式不多，章节短，图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度，但每一次削减都站在一个更深的先验（prior）上，因此不构成 cheating。 ...

DeepSeek 以视觉原语思考：让多模态大模型学会「用手指着推理」

引言：一个尚未命名的瓶颈给一张密集人群照片到任意 frontier 多模态模型，问「图里有多少人」，错误率会显著高于稀疏场景；给一张复杂电路图问空间位置关系，答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高，能看清每个细节。一个被反复观察到但很少被独立分析的现象是：模型在用自然语言构建多步思维链时，「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标，注意力随推理步数累积漂移。 ...

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机：传统几何重建在什么地方失效一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声，IMU 漂移开始累积，前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题：相机相对于隧道结构的位姿是什么？前方 30 米处那个反射点距离车头多远？ ...

Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基：深度为何是世界模型的基石一个无法度量距离的世界模型，也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时，决策的核心依赖于一个几何量：与前方障碍物的距离。当机械臂伸手去拿咖啡杯时，运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时，大脑持续估计球的距离和速度以计算拦截点。在每一个例子中，支配行动的物理推理都锚定在几何之上，而几何始于深度。 ...