Qwen-VLA 解读:T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA(Qwen Team,arXiv:2605.30280,2026-05-28 v1)把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合;真正想清楚的设计在训练侧:四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来,T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT,让动作分布的语言索引在视觉介入之前就学完。 ...

2026年5月28日 · 16 分钟 · LexHsu

ATLAS:视觉推理的动作词表

引言:模型什么时候需要画一条线 几何题里的辅助线很少出现在题目里,却经常决定整道题能不能解出来。计数题里,先把候选目标圈出来,再逐个排除,比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似:判断猫有没有碰到杯子,视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...

2026年5月21日 · 12 分钟 · LexHsu

X-World:小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言:从 Vista / DriveDreamer 到 X-World 的鸿沟 驾驶世界模型这两年的论文非常密集,但把它们摆到一起,会发现一条很尴尬的分水岭:左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率;DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成;MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入;MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西:7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

2026年5月20日 · 25 分钟 · LexHsu

代码即感知:当大模型「看得懂代码」才是攻克理科题的钥匙

引言 多模态大语言模型(MLLM)在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像,模型往往能给出看似合理的推理步骤,却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

2026年5月2日 · 11 分钟 · LexHsu

ReflectDrive-2:理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言:离散扩散 + 端到端驾驶 = 新范式? 2025-2026 年,端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。 自回归(AR)派以 GPT-driver 和 VLA 系列为代表,token-by-token 顺序输出轨迹,串行解码慢,端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表,在连续空间去噪生成轨迹,但通常需要额外的 anchor 或 goal 系统辅助,破坏了原始数据分布。 ...

2026年4月25日 · 19 分钟 · LexHsu

凯明的方法论:从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来 何恺明(Kaiming He)的论文有一种一眼能认出的辨识度。 这种辨识度并非来自文风。他的论文写作并不华丽,公式不多,章节短,图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度,但每一次削减都站在一个更深的先验(prior)上,因此不构成 cheating。 ...

2026年4月18日 · 21 分钟 · LexHsu

DeepSeek 以视觉原语思考:让多模态大模型学会「用手指着推理」

引言:一个尚未命名的瓶颈 给一张密集人群照片到任意 frontier 多模态模型,问「图里有多少人」,错误率会显著高于稀疏场景;给一张复杂电路图问空间位置关系,答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高,能看清每个细节。一个被反复观察到但很少被独立分析的现象是:模型在用自然语言构建多步思维链时,「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标,注意力随推理步数累积漂移。 ...

2026年4月4日 · 19 分钟 · LexHsu

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

2026年3月21日 · 12 分钟 · LexHsu

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机:传统几何重建在什么地方失效 一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声,IMU 漂移开始累积,前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题:相机相对于隧道结构的位姿是什么?前方 30 米处那个反射点距离车头多远? ...

2026年3月21日 · 17 分钟 · LexHsu

Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基:深度为何是世界模型的基石 一个无法度量距离的世界模型,也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时,决策的核心依赖于一个几何量:与前方障碍物的距离。当机械臂伸手去拿咖啡杯时,运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时,大脑持续估计球的距离和速度以计算拦截点。在每一个例子中,支配行动的物理推理都锚定在几何之上,而几何始于深度。 ...

2026年2月7日 · 24 分钟 · LexHsu
访客 704 人次 · 访问 1065 次