Qwen-VLA 解读:T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA(Qwen Team,arXiv:2605.30280,2026-05-28 v1)把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合;真正想清楚的设计在训练侧:四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来,T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT,让动作分布的语言索引在视觉介入之前就学完。 ...

2026年5月28日 · 16 分钟 · LexHsu

VLA 加几何 backbone 的负结果:GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队(Yang et al., arXiv:2605.24642)把 GR00T-N1.5(manipulation VLA)跟 VGGT(geometric foundation model)拼起来,做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果:standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著(p < 0.05)超过 GR00T baseline。 ...

2026年5月28日 · 14 分钟 · LexHsu

HiF-VLA:把 codec 副产品当成 VLA 的时间记忆

CVPR 2026 的 HiF-VLA(项目页 / 代码),西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事:往前用 VLM 直接预测未来 motion vectors,往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%,比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...

2026年5月27日 · 10 分钟 · LexHsu

ATLAS:视觉推理的动作词表

引言:模型什么时候需要画一条线 几何题里的辅助线很少出现在题目里,却经常决定整道题能不能解出来。计数题里,先把候选目标圈出来,再逐个排除,比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似:判断猫有没有碰到杯子,视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...

2026年5月21日 · 12 分钟 · LexHsu

代码即感知:当大模型「看得懂代码」才是攻克理科题的钥匙

引言 多模态大语言模型(MLLM)在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像,模型往往能给出看似合理的推理步骤,却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

2026年5月2日 · 11 分钟 · LexHsu

凯明的方法论:从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来 何恺明(Kaiming He)的论文有一种一眼能认出的辨识度。 这种辨识度并非来自文风。他的论文写作并不华丽,公式不多,章节短,图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度,但每一次削减都站在一个更深的先验(prior)上,因此不构成 cheating。 ...

2026年4月18日 · 21 分钟 · LexHsu

DeepSeek 以视觉原语思考:让多模态大模型学会「用手指着推理」

引言:一个尚未命名的瓶颈 给一张密集人群照片到任意 frontier 多模态模型,问「图里有多少人」,错误率会显著高于稀疏场景;给一张复杂电路图问空间位置关系,答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高,能看清每个细节。一个被反复观察到但很少被独立分析的现象是:模型在用自然语言构建多步思维链时,「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标,注意力随推理步数累积漂移。 ...

2026年4月4日 · 19 分钟 · LexHsu

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

2026年3月21日 · 12 分钟 · LexHsu

Qwen3.5 vs Qwen3: A Deep Architectural Comparison

Figure from Qwen3.5-Omni Technical Report 本文基于 Qwen3.5 官方技术文档及代码结构分析,系统梳理 Qwen3.5 相较于 Qwen3 在架构层面的代际演进。两者之间的差异远非简单的参数调优,而是在注意力机制、多模态融合方式、稀疏化策略和位置编码等多个维度上进行了根本性的设计重构。 ...

2026年3月7日 · 12 分钟 · LexHsu

CORAL:面向开放式发现的自主多Agent进化

引言 图片来自 CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discovery 开放式发现(Open-Ended Discovery)——在解空间缺乏清晰结构、评估可能代价高昂或信号稀疏的领域中搜索新颖且高质量的解——仍然是自动科学推理中最困难的挑战之一。与梯度或凸性可以引导搜索方向的约束优化不同,开放式问题要求持续的探索、部分洞察的积累,以及在进展停滞时重新调整方向的能力。数学猜想证明、系统级代码优化、组合设计等问题都属于这一范畴。 ...

2025年11月22日 · 16 分钟 · LexHsu
访客 704 人次 · 访问 1065 次