VLM | Xu'Blog

ATLAS：视觉推理的动作词表

引言：模型什么时候需要画一条线几何题里的辅助线很少出现在题目里，却经常决定整道题能不能解出来。计数题里，先把候选目标圈出来，再逐个排除，比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似：判断猫有没有碰到杯子，视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...

VLM 时序记忆机制：从视频压缩到长短时记忆融合

引言视觉语言模型（VLM）在处理单帧图像上已趋于成熟，但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知，还是具身智能中的长任务执行，核心挑战都在于：如何在不引爆 token 预算的前提下，保留对决策真正有价值的时序信息。 ...

代码即感知：当大模型「看得懂代码」才是攻克理科题的钥匙

引言多模态大语言模型（MLLM）在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像，模型往往能给出看似合理的推理步骤，却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

DeepSeek 以视觉原语思考：让多模态大模型学会「用手指着推理」

引言：一个尚未命名的瓶颈给一张密集人群照片到任意 frontier 多模态模型，问「图里有多少人」，错误率会显著高于稀疏场景；给一张复杂电路图问空间位置关系，答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高，能看清每个细节。一个被反复观察到但很少被独立分析的现象是：模型在用自然语言构建多步思维链时，「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标，注意力随推理步数累积漂移。 ...

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...