ATLAS:视觉推理的动作词表
引言:模型什么时候需要画一条线 几何题里的辅助线很少出现在题目里,却经常决定整道题能不能解出来。计数题里,先把候选目标圈出来,再逐个排除,比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似:判断猫有没有碰到杯子,视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...
引言:模型什么时候需要画一条线 几何题里的辅助线很少出现在题目里,却经常决定整道题能不能解出来。计数题里,先把候选目标圈出来,再逐个排除,比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似:判断猫有没有碰到杯子,视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...
引言 视觉语言模型(VLM)在处理单帧图像上已趋于成熟,但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知,还是具身智能中的长任务执行,核心挑战都在于:如何在不引爆 token 预算的前提下,保留对决策真正有价值的时序信息。 ...
引言 多模态大语言模型(MLLM)在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像,模型往往能给出看似合理的推理步骤,却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...
引言:一个尚未命名的瓶颈 给一张密集人群照片到任意 frontier 多模态模型,问「图里有多少人」,错误率会显著高于稀疏场景;给一张复杂电路图问空间位置关系,答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高,能看清每个细节。一个被反复观察到但很少被独立分析的现象是:模型在用自然语言构建多步思维链时,「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标,注意力随推理步数累积漂移。 ...
Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...