Multimodal

引言：一个被忽视的根本性瓶颈给 GPT-5.4 一张密集人群照片，问「图里有多少人」——它很可能数错。给 Claude Sonnet 4.6 一张复杂电路图，问空间位置关系——回答往往语焉不详、前后矛盾。这不是感知问题。这些模型的视觉编码器分辨率足够高，能看清每一个细节。真正的问题出在推理过程中——当模型试图用自然语言构建思维链（Chain-of-Thought）时，「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确定位目标对象，导致注意力逐渐漂移（drift）。 DeepSeek 联合北京大学、清华大学最新发表的 “Thinking with Visual Primitives”（以下简称 TVPrimitives）直击这一根本性痛点。论文将上述现象形式化为 Reference Gap（指代鸿沟）——区别于业界长期关注的 Perception Gap（感知鸿沟），指代鸿沟指的是模型在推理过程中无法精确指代视觉对象的能力缺失。核心命题：不是让模型「看更多」，而是让模型「指更准」。论文的核心方案简洁而优雅：将坐标（point）和边界框（bounding box）作为一种新的思维原语（visual primitives），像文字一样穿插在思维链输出中。当模型说「找到一只熊」时，它同时输出 [[452,23,804,411]] 这样的坐标锚点——就像人类数东西时会不自觉地用手指逐个点过去一样。实验结果令人瞩目：在迷宫导航任务上，TVPrimitives 以 66.9% 的准确率领先 GPT-5.4（50.6%）、Gemini-3-Flash（49.4%）和 Claude Sonnet 4.6（48.9%）达 17 个百分点以上；在路径追踪任务上领先次优模型 10 个百分点；在计数任务 Pixmo-Count 上也取得了 SOTA（89.2%）。本文将从问题定义、技术架构、训练工程、实验结果四个维度进行深度解析，并讨论该范式对多模态推理研究的更广泛意义。一、从感知鸿沟到指代鸿沟 1.1 两类鸿沟的区分多模态大模型（MLM）的能力缺陷长期以来被笼统地归因于「看得不够清楚」。TVPrimitives 论文首次系统性地将这一问题拆解为两个正交维度：鸿沟类型定义典型表现传统解决思路 Perception Gap（感知鸿沟）视觉编码器无法捕捉足够细粒度的图像信息小目标检测失败、低对比度区域丢失、文字识别错误提高输入分辨率、动态分块（dynamic patching）、多尺度特征融合 Reference Gap（指代鸿沟）推理过程中语言指代的歧义性导致注意力漂移计数重复/遗漏、空间关系判断矛盾、密集场景对象混淆此前无有效通用方案感知鸿沟是输入端的问题——信息没有进入模型；指代鸿沟则是推理端的问题——信息进入了模型，但在多步推理的中间过程中「丢失了对应关系」。 1.2 一个直观类比想象向一个看不见屏幕的朋友描述棋盘布局：「左边那个棋子要吃掉中间偏右一点那个棋子」对方完全不知道你在说哪两颗——这就是 Reference Gap。 ...