引言:一个被忽视的根本性瓶颈

给 GPT-5.4 一张密集人群照片,问「图里有多少人」——它很可能数错

给 Claude Sonnet 4.6 一张复杂电路图,问空间位置关系——回答往往语焉不详、前后矛盾

这不是感知问题。这些模型的视觉编码器分辨率足够高,能看清每一个细节。真正的问题出在推理过程中——当模型试图用自然语言构建思维链(Chain-of-Thought)时,「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确定位目标对象,导致注意力逐渐漂移(drift)。

DeepSeek 联合北京大学、清华大学最新发表的 “Thinking with Visual Primitives”(以下简称 TVPrimitives)直击这一根本性痛点。论文将上述现象形式化为 Reference Gap(指代鸿沟)——区别于业界长期关注的 Perception Gap(感知鸿沟),指代鸿沟指的是模型在推理过程中无法精确指代视觉对象的能力缺失。

核心命题:不是让模型「看更多」,而是让模型「指更准」。

论文的核心方案简洁而优雅:将坐标(point)和边界框(bounding box) 作为一种新的思维原语(visual primitives),像文字一样穿插在思维链输出中。当模型说「找到一只熊」时,它同时输出 [[452,23,804,411]] 这样的坐标锚点——就像人类数东西时会不自觉地用手指逐个点过去一样。

实验结果令人瞩目:在迷宫导航任务上,TVPrimitives 以 66.9% 的准确率领先 GPT-5.4(50.6%)、Gemini-3-Flash(49.4%)和 Claude Sonnet 4.6(48.9%)达 17 个百分点以上;在路径追踪任务上领先次优模型 10 个百分点;在计数任务 Pixmo-Count 上也取得了 SOTA(89.2%)。

本文将从问题定义、技术架构、训练工程、实验结果四个维度进行深度解析,并讨论该范式对多模态推理研究的更广泛意义。


一、从感知鸿沟到指代鸿沟

1.1 两类鸿沟的区分

多模态大模型(MLM)的能力缺陷长期以来被笼统地归因于「看得不够清楚」。TVPrimitives 论文首次系统性地将这一问题拆解为两个正交维度:

鸿沟类型定义典型表现传统解决思路
Perception Gap(感知鸿沟)视觉编码器无法捕捉足够细粒度的图像信息小目标检测失败、低对比度区域丢失、文字识别错误提高输入分辨率、动态分块(dynamic patching)、多尺度特征融合
Reference Gap(指代鸿沟)推理过程中语言指代的歧义性导致注意力漂移计数重复/遗漏、空间关系判断矛盾、密集场景对象混淆此前无有效通用方案

感知鸿沟是输入端的问题——信息没有进入模型;指代鸿沟则是推理端的问题——信息进入了模型,但在多步推理的中间过程中「丢失了对应关系」。

1.2 一个直观类比

想象向一个看不见屏幕的朋友描述棋盘布局:

「左边那个棋子要吃掉中间偏右一点那个棋子」

对方完全不知道你在说哪两颗——这就是 Reference Gap。

现有多模态模型的 CoT 推理过程本质上就在做这件事。自然语言的空间描述能力天生模糊:「左边的」「那个大的」「红色的圆形物体附近」——在包含 10+ 个对象的场景中,每个描述都可能匹配多个候选。随着推理步数增加,这种歧义性会累积放大:第一步的微小漂移会导致后续步骤的错误级联。

1.3 为什么坐标是自然的解法

人类在处理类似任务时的本能行为值得注意:我们会用手指或视线锚定目标对象。这不是事后标注——手指的动作和思维过程是同步发生的。坐标在推理链中的角色不是「答案的一部分」,而是消除歧义的认知工具

TVPrimitives 将这种直觉形式化:坐标和边界框不再仅仅是输出的格式,而是推理的基本单元(primitives of thought)


二、技术架构

2.1 模型基础

TVPrimitives 基于 DeepSeek V4-Flash 构建,这是一个 284B 总参数、推理时仅激活 13B 参数 的混合专家模型(MoE)。视觉编码器采用 DeepSeek 自研的 ViT(Vision Transformer),支持任意分辨率输入

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
┌─────────────────────────────────────────────┐
│              TVPrimitives 架构                │
├─────────────────────────────────────────────┤
│                                             │
│  输入图像 (任意分辨率)                         │
│       ↓                                     │
│  DeepSeek ViT (视觉 Transformer)              │
│       ↓                                     │
│  图像块 tokens (如 756×756 → 2916 patches)     │
│       ↓ 3×3 空间压缩                          │
│  324 tokens                                  │
│       ↓ CSA (Compressed Sparse Attention)     │
│  ~81 视觉 KV 条目 (最终视觉表示)               │
│       ↓                                     │
│  ┌─────────────────────────────┐             │
│  │   DeepSeek V4-Flash (284B)    │             │
│  │   MoE: 284B 总参数 / 13B 激活  │             │
│  └─────────────────────────────┘             │
│       ↓                                     │
│  输出: 文本 + <\|box\|> + <\|point\|> 原语     │
│                                             │
└─────────────────────────────────────────────┘

2.2 视觉原语:两种新的 Token

论文定义两种视觉原语作为推理过程的特殊 token:

边界框原语 <|box|>

用于需要定位和尺寸信息的场景(计数、空间问答、对象属性判断等):

1
2
3
4
扫描图片寻找熊,找到一只 <|ref|>熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>,
它正在爬树,不在地面上,排除。
再往左下看,找到另一只 <|ref|>熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>,
站在岩石边缘,符合条件。

点坐标原语 <|point|>

用于更抽象的空间指代(迷宫探索轨迹、曲线追踪路径、几何构造步骤等):

1
2
3
从入口<|point|>[120, 300]<|/point|>出发,
向东移动至<|point|>[200, 300]<|/point|>,
遇到墙壁,向南转向<|point|>[200, 380]<||point|>...

关键设计决策:这两种原语的输出是与文本生成同步交织的,而非推理完成后的独立标注模块。这意味着模型在生成每一步推理文本的同时,即时决定是否以及如何插入空间锚点。

2.3 7056 倍视觉压缩:CSA 机制

高分辨率的视觉输入如果直接送入 LLM,KV 缓存开销将是灾难性的。TVPrimitives 通过两阶段压缩实现了惊人的效率提升:

处理流程(以 756×756756 \times 756 图片为例):

756×756ViT patchify2916 patches3×3 空间池化324 tokensCSA×481 KV entries 756 \times 756 \xrightarrow{\text{ViT patchify}} 2916 \text{ patches} \xrightarrow{3\times3 \text{ 空间池化}} 324 \text{ tokens} \xrightarrow{\text{CSA} \times 4} \approx 81 \text{ KV entries}

整体压缩比:7056 倍

其中核心创新是 CSA(Compressed Sparse Attention)——一种压缩稀疏注意力机制,进一步将视觉 KV 缓存压缩约 4 倍。

与竞品的 KV 缓存条目对比(800×800800 \times 800 图片):

模型所需 KV 缓存条目
TVPrimitives(本模型)90\approx 90
Claude Sonnet 4.6870\approx 870
Gemini-3-Flash1100\approx 1100

这意味着在相同显存预算下,TVPrimitives 可以处理更多图像更长上下文窗口,这对批量推理和实际部署至关重要。

论文在这里给出了一个重要论断:精确的空间指代能力可以在一定程度上弥补视觉 token 不足的问题——模型不需要「看更多」,而需要「指更准」。这为高效多模态推理提供了一个与主流「更高分辨率/更多 token」方向互补的技术路径。


三、训练数据工程:4000 万样本的冷启动

高质量的多模态推理数据极度稀缺。TVPrimitives 从零构建了一套完整的数据合成管线,最终产出超过 4000 万条训练样本。

3.1 数据筛选漏斗

1
2
3
4
5
6
7
近 10 万个初始数据源
        ↓ 第一轮:语义审核(过滤无关/低质量内容)
    约 5 万个候选
        ↓ 第二轮:几何质量审核(验证空间标注可行性)
    约 3.17 万个高质量数据源
        ↓ 自动化标注 + 人工质检
  超过 4000 万条训练样本

3.2 四类专项任务设计

论文针对不同类型的空间推理能力设计了四类专项训练数据:

任务一:计数(Counting)

子类型特征训练策略
粗粒度计数「图里有多少人?」学习「批量锁定」策略——一次性框出所有候选对象再数
细粒度计数「穿蓝色衣服的人有几个?」学习逐一扫描、逐一核对属性的精细策略

两种策略对应不同的认知负荷模式,分别训练让模型学会自适应选择适合当前任务复杂度的计数方法。

任务二:空间推理与视觉 VQA

  • 大量利用 GQA 数据集(自然场景中的空间关系问答)
  • 利用 CLEVR 工具链(可控参数化合成场景,可精确控制对象数量、位置、属性)
  • 生成多跳推理样本(multi-hop reasoning),要求模型进行 3-5 步的递进式推理
  • 硬性约束:每一步推理必须用 <\|box\|> 锚定涉及的对象

任务三:迷宫导航(Maze Navigation)

这是最具挑战性的数据类型,也是 TVPrimitives 展示最大优势的任务:

指标数值
样本量46 万条
迷宫生成算法DFS(深度优先搜索)、Prim、Kruskal
迷宫拓扑结构矩形、圆形、六边形三种
特色设计「表面可解但实际无解」的迷宫

迷宫任务的训练数据有几个精巧的设计考量:

  1. 多种拓扑结构迫使模型学习通用的探索策略而非 memorize 特定形状的模式
  2. 故意设计的无解迷宫训练鲁棒性——模型需要在合理步数后学会「放弃并报告不可达」,而非无限循环
  3. 要求用 <\|point\|> 记录每一步探索轨迹,包括回溯时标记已排除路径——这模拟了真实的回溯搜索过程

任务四:路径追踪(Path Tracing)

指标数值/描述
样本量12.5 万条
任务描述给定多条贝塞尔(Bézier)曲线交叉图,追踪指定起点对应的曲线到终点
核心挑战交叉歧义消解——多条曲线在交叉点附近难以区分
反作弊设计所有曲线颜色相同(防止模型用颜色捷径)

这个任务专门针对连续空间的精确追踪能力——曲线交叉处的切线方向变化微妙,要求模型维持对目标曲线的高精度空间记忆。

3.3 训练流程:「先分家,再合体」

这是论文最精巧的工程设计之一。由于 box 和 point 两种原语的数据分布差异较大,直接联合训练可能导致互相干扰。论文采用了四阶段渐进式训练策略

flowchart TB
    subgraph Stage1["第一阶段: 专家化训练 (Specialized Training)"]
        direction LR
        A1[边界框数据 FTwG] --> A2[专家模型 G]
        A3[点坐标数据 FTwP] --> A4[专家模型 P]
    end

    subgraph Stage2["第二阶段: 强化学习 (GRPO RL)"]
        direction TB
        B1[GRPO 算法]
        B2[格式奖励 format]
        B3[质量奖励 LLM-as-judge]
        B4[精度奖励 task-specific]
        B1 --> B2
        B1 --> B3
        B1 --> B4
    end

    subgraph Stage3["第三阶段: 统一微调 (Unified RFT)"]
        C1[统一模型 F
从预训练模型重新初始化] end subgraph Stage4["第四阶段: 在线策略蒸馏"] D1[KL 散度最小化] D2["最终模型 F*"] end Stage1 --> Stage2 Stage2 --> Stage3 Stage3 --> Stage4

各阶段详解:

第一阶段 — 专家化训练:

  • 边界框专用数据 → 训练专家模型 FTwG(Fine-Tuned with Grounding)
  • 点坐标专用数据 → 训练专家模型 FTwP(Fine-Tuned with Points)
  • 目的:避免两种模态在数据量较少的早期训练阶段互相干扰(mode collapse)

第二阶段 — GRPO 强化学习: 采用 GRPO(Group Relative Policy Optimization) 算法——这是 DeepSeek 自研的强化学习算法,无需额外的 critic 模型,通过组内相对排序计算策略梯度,训练效率和稳定性优于 PPO。

三路并行奖励设计 是本阶段的亮点:

奖励类型实现方式典型应用
格式奖励正则表达式匹配输出是否符合 <|box|>/<|point|> 格式所有任务通用
质量奖励用 LLM(如 GPT-4)评判推理内容和最终答案是否一致通用
精度奖励任务特定的自动化指标因任务而异

精度奖励的设计尤其体现了工程上的精细化考量:

  • 计数任务:使用平滑指数衰减奖励(smooth exponential decay reward),而非简单的二值对错。如果真实答案是 5,预测 4 的奖励高于预测 3——提供更密集的学习信号
  • 迷宫任务:分解为五个子奖励:
    1. 因果探索进度:是否朝着目标方向推进
    2. 探索完整性:覆盖了多少未访问区域
    3. 穿墙惩罚:是否出现了不可能的移动(负向惩罚)
    4. 路径有效性:轨迹是否自洽(不反复横跳)
    5. 答案正确性:最终结论是否正确

第三阶段 — Unified RFT(统一强化微调):

  • 用两个专家模型(FTwG 和 FTwP)生成的 rollout 数据合并训练
  • 关键决策:从预训练模型重新初始化开始训练,而不是从一个 expert model 继续 fine-tune
  • 得到统一模型 F
  • 这样做的动机:防止模型继承某个专家模型的偏态分布

第四阶段 — On-Policy Distillation(在线策略蒸馏):

  • 弥合统一模型 F 与两个专家模型之间的性能差距
  • 让学生模型(F)自己生成 rollout
  • 最小化输出分布与专家分布之间的 KL 散度
  • 这一步的效果显著:论文报告蒸馏后模型在各类任务上平均提升 2-4 个百分点

四、实验结果与深度分析

4.1 评测基准

论文在 11 个基准测试 上进行了全面评估,涵盖四大能力维度:

能力维度代表性基准考察要点
计数能力Pixmo-Count, DS_Finegrained_Counting精确计数、属性条件计数
空间推理MIHBench, SpatialMQA空间关系判断、位置推理
拓扑推理DS_Maze_Navigation, DS_Path_Tracing连续空间导航、路径追踪
综合能力MMVQA, MMBench 等通用多模态理解

所有 frontier 模型均通过 API 评测,使用统一的提示词模板确保公平比较。

4.2 核心结果

计数任务

基准测试TVPrimitives最佳竞品竞品得分vs GPT-5.4vs Claude 4.6
Pixmo-Count(精确匹配)89.2%Gemini-3-Flash88.2%+12.6pp+20.5pp
DS_Finegrained_Counting88.7%Qwen3-VL87.2%

在计数任务上,TVPrimitives 不仅取得 SOTA,而且相比最接近的竞品优势明显。值得注意的是 GPT-5.4 和 Claude 4.6 这两款顶级模型在这个看似简单的基础任务上表现不佳(76.6% 和 68.7%)——这恰恰印证了论文关于 Reference Gap 的论断:模型越强并不意味着空间指代能力越好。

空间推理

基准测试TVPrimitives排名
MIHBench85.3%第 1 名
SpatialMQA69.4%第 1 名

在标准空间推理基准上,TVPrimitives 与头部模型持平或略有超越。

拓扑推理(最大亮点)

基准测试TVPrimitivesGPT-5.4Gemini-3-FlashClaude 4.6领先幅度
DS_Maze_Navigation66.9%50.6%49.4%48.9%+16.3pp
DS_Path_Tracing56.7%46.5%41.4%+10.2pp

这是全文最重要的实验结果。

所有 frontier 模型在拓扑推理任务上都只能答对一半左右(~50%)——这说明多模态大模型在需要连续空间操作的任务上存在系统性缺陷。TVPrimitives 将准确率提升到 66.9%,相对提升超过 32%

更有意义的是,这个差距不能用「模型规模」或「训练数据量」来解释——GPT-5.4 是目前最强的通用 LLM 之一,但它在迷宫导航上的表现并不比 Gemini-3-Flash(Google 的轻量级多模态模型)好多少。真正拉开差距的是推理范式的改变——引入视觉原语。

4.3 消融研究洞察

虽然论文正文未详细展开所有消融实验,但从架构设计和训练策略可以推断几个关键的消融维度:

  1. 视觉原语 vs 纯文本 CoT:核心对照实验,预计在拓扑推理任务上差距最大(15-20pp)
  2. CSA 压缩的影响:7056 倍压缩是否损失关键空间信息?论文通过 SOTA 结果间接证明了压缩策略的有效性
  3. 训练四阶段的必要性:跳过「先分家后合体」策略预计会导致性能下降(两类原语互相干扰)
  4. GRPO 奖励设计:平滑指数衰减奖励 vs 二值奖励在计数任务上的效果差异

五、讨论:超越指标的深层意义

5.1 对多模态推理范式的影响

TVPrimitives 的贡献不应只被理解为「在几个 benchmark 上拿了第一」。更深层的意义在于它提出了一个新的研究方向

主流努力方向 vs 本文方向:

主流方向TVPrimitives 方向
更大的模型参数规模更精准的指代机制
更高的输入分辨率坐标锚定的思维链
更多的训练数据(图文对)更高效的压缩与结构化推理
更强的视觉 encoder利用现有视觉能力的更好推理框架

这类似于在 NLP 领域中,从「更大的 language model」到「更好的 reasoning framework(如 CoT、ReAct、Tree-of-Thought)」的范式转移。TVPrimitives 表明,多模态领域可能正在经历类似的转折。

5.2 与相关工作的联系

与 grounding 方法的关系: 之前的研究(如 Kosmos-2、Shikra)也将边界框作为输出格式,但它们的 bbox 是事后的空间定位标注——模型先完成推理,再输出 bbox。TVPrimitives 的关键创新在于将 bbox 嵌入推理过程本身,使其成为思维链的组成部分。

与 LLM 推理增强技术的呼应: o1/o3 系列(OpenAI)和 DeepSeek-R1 已经证明,让 LLM 在输出答案前生成详细的推理过程可以大幅提升复杂问题的求解能力。TVPrimitives 将这一思想扩展到了多模态域:不仅用文本做 CoT,还用空间坐标来稳定多模态 CoT 的推理过程。

与神经符号方法的隐式关联: 坐标和边界框本质上是离散化的、非模糊的空间符号。TVPrimitives 可以被视为一种「软性的」神经符号混合方法——不需要显式的符号执行引擎,而是通过训练让 LLM 学会在适当时机「调用」这些空间符号。

5.3 已知局限性与未来方向

论文坦诚列出了三个主要局限:

局限描述可能的改进方向
触发词依赖当前模型需要明确的提示词才会启用视觉原语机制,还不能自主判断什么时候该「用手指」训练模型自主判断何时需要空间锚定的元学习能力
分辨率限制极细粒度场景中原语的位置精度偶尔不够与高分辨率感知方案(如动态分块、层级编码)结合
泛化能力有限用点坐标解决复杂跨场景拓扑问题时,泛化能力仍有限扩展训练数据的场景多样性;引入世界模型(world model)辅助空间预测

5.4 工程启示

对于实践者而言,TVPrimitives 提供了几个有价值的设计原则:

  1. 问题拆解 > 盲目堆算力:在投入更大模型之前,先检查推理过程的表征是否足够精确
  2. 训练策略需要精心设计:四阶段渐进式训练(专家化→强化→统一→蒸馏)比端到端的暴力训练更有效
  3. 奖励函数的设计质量决定了 RL 阶段的上限:迷宫任务的五子奖励分解展示了「任务特定知识」如何注入训练过程
  4. 效率与精度可以兼得:7056 倍的 CSA 压缩证明了结构化设计可以在大幅降低计算成本的同时保持甚至提升效果

六、总结

TVPrimitives 论文的核心叙事可以用一句话概括:

多模态大模型的推理瓶颈不在于「看见了什么」,而在于「能不能在思考过程中始终指向正确的东西」。

这句话听起来平淡,但其技术含义深远——它暗示了当前多模态 LLM 的 scaling 路径可能正在遭遇边际收益递减。如果 Reference Gap 确实是一个独立于模型规模的系统性缺陷,那么未来多模态推理能力的突破可能更多地来自于推理范式的创新,而不仅仅是参数量和数据量的堆砌。

从工程角度看,TVPrimitives 展示了一条在有限资源约束下实现 SOTA 级多模态推理能力的可行路径:精心设计的数据合成管线、四阶段渐进式训练、以及 GRPO 强化学习驱动的精细奖励建模。这套方法论的价值超越了具体的视觉原语实现本身。

最后,论文留下的开放性问题值得关注:视觉原语能否与其他推理增强技术(Tree-of-Thought、Self-Consistency、Process Reward Model)结合?能否从 2D 图像扩展到 3D 点云、视频时序等其他模态?坐标之外的「新型推理原语」(如图谱结构、程序骨架)是否能带来类似的提升?这些方向都有望成为继 TVPrimitives 之后的研究热点。


参考文献

  • DeepSeek, Peking University, Tsinghua University. 2026. “Thinking with Visual Primitives.” Technical Report. arXiv | GitHub | PDF
  • Shao, Z. et al., 2024. “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.” arXiv:2402.03300.
  • DeepSeek-AI. 2025. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948.
  • Yang, A. et al., 2024. “KOSMOS-2: Grounding Multimodal Large Language Models to the Real World.” CVPR Workshop.
  • Chen, Y. et al., 2026. “SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data.” CVPR 2026.
  • OpenAI. 2024. “Learning to Reason with Long Chain-of-Thought.” (o1 technical report).