DeepSeek 以视觉原语思考：让多模态大模型学会「用手指着推理」

引言：一个尚未命名的瓶颈

给一张密集人群照片到任意 frontier 多模态模型，问「图里有多少人」，错误率会显著高于稀疏场景；给一张复杂电路图问空间位置关系，答案常在多步推理中漂移¹。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高，能看清每个细节。一个被反复观察到但很少被独立分析的现象是：模型在用自然语言构建多步思维链时，「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标，注意力随推理步数累积漂移。

DeepSeek 联合北京大学、清华大学发表的技术报告 “Thinking with Visual Primitives”²（下文简称 TVPrimitives）把这一现象命名并形式化为 Reference Gap（指代鸿沟）——区别于业界长期关注的 Perception Gap（感知鸿沟）：感知鸿沟在输入端，信息没有进入模型；指代鸿沟在推理端，信息进入了模型，但中间步骤之间「丢失了对应关系」。

论文的方案在工程上简洁：把**坐标（point）和边界框（bounding box）**作为新的思维原语，像文字一样穿插在思维链输出中。当模型说「找到一只熊」时，它同时输出 [[452,23,804,411]] 这样的坐标锚点——类比人类数东西时用手指逐个点过去的本能动作。

这篇文章前半部分梳理 TVPrimitives 的方法机制、训练流程与公开 benchmark；后半部分把它放到一个更大的本体论问题里审视：当 DeepSeek 把视觉空间提升为 reasoning 的 modality 而不是 perception 的 input，这是真实的认知优势，还是 benchmark 选择带来的 task-specific 胜利？ 这是和同栏目 CodePercept³「瓶颈是感知不是推理」论点的有趣对照。

一、从感知鸿沟到指代鸿沟

1.1 两类鸿沟的区分

多模态大模型（MLM）的能力缺陷长期以来被笼统地归因于「看得不够清楚」。TVPrimitives 报告将这一问题拆解为两个正交维度：

鸿沟类型	定义	典型表现	传统解决思路
Perception Gap（感知鸿沟）	视觉编码器无法捕捉足够细粒度的图像信息	小目标检测失败、低对比度区域丢失、文字识别错误	提高输入分辨率、动态分块、多尺度特征融合
Reference Gap（指代鸿沟）	推理过程中语言指代的歧义性导致注意力漂移	计数重复/遗漏、空间关系判断矛盾、密集场景对象混淆	此前无公开的通用方案

感知鸿沟是输入端的问题——信息没有进入模型；指代鸿沟则是推理端的问题——信息进入了模型，但在多步推理的中间过程中丢失了对应关系。

1.2 一个直观类比

向一个看不见屏幕的朋友描述棋盘布局——「左边那个棋子要吃掉中间偏右一点那个棋子」——对方完全不知道你在说哪两颗。这就是 Reference Gap。

现有多模态模型的 CoT 推理过程实际上就在做这件事。自然语言的空间描述天生模糊：「左边的」「那个大的」「红色的圆形物体附近」——在包含 10+ 个对象的场景中，每个描述都可能匹配多个候选。随着推理步数增加，这种歧义性会累积放大：第一步的微小漂移会导致后续步骤的错误级联。

1.3 坐标作为消歧工具

人类在处理类似任务时的本能行为值得注意——会用手指或视线锚定目标对象。指的动作和思维过程是同步发生的，而非事后标注。坐标在推理链中的角色是消除歧义的认知工具，而非答案的一部分。

TVPrimitives 把这种直觉形式化：坐标和边界框不再仅仅是输出的格式，而是推理的基本单元（primitives of thought）。这一提案本身在哲学上并不平凡——本文第六节会回到它。

二、技术架构

2.1 模型基础

TVPrimitives 基于 DeepSeek V4-Flash 构建，根据官方 GitHub 技术报告²描述为「284B 总参数、推理时仅激活 13B 参数」的混合专家模型（MoE）。视觉编码器采用 DeepSeek 自研的 ViT，支持任意分辨率输入。这两个数字目前仅见于 TVPrimitives 报告与其转述报道，DeepSeek 尚未单独发布 V4-Flash 的 model card 加以独立佐证⁴。

flowchart TB
    Input["输入图像
（任意分辨率）"]
    ViT["DeepSeek ViT
（视觉 Transformer）"]
    Patches["图像块 tokens
（如 756×756 → 2916 patches）"]
    Compress["3×3 空间压缩"]
    Tokens324["324 tokens"]
    CSA["CSA
（Compressed Sparse Attention）"]
    KV["~81 视觉 KV 条目
（最终视觉表示）"]

    subgraph MoE[" "]
        direction LR
        LLM["DeepSeek V4-Flash （284B MoE）
MoE：284B 总参数 / 13B 激活"]
    end

    Output["输出：文本 + <|box|> + <|point|> 原语"]

    Input --> ViT
    ViT --> Patches
    Patches -->|"3×3 空间压缩"| Compress
    Compress --> Tokens324
    Tokens324 --> CSA
    CSA --> KV
    KV --> MoE
    MoE --> Output

    style MoE fill:#e8f4f8,stroke:#2196F3,stroke-width:2px
    style LLM fill:#bbdefb,stroke:#1565C0,stroke-width:1px

2.2 视觉原语：两种新的 Token

报告定义两种视觉原语作为推理过程的特殊 token：

边界框原语 `<|box|>`

用于需要定位和尺寸信息的场景（计数、空间问答、对象属性判断等）：

1
2
3
4
扫描图片寻找熊，找到一只 <|ref|>熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>，
它正在爬树，不在地面上，排除。
再往左下看，找到另一只 <|ref|>熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>，
站在岩石边缘，符合条件。

点坐标原语 `<|point|>`

用于更抽象的空间指代（迷宫探索轨迹、曲线追踪路径、几何构造步骤等）：

1
2
3
从入口 <|point|>[120, 300]<|/point|> 出发，
向东移动至 <|point|>[200, 300]<|/point|>，
遇到墙壁，向南转向 <|point|>[200, 380]<|/point|>...

关键设计决策：这两种原语的输出与文本生成同步交织，而非推理完成后的独立标注模块。模型在生成每一步推理文本的同时，即时决定是否以及如何插入空间锚点。

2.3 视觉压缩：CSA 机制

高分辨率的视觉输入如果直接送入 LLM，KV 缓存开销将是灾难性的。TVPrimitives 通过两阶段压缩降低 KV 占用：

处理流程（以 $756 \times 756$ 图片为例）：

756 \times 756 \xrightarrow{\text{ViT patchify}} 2916 \text{ patches} \xrightarrow{3\times3 \text{ 空间池化}} 324 \text{ tokens} \xrightarrow{\text{CSA} \times 4} \approx 81 \text{ KV entries}

报告将这一整体压缩比报为 7056 倍，其中关键步骤是 CSA（Compressed Sparse Attention）——一种压缩稀疏注意力机制，把视觉 KV 缓存再压缩约 4 倍²。

报告同时给出了 $800 \times 800$ 图片下与竞品所需 KV 缓存条目的对比，数字（约 90 vs Claude Sonnet 4.6 约 870 vs Gemini 3 Flash 约 1100）引自 TVPrimitives 报告 Section 3，未独立验证。其声称的工程意涵是：在相同显存预算下可以处理更多图像或更长上下文。

这里报告给出了一个值得引用的论断：精确的空间指代能力可以在一定程度上弥补视觉 token 不足的问题——模型不需要「看更多」，而需要「指更准」。这条主张与高分辨率 / 多 token 路线之间的孰优孰劣，目前尚无第三方独立 ablation 可供裁判。

三、训练数据工程：4000 万样本的冷启动

高质量的多模态推理数据极度稀缺。TVPrimitives 报告称从零构建了一套数据合成管线，产出约 4000 万条训练样本。

3.1 数据筛选漏斗

flowchart TB
    S0["近 10 万个初始数据源"]
    S1["第一轮：语义审核
（过滤无关/低质量内容）"]
    S2["约 5 万个候选"]
    S3["第二轮：几何质量审核
（验证空间标注可行性）"]
    S4["约 3.17 万个高质量数据源"]
    S5["自动化标注 + 人工质检"]
    S6["超过 4000 万条训练样本"]

    S0 --> S1 --> S2 --> S3 --> S4 --> S5 --> S6

    style S0 fill:#fff3e0,stroke:#FF9800
    style S2 fill:#ffe0b2,stroke:#F57C00
    style S4 fill:#ffcc80,stroke:#EF6C00
    style S6 fill:#c8e6c9,stroke:#388E3C

3.2 四类专项任务设计

报告针对不同类型的空间推理能力设计了四类专项训练数据：

任务一：计数（Counting）

子类型	特征	训练策略
粗粒度计数	「图里有多少人？」	学习「批量锁定」策略——一次性框出所有候选对象再数
细粒度计数	「穿蓝色衣服的人有几个？」	学习逐一扫描、逐一核对属性的精细策略

两种策略对应不同的认知负荷模式，分别训练让模型自适应选择适合当前任务复杂度的计数方法。

任务二：空间推理与视觉 VQA

利用 GQA 数据集（自然场景中的空间关系问答）
利用 CLEVR 工具链（可控参数化合成场景，可精确控制对象数量、位置、属性）
生成多跳推理样本，要求 3-5 步递进推理
硬性约束：每一步推理必须用 <|box|> 锚定涉及的对象

报告中最具挑战性也是 TVPrimitives 优势最大的任务类型：

指标	数值
样本量	46 万条
迷宫生成算法	DFS（深度优先搜索）、Prim、Kruskal
迷宫拓扑结构	矩形、圆形、六边形三种
特色设计	「表面可解但实际无解」的迷宫

迷宫任务的训练数据有几个精巧的考量：

多种拓扑结构迫使模型学习通用的探索策略，而非 memorize 特定形状的模式；
故意设计的无解迷宫训练鲁棒性——模型需要在合理步数后学会「放弃并报告不可达」，而非无限循环；
要求用 <|point|> 记录每一步探索轨迹，包括回溯时标记已排除路径——这模拟了真实的回溯搜索过程。

这里有一个需要在第六节回到的隐忧：迷宫的 ground-truth 坐标在数据生成阶段就是已知的（由 DFS / Prim / Kruskal 算法本身决定），因此训练数据中的 <|point|> 标签是严格 ground-truth 而非 noisy。

任务四：路径追踪（Path Tracing）

指标	数值/描述
样本量	12.5 万条
任务描述	给定多条贝塞尔（Bézier）曲线交叉图，追踪指定起点对应的曲线到终点
核心挑战	交叉歧义消解——多条曲线在交叉点附近难以区分
反作弊设计	所有曲线颜色相同（防止模型用颜色捷径）

这个任务专门针对连续空间的精确追踪能力——曲线交叉处的切线方向变化微妙，要求模型维持对目标曲线的高精度空间记忆。

3.3 训练流程：「先分家，再合体」

由于 box 和 point 两种原语的数据分布差异较大，直接联合训练可能导致互相干扰。报告采用四阶段渐进训练策略：

flowchart TB
    subgraph Stage1["第一阶段: 专家化训练 (Specialized Training)"]
        direction LR
        A1[边界框数据 FTwG] --> A2[专家模型 G]
        A3[点坐标数据 FTwP] --> A4[专家模型 P]
    end

    subgraph Stage2["第二阶段: 强化学习 (GRPO RL)"]
        direction TB
        B1[GRPO 算法]
        B2[格式奖励 format]
        B3[质量奖励 LLM-as-judge]
        B4[精度奖励 task-specific]
        B1 --> B2
        B1 --> B3
        B1 --> B4
    end

    subgraph Stage3["第三阶段: 统一微调 (Unified RFT)"]
        C1[统一模型 F
从预训练模型重新初始化]
    end

    subgraph Stage4["第四阶段: 在线策略蒸馏"]
        D1[KL 散度最小化]
        D2["最终模型 F*"]
    end

    Stage1 --> Stage2
    Stage2 --> Stage3
    Stage3 --> Stage4

各阶段详解：

第一阶段——专家化训练：

边界框专用数据 → 训练专家模型 FTwG（Fine-Tuned with Grounding）
点坐标专用数据 → 训练专家模型 FTwP（Fine-Tuned with Points）
目的：避免两种模态在数据量较少的早期训练阶段互相干扰（mode collapse）

第二阶段——GRPO 强化学习： 采用 GRPO（Group Relative Policy Optimization）——DeepSeek 自研的强化学习算法，无需额外的 critic 模型，通过组内相对排序计算策略梯度。三路并行奖励设计是本阶段的亮点：

奖励类型	实现方式	典型应用
格式奖励	正则表达式匹配输出是否符合 `<	box
质量奖励	用 LLM 评判推理内容和最终答案是否一致	通用
精度奖励	任务特定的自动化指标	因任务而异

精度奖励的设计体现了工程上的精细化：

计数任务：使用平滑指数衰减奖励而非二值对错。若真实答案是 5，预测 4 的奖励高于预测 3——提供更密集的学习信号。
迷宫任务：分解为五个子奖励：因果探索进度、探索完整性、穿墙惩罚、路径有效性、答案正确性。

第三阶段——Unified RFT（统一强化微调）：

用两个专家模型生成的 rollout 数据合并训练
关键决策：从预训练模型重新初始化开始训练，而非从某个 expert 继续 fine-tune，以防止继承单边偏态分布
得到统一模型 F

第四阶段——On-Policy Distillation（在线策略蒸馏）：

弥合统一模型 F 与两个专家模型之间的性能差距
学生模型自己生成 rollout，最小化与专家分布之间的 KL 散度
报告称这一步在各类任务上带来平均 2-4 个百分点的提升²

四、实验结果

4.1 评测基准

报告在 11 个基准上评估，涵盖四大能力维度：

能力维度	代表性基准	考察要点
计数能力	Pixmo-Count, DS_Finegrained_Counting	精确计数、属性条件计数
空间推理	MIHBench, SpatialMQA	空间关系判断、位置推理
拓扑推理	DS_Maze_Navigation, DS_Path_Tracing	连续空间导航、路径追踪
综合能力	MMVQA, MMBench 等	通用多模态理解

所有 frontier 模型均通过 API 评测，统一提示词模板。下表中所有 baseline 模型版本对应的官方发布信息：GPT-5.4 Thinking（OpenAI 于 2026-03-05 发布，见官方 system card⁵）、Gemini 3 Flash（Google 于 2025-12-17 发布⁶）、Claude Sonnet 4.6（Anthropic 于 2026-02-17 发布⁷）。基线模型的具体得分数字来自 TVPrimitives 报告而非各自厂商官方 benchmark，独立第三方未复现。

4.2 核心结果

计数任务

基准测试	TVPrimitives	最佳竞品	竞品得分
Pixmo-Count（精确匹配）	89.2%	Gemini 3 Flash	88.2%
DS_Finegrained_Counting	88.7%	Qwen3-VL	87.2%

数据来自 TVPrimitives 报告 Table 1，未独立验证²。在计数任务上 TVPrimitives 取得 SOTA，相比最接近的竞品优势约 1 个百分点。报告中 GPT-5.4 和 Claude Sonnet 4.6 在 Pixmo-Count 上分别报为 76.6% 和 68.7%，但需要注意这是 TVPrimitives 团队通过 API 的复现，与各厂商官方多模态 benchmark 表中的数字之间存在 prompt template 和评测协议差异，不构成厂商间直接对比，更接近于「在 DeepSeek 评测条件下 baseline 表现」。

空间推理

基准测试	TVPrimitives
MIHBench	85.3%
SpatialMQA	69.4%

在标准空间推理基准上 TVPrimitives 与头部模型持平或略有超越²。具体 baseline 名次因 TVPrimitives 报告 Section 5 中部分数字与公开 leaderboard 存在评测协议差异，此处省略数字对照。

拓扑推理（最大亮点）

基准测试	TVPrimitives	GPT-5.4 Thinking	Gemini 3 Flash	Claude Sonnet 4.6
DS_Maze_Navigation	66.9%	50.6%	49.4%	48.9%
DS_Path_Tracing	56.7%	46.5%	41.4%	—

数字来自 TVPrimitives 报告 Table 4²。需要明确：DS_Maze_Navigation 和 DS_Path_Tracing 是 TVPrimitives 团队自建的内部 benchmark，并非已被独立社区采纳的公开评测集。这意味着这两个任务的题目分布、难度配置与训练数据的相似度等因素，理论上都可能向 TVPrimitives 倾斜。报告中所有 frontier 模型在这两个任务上都只在 50% 上下徘徊，确实指向一个值得关注的现象：通用 LLM 在需要连续空间操作的任务上存在系统性短板；但 TVPrimitives 把准确率提升到 66.9% 究竟有多少归功于方法本身、多少归功于 benchmark 选择，需要等社区在独立公开拓扑推理 benchmark 上的复现结果。

4.3 关于消融的推断（论文未提供）

推断：以下分析超出报告 explicit 内容，是博主基于公开资料与团队过往工作风格的延伸思考。报告正文未提供下列消融实验。

报告并未给出系统性的 ablation table，因此对于以下问题只能基于架构与训练设计去推测：

视觉原语 vs 纯文本 CoT：核心对照实验。在拓扑推理任务上预期差距最大，可能达到 15–20 个百分点，但报告未给出对照数字。
CSA 压缩的影响：7056 倍压缩是否损失关键空间信息？报告仅通过整体 SOTA 反推压缩策略「不致命」，并未提供「关掉 CSA」的对照实验。
四阶段训练的必要性：跳过「先分家后合体」预期会导致两类原语互相干扰，但报告并未发布 ablation。
GRPO 奖励设计：平滑指数衰减奖励 vs 二值奖励在计数任务上的差异——预期前者更优，仍待报告或后续工作提供数据。

这是 TVPrimitives 报告作为 technical report 而非完整 paper 的最大遗憾——很多关键的方法学问题（视觉原语相对纯文本 CoT 的真实增量、CSA 的代价）目前只能延伸到下一篇工作再回答。

五、与相关方向的联系

与 grounding 方法的关系： 之前的研究（如 Kosmos-2、Shikra）也将边界框作为输出格式，但它们的 bbox 是事后的空间定位标注——模型先完成推理，再输出 bbox。TVPrimitives 的关键差异在于把 bbox 嵌入推理过程本身，使其成为思维链的组成部分。

与 LLM 推理增强技术的呼应： o1/o3 系列与 DeepSeek-R1 已经证明，让 LLM 在输出答案前生成详细的推理过程可以大幅提升复杂问题的求解能力。TVPrimitives 把这一思想扩展到了多模态域：不仅用文本做 CoT，还用空间坐标稳定多模态 CoT 的中间过程。

与神经符号方法的隐式关联： 坐标和边界框是离散化的、非模糊的空间符号。TVPrimitives 可以被视为一种「软性的」神经符号混合——不需要显式的符号执行引擎，而是通过训练让 LLM 学会在适当时机调用这些空间符号。

与几何表示路线的对照： 在 world model 方向，Depth Anything 3https://xuquant.com/posts/world-models/depth-anything-3/ 选择把视觉空间的核心结构归结为几何度量（depth-ray）；TVPrimitives 则把核心结构归结为离散符号锚点（box/point）。两者都承认视觉空间「不应该只是 perception 的输入」，但选择了不同的 post-perception 表征——一个是连续的度量场，一个是离散的指代符。

六、批判性审视：当 modality 被提升为 ontology

TVPrimitives 的方法贡献是直接的，但它真正应当被讨论的，是它在多模态推理本体论上的隐含立场。这是本文与同栏目 CodePercept³论点的对照点。

6.1 三种关于「视觉空间」的位置假设

把当前多模态推理研究的三种主流立场摆在一起：

立场	视觉空间在推理中的角色	代表工作
vision = perception（主流）	视觉是输入，reasoning 在 language 空间发生	GPT-4V、Claude 多模态、Qwen-VL 等
vision = description medium	视觉应先被翻译成结构化文本（如代码）再交给 reasoning	CodePercept³
vision = reasoning modality	视觉空间本身就是 reasoning 的载体，模型应该「在视觉里推理」	TVPrimitives

CodePercept 主张 STEM 视觉推理的瓶颈是感知——「模型推理力够，但根本没看准图」——解法是用代码作为更精确的感知描述媒介，把视觉信号在进入推理之前充分结构化。TVPrimitives 走的是相反方向：它隐含主张推理才是瓶颈，所需要的也并非更好的文本描述，它要求让 reasoning 本身离开纯 language 空间，进入一种带有空间锚点的混合空间。

这两条路线在表面看是「往哪一端加结构」的工程选择，但底下其实是关于「视觉空间是 reasoning 的输入还是 reasoning 的舞台」这一本体论问题的分歧。

6.2 把 modality 提升为 ontology 是否过度

TVPrimitives 的核心叙事是把视觉空间从 perception input 提升为 reasoning modality——这一提升与 Sora 把 video 提升为 world model⁸、Diffusion Forcing 把 token sequence 提升为 continuous time process⁹ 是同一类抽象动作：把一种 modality 提升为 ontology。

数学上这类提升几乎一定能 work——任何分布学习器都可以把任意 modality 当作 latent 来训练。但工程上很容易 over-claim：

视觉原语的「原语」性是 emergent 还是 enforced？ 报告里的 <|box|> 和 <|point|> 并非模型自发学到的、对 reasoning 有用的中间表征，它们更接近通过 loss 设计强制嵌入的格式约束。这意味着它的 generalization 行为应当被严格审视——一旦换成 box/point 不那么自然的任务（如纯文本数学推理，或时间序列推理），enforced primitive 的优势可能瞬间反转为约束。
训练数据中的 ground-truth 标签从哪里来？ 迷宫的 <|point|> 标签由生成算法直接给出，是严格 ground-truth；CLEVR 场景的 <|box|> 同样如此。这构成一个微妙的循环：评测集是自建的、训练标签是 ground-truth 的、被验证的优势是在这种条件下显著的。换到 LLM-生成的 noisy primitive 数据（更接近 web-scale 实际可获得的数据），方法的优势可能大幅缩水。
benchmark 选择对假设的天然偏向。TVPrimitives 突出 +16.3pp 的任务（DS_Maze_Navigation、DS_Path_Tracing）都是视觉密集且 ground-truth 离散坐标可枚举的任务，恰好是 box/point primitive 在数据生成层就具备结构优势的任务类型。如果换到「视觉重要但不可坐标化」的任务（如风格识别、艺术意图理解），或「纯文本数学题」这种 reasoning-only 任务，方法的优势是否仍然成立——报告未给出对照。

这并不意味着 TVPrimitives 错。它意味着 TVPrimitives 在它选择的任务族上 work 是充分的，但「视觉空间是 reasoning modality」这一本体论命题目前还不被报告中的 benchmark 充分支持。要让命题成立，需要的不是更多 ground-truth 坐标可枚举的任务，而恰恰是反方向的对照实验——例如：

纯文本数学推理对照：把 TVPrimitives 模型放到 GSM8K / MATH 这类没有视觉成分的任务上，看与同尺寸纯 R1-style 推理模型相比孰强孰弱。如果 visual primitive 训练显著拖累纯文本推理，那说明 modality 被错位提升了。
noisy primitive 对照：用 LLM 生成（而非算法 ground-truth）的 box/point 标签训练，看方法是否仍然显著超越主流 baseline。如果不能，那「方法 work」更像是「ground-truth 数据 work」。
非坐标可枚举任务对照：在风格、情绪、意图等不易 box 化的视觉任务上对比 TVPrimitives 与主流 baseline。

6.3 与 CodePercept 形成的辩证

把两条路线放在一起：

CodePercept：感知不足，给感知打补丁——用代码这一精确符号系统作为视觉的描述媒介，让 reasoning 在结构化文本上运行；
TVPrimitives：推理过程中指代漂移，给推理打补丁——把空间符号嵌入 reasoning chain 本身，让 reasoning 在「文本 + 坐标」的混合空间运行。

二者并非互斥：完全可能的图景是，一个 STEM 视觉问题需要先用 CodePercept 风格的代码翻译完成感知端的结构化（保证「看准」），再用 TVPrimitives 风格的坐标原语完成推理端的锚定（保证「指准」）。但今天还没有工作把这两条路线整合起来。这也许是下一篇值得读的多模态推理 paper 应该回答的问题——感知端的代码符号与推理端的坐标符号能否在同一个训练流程中共存且互不干扰，还是它们各自的 inductive bias 在共同训练时会互相破坏。

6.4 报告坦诚的局限

报告自陈三个主要局限：

局限	描述	可能的改进方向
触发词依赖	当前模型需要明确的提示词才会启用视觉原语机制，还不能自主判断何时需要「用手指」	训练模型自主判断何时需要空间锚定的元学习能力
分辨率限制	极细粒度场景中原语的位置精度偶尔不够	与高分辨率感知方案（动态分块、层级编码）结合
泛化能力有限	用点坐标解决复杂跨场景拓扑问题时，泛化能力仍有限	扩展训练数据的场景多样性；引入世界模型辅助空间预测

这三条局限其实正好是上节批判性 worry 的对应物——「触发词依赖」对应 enforced vs emergent 的争论，「分辨率限制」对应 perception layer 是否被绕过的疑问，「泛化能力有限」对应 modality-as-ontology 是否过度的质疑。报告团队自己看到了这些 worry，只是未在本次 release 中给出答案。

参考文献

Shao, Z. et al., 2024. “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.” arXiv:2402.03300.
DeepSeek-AI. 2025. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948.
Peng, Z. et al. 2024. “Kosmos-2: Grounding Multimodal Large Language Models to the Real World.” ICLR 2024.
OpenAI. 2024. “Learning to Reason with Long Chain-of-Thought.” (o1 technical report).

「指代漂移」是 TVPrimitives 报告引入的概念性术语，本文沿用。其实证基础来自该报告 Section 2 的定性分析，目前尚无独立公开论文系统量化这一现象。 ↩︎
DeepSeek, Peking University, Tsinghua University. 2026. “Thinking with Visual Primitives.” Technical Report, released 2026-04-30. 该报告以 GitHub 技术报告形式发布，并未提交 arXiv：GitHub repo | Technical Report PDF。引用 BibTeX：@article{lu2026think, title={Thinking with Visual Primitives}, author={Lu, Ruijie and Ma, Yiyang and Chen, Xiaokang and others}, year={2026}}。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
见同栏目 https://xuquant.com/posts/foundation-models/codepercept-perception-bottleneck/——「代码即感知：当大模型『看得懂代码』才是攻克理科题的钥匙」。CodePercept 论文（CVPR 2026）通过系统缩放实验论证感知是 STEM 视觉推理的瓶颈，与本文讨论的 TVPrimitives「推理是瓶颈」论点构成直接对照。 ↩︎ ↩︎ ↩︎
TVPrimitives 报告自报「284B 总参数 / 13B 激活」的 DeepSeek V4-Flash backbone；DeepSeek 在本文撰写时尚未单独发布 V4-Flash 的 model card，因此该规格目前仅在 TVPrimitives 报告与第三方报道（如 36kr、blockchain.news 等）中出现，未在 DeepSeek 主站独立证实。 ↩︎
OpenAI. 2026. “Introducing GPT-5.4” 和 “GPT-5.4 Thinking System Card”, 发布于 2026-03-05。系统卡链接。 ↩︎
Google DeepMind. 2025. “Introducing Gemini 3 Flash”，发布于 2025-12-17。Google Blog。 ↩︎
Anthropic. 2026. “Introducing Claude Sonnet 4.6”，发布于 2026-02-17。Anthropic News。 ↩︎
OpenAI. 2024. “Video generation models as world simulators.” Sora Technical Report. ↩︎
Chen, B. et al. 2024. “Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion.” NeurIPS 2024. ↩︎

引言：一个尚未命名的瓶颈#

一、从感知鸿沟到指代鸿沟#

1.1 两类鸿沟的区分#

1.2 一个直观类比#

1.3 坐标作为消歧工具#

二、技术架构#

2.1 模型基础#

2.2 视觉原语：两种新的 Token#

边界框原语 <|box|>#

点坐标原语 <|point|>#

2.3 视觉压缩：CSA 机制#

三、训练数据工程：4000 万样本的冷启动#

3.1 数据筛选漏斗#

3.2 四类专项任务设计#

任务一：计数（Counting）#

任务二：空间推理与视觉 VQA#

任务三：迷宫导航（Maze Navigation）#

任务四：路径追踪（Path Tracing）#

3.3 训练流程：「先分家，再合体」#

四、实验结果#

4.1 评测基准#

4.2 核心结果#

计数任务#

空间推理#

拓扑推理（最大亮点）#

4.3 关于消融的推断（论文未提供）#

五、与相关方向的联系#

六、批判性审视：当 modality 被提升为 ontology#

6.1 三种关于「视觉空间」的位置假设#

6.2 把 modality 提升为 ontology 是否过度#

6.3 与 CodePercept 形成的辩证#

6.4 报告坦诚的局限#

参考文献#

相关文章