Visual-Reasoning on Xu'Blog

Visual-Reasoning on Xu'Bloghttps://xuquant.com/tags/visual-reasoning/Recent content in Visual-Reasoning on Xu'BlogXu'Bloghttps://xuquant.com/images/profile.jpghttps://xuquant.com/images/profile.jpgHugo -- 0.152.2enThu, 30 Apr 2026 20:00:00 +0800DeepSeek 以视觉原语思考：让多模态大模型学会「用手指着推理」https://xuquant.com/posts/deepseek-thinking-with-visual-primitives/Thu, 30 Apr 2026 20:00:00 +0800https://xuquant.com/posts/deepseek-thinking-with-visual-primitives/深度解读 DeepSeek 联合北大/清华提出的「以视觉原语思考」新范式：用坐标和边界框替代自然语言描述，解决多模态模型推理过程中的指代歧义问题，迷宫导航任务领先 GPT-5.4 达 17 个百分点。