Foundation Models: LLM, VLM, and Beyond

Deep technical analyses of foundation model architectures — from attention mechanism innovations (MLA, GQA, hybrid attention) to MoE sparsity, multimodal reasoning, and generative paradigms like Flow Matching.

Architecture & Attention

Article	Topic
Multi-Head Latent Attention	DeepSeek-V2’s KV cache compression via latent attention
Qwen3.5 vs Qwen3	Hybrid attention, joint multimodal training, and high-sparsity MoE

Multimodal & Reasoning

Article	Topic
DeepSeek Visual Primitives	Thinking with visual primitives in multimodal LLMs
ATLAS One-Word Visual Reasoning	Functional tokens as compact visual operations for VLM reasoning
SceneVerse++ Data Engine	Lifting internet videos into 3D scene understanding
Kaiming He CVPR 2026	Flow Matching paradigm breakthroughs
InSpatio-World 4D Simulator	13 亿参数实时 4D 世界模拟器，时空 autoregressive + 隐式缓存 + 24 FPS 新视角合成

Agents & Frameworks

Article	Topic
CORAL Multi-Agent Evolution	Open-ended discovery via LLM-driven evolutionary search

Perception & Reasoning Bottleneck

Article	Topic
代码即感知	When LLMs “understand code” as the key to mastering STEM reasoning

Embodied VLA

Article	Topic
Qwen-VLA	T2A 解压先验 + 流匹配 PPO + Qwen3.5-4B 跨形态通用具身策略
HiF-VLA	H.264 codec motion vectors 当时间记忆，前向预测 + AdaLN 调制动作流
VLA × VGGT 几何注入	Early/Late/Spatial-Forcing 三架构对照下的负结果，mid-training 才是真杠杆
ReconVLA	gaze-crop VAE-latent 重建做 VLA 的隐式视觉接地

Qwen-VLA 解读：T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA（Qwen Team，arXiv:2605.30280，2026-05-28 v1）把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合；真正想清楚的设计在训练侧：四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来，T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT，让动作分布的语言索引在视觉介入之前就学完。 ...

VLA 加几何 backbone 的负结果：GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队（Yang et al., arXiv:2605.24642）把 GR00T-N1.5（manipulation VLA）跟 VGGT（geometric foundation model）拼起来，做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果：standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著（p < 0.05）超过 GR00T baseline。 ...

HiF-VLA：把 codec 副产品当成 VLA 的时间记忆

CVPR 2026 的 HiF-VLA（项目页 / 代码），西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事：往前用 VLM 直接预测未来 motion vectors，往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%，比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...

ATLAS：视觉推理的动作词表

引言：模型什么时候需要画一条线几何题里的辅助线很少出现在题目里，却经常决定整道题能不能解出来。计数题里，先把候选目标圈出来，再逐个排除，比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似：判断猫有没有碰到杯子，视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...

代码即感知：当大模型「看得懂代码」才是攻克理科题的钥匙

引言多模态大语言模型（MLLM）在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像，模型往往能给出看似合理的推理步骤，却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

凯明的方法论：从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来何恺明（Kaiming He）的论文有一种一眼能认出的辨识度。这种辨识度并非来自文风。他的论文写作并不华丽，公式不多，章节短，图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度，但每一次削减都站在一个更深的先验（prior）上，因此不构成 cheating。 ...

DeepSeek 以视觉原语思考：让多模态大模型学会「用手指着推理」

引言：一个尚未命名的瓶颈给一张密集人群照片到任意 frontier 多模态模型，问「图里有多少人」，错误率会显著高于稀疏场景；给一张复杂电路图问空间位置关系，答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高，能看清每个细节。一个被反复观察到但很少被独立分析的现象是：模型在用自然语言构建多步思维链时，「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标，注意力随推理步数累积漂移。 ...

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

Qwen3.5 vs Qwen3: A Deep Architectural Comparison

Figure from Qwen3.5-Omni Technical Report 本文基于 Qwen3.5 官方技术文档及代码结构分析，系统梳理 Qwen3.5 相较于 Qwen3 在架构层面的代际演进。两者之间的差异远非简单的参数调优，而是在注意力机制、多模态融合方式、稀疏化策略和位置编码等多个维度上进行了根本性的设计重构。 ...

CORAL：面向开放式发现的自主多Agent进化

引言图片来自 CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discovery 开放式发现(Open-Ended Discovery)——在解空间缺乏清晰结构、评估可能代价高昂或信号稀疏的领域中搜索新颖且高质量的解——仍然是自动科学推理中最困难的挑战之一。与梯度或凸性可以引导搜索方向的约束优化不同，开放式问题要求持续的探索、部分洞察的积累，以及在进展停滞时重新调整方向的能力。数学猜想证明、系统级代码优化、组合设计等问题都属于这一范畴。 ...

ReconVLA：用 gaze-crop 重建给 VLA 视觉接地

OpenVLA 一线 VLA 把 vision token + text token + action token 全部 concat 给 LLM，用 next-token cross-entropy 监督，推理时 LLM 直接吐离散化 action token。这套 pipeline 训出来的 attention map 有一个反复出现的问题：散。VLA 看场景跟看哪个具体物体之间没区分，attention 几乎均匀铺在整个 frame 上。 ...

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling 模拟一个随时间演化且可从任意视角观察的 4D 世界，是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列，但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度，却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归（STAR）架构弥合了这一鸿沟，融合了两种范式的优势。 ...

Multi-Head Latent Attention: DeepSeek V2/V3 工程视角

本文聚焦工程视角。 MLA 的数学推导（从 RoPE 出发到 latent 投影、partial RoPE 的兼容性证明、权重吸收的代数推导）详见 https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/。本文不重复这些数学内容，只讨论 DeepSeek V2/V3 实际部署中关心的工程数字与设计取舍。 ...

Architecture & Attention#

Multimodal & Reasoning#

Agents & Frameworks#

Perception & Reasoning Bottleneck#

Embodied VLA#

Architecture & Attention

Multimodal & Reasoning

Agents & Frameworks

Perception & Reasoning Bottleneck

Embodied VLA