Foundation Models

ReconVLA：用 gaze-crop 重建给 VLA 视觉接地

OpenVLA 一线 VLA 把 vision token + text token + action token 全部 concat 给 LLM，用 next-token cross-entropy 监督，推理时 LLM 直接吐离散化 action token。这套 pipeline 训出来的 attention map 有一个反复出现的问题：散。VLA 看场景跟看哪个具体物体之间没区分，attention 几乎均匀铺在整个 frame 上。 ...

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling 模拟一个随时间演化且可从任意视角观察的 4D 世界，是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列，但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度，却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归（STAR）架构弥合了这一鸿沟，融合了两种范式的优势。 ...

Multi-Head Latent Attention: DeepSeek V2/V3 工程视角

本文聚焦工程视角。 MLA 的数学推导（从 RoPE 出发到 latent 投影、partial RoPE 的兼容性证明、权重吸收的代数推导）详见 https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/。本文不重复这些数学内容，只讨论 DeepSeek V2/V3 实际部署中关心的工程数字与设计取舍。 ...