ReconVLA:用 gaze-crop 重建给 VLA 视觉接地

OpenVLA 一线 VLA 把 vision token + text token + action token 全部 concat 给 LLM,用 next-token cross-entropy 监督,推理时 LLM 直接吐离散化 action token。这套 pipeline 训出来的 attention map 有一个反复出现的问题:散。VLA 看场景跟看哪个具体物体之间没区分,attention 几乎均匀铺在整个 frame 上。 ...

2025年10月27日 · 11 分钟 · LexHsu

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling 模拟一个随时间演化且可从任意视角观察的 4D 世界,是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列,但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度,却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归(STAR)架构弥合了这一鸿沟,融合了两种范式的优势。 ...

2025年10月25日 · 7 分钟 · LexHsu

Multi-Head Latent Attention: DeepSeek V2/V3 工程视角

本文聚焦工程视角。 MLA 的数学推导(从 RoPE 出发到 latent 投影、partial RoPE 的兼容性证明、权重吸收的代数推导)详见 https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/。本文不重复这些数学内容,只讨论 DeepSeek V2/V3 实际部署中关心的工程数字与设计取舍。 ...

2025年9月13日 · 5 分钟 · LexHsu
访客 704 人次 · 访问 1065 次