Perception

4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视

引言：4D 输入与 VLA 序列瓶颈的矛盾自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token，乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理（约 100 ms 预算）和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

VLM 时序记忆机制：从视频压缩到长短时记忆融合

引言视觉语言模型（VLM）在处理单帧图像上已趋于成熟，但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知，还是具身智能中的长任务执行，核心挑战都在于：如何在不引爆 token 预算的前提下，保留对决策真正有价值的时序信息。 ...

代码即感知：当大模型「看得懂代码」才是攻克理科题的钥匙

引言多模态大语言模型（MLLM）在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像，模型往往能给出看似合理的推理步骤，却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

Alpamayo：面向自动驾驶的推理-动作对齐 VLA 系统

引言端到端自动驾驶近年来取得了显著进展，然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。基本困难有四。其一，多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化，而非仅处理静态快照。其二，驾驶决策必须是因果性的：模型必须建模为何采取某动作，而非仅学习场景与动作之间的统计相关性。其三，预测轨迹必须在满足运动学和动力学约束的同时保持多模态性，且足够高效以实现实时推理。其四，推理过程必须与动作输出紧密对齐——推理不应是事后合理化，而必须可被实际执行的动作验证和约束。 ...