VLM 时序记忆机制:从视频压缩到长短时记忆融合

引言 视觉语言模型(VLM)在处理单帧图像上已趋于成熟,但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知,还是具身智能中的长任务执行,核心挑战都在于:如何在不引爆 token 预算的前提下,保留对决策真正有价值的时序信息。 ...

2026年5月9日 · 11 分钟 · LexHsu

旋转约束下的压缩:从 RoPE 到 DeepSeek MLA

Transformer 推理的一个核心瓶颈是 KV Cache:每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用,其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时,KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...

2026年4月11日 · 17 分钟 · LexHsu

RoPE 的 β 进制类比与长度外推

RoPE 优雅地解决了"用绝对编码实现相对位置"的问题,但它自身面临另一个挑战:当模型需要处理训练时未见过的更长序列时,位置编码会发生什么?这个问题——长度外推——直接决定了模型能否在推理阶段扩展上下文窗口。理解长度外推的关键,在于苏剑林提出的一个深刻类比:RoPE 的旋转角度就是 β\beta 进制数的各位数字。 ...

2026年4月4日 · 19 分钟 · LexHsu

旋转位置编码的几何本质:从复数到旋转矩阵

位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变,这意味着同一个句子打乱词序后,自注意力的计算逻辑完全不变。然而语言的本质是序列性的,“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命,就是将序的结构注入一个天生无视顺序的机制中。 ...

2026年3月28日 · 18 分钟 · LexHsu

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机:传统几何重建在什么地方失效 一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声,IMU 漂移开始累积,前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题:相机相对于隧道结构的位姿是什么?前方 30 米处那个反射点距离车头多远? ...

2026年3月21日 · 17 分钟 · LexHsu

Qwen3.5 vs Qwen3: A Deep Architectural Comparison

Figure from Qwen3.5-Omni Technical Report 本文基于 Qwen3.5 官方技术文档及代码结构分析,系统梳理 Qwen3.5 相较于 Qwen3 在架构层面的代际演进。两者之间的差异远非简单的参数调优,而是在注意力机制、多模态融合方式、稀疏化策略和位置编码等多个维度上进行了根本性的设计重构。 ...

2026年3月7日 · 12 分钟 · LexHsu

Multi-Head Latent Attention: DeepSeek V2/V3 工程视角

本文聚焦工程视角。 MLA 的数学推导(从 RoPE 出发到 latent 投影、partial RoPE 的兼容性证明、权重吸收的代数推导)详见 https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/。本文不重复这些数学内容,只讨论 DeepSeek V2/V3 实际部署中关心的工程数字与设计取舍。 ...

2025年9月13日 · 5 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次