Qwen-VLA 解读:T2A 解压先验、流匹配 PPO、跨形态零样本
2026年5月28日 · 16 分钟 · LexHsu
VLA 加几何 backbone 的负结果:GR00T × VGGT 三架构对照
2026年5月28日 · 14 分钟 · LexHsu
深入理解 KL 散度:四个视角
2026年5月28日 · 12 分钟 · LexHsu
HiF-VLA:把 codec 副产品当成 VLA 的时间记忆
2026年5月27日 · 10 分钟 · LexHsu
量产 VLA 的 8 个工程判断 + 4 个反例
2026年5月26日 · 8 分钟 · LexHsu
熵与信息论:从 -log p 到深度学习
2026年5月25日 · 18 分钟 · LexHsu
Affordance vs Symbolic Perception in AD:二分 framing 错在哪
2026年5月24日 · 11 分钟 · LexHsu
Dense Latent Predictive Supervision in AD VLA:为什么 pixel 不是最优
2026年5月24日 · 16 分钟 · LexHsu
自动驾驶 VLA 的 3D 视觉表征:从能力边界到工程注入
2026年5月22日 · 36 分钟 · LexHsu
ATLAS:视觉推理的动作词表
2026年5月21日 · 12 分钟 · LexHsu
X-World:小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化
2026年5月20日 · 26 分钟 · LexHsu
自动驾驶世界模型 × Action:六范式在 NAVSIM 上的落地与跨域对偶
2026年5月19日 · 19 分钟 · LexHsu
Polar Express:用 Chebyshev 逼近把 Muon 的矩阵正交化提速一倍
2026年5月18日 · 16 分钟 · LexHsu
为什么大扩散模型不会背诵训练数据:两个时间尺度的隐式正则化
2026年5月18日 · 18 分钟 · LexHsu
4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视
2026年5月17日 · 20 分钟 · LexHsu
从预测未来到驱动行动:机器人世界模型的架构与评测
2026年5月15日 · 14 分钟 · LexHsu
VLA 语义下的导航信息注入:从 Prompt 到 Diffusion Condition
2026年5月14日 · 31 分钟 · LexHsu
得分匹配、GAN 与生成模型的统一
2026年5月11日 · 15 分钟 · LexHsu
VLM 时序记忆机制:从视频压缩到长短时记忆融合
2026年5月9日 · 11 分钟 · LexHsu
最优传输与 Wasserstein 距离:从 Monge 到 Kantorovich
2026年5月6日 · 14 分钟 · LexHsu
代码即感知:当大模型「看得懂代码」才是攻克理科题的钥匙
2026年5月2日 · 11 分钟 · LexHsu
变分自编码器:从 ELBO 到重参数化
2026年5月2日 · 17 分钟 · LexHsu