Dense Latent Predictive Supervision in AD VLA:为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone?打开任一篇 NAVSIM 93 PDMS 一档的 paper:监督信号是未来 12-16 个 (x,y)(x, y) waypoints,一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert(典型 500M),总可学习参数 2.5B 量级。 ...

2026年5月24日 · 16 分钟 · LexHsu

凯明的方法论:从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来 何恺明(Kaiming He)的论文有一种一眼能认出的辨识度。 这种辨识度并非来自文风。他的论文写作并不华丽,公式不多,章节短,图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度,但每一次削减都站在一个更深的先验(prior)上,因此不构成 cheating。 ...

2026年4月18日 · 21 分钟 · LexHsu

LeJEPA:当 JEPA 不再需要启发式

系统 2 与不预测像素的认知动机 LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点:智能体的核心能力是在抽象表征空间里预测自己行动的后果,再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。 ...

2026年2月7日 · 12 分钟 · LexHsu

DINOv3:自监督视觉基模的规模化困局与 Gram Anchoring 破局

一个被忽视的现象:规模越大,特征越差 自监督视觉学习的叙事长期以来被一个乐观的假设驱动:更大的模型、更多的数据、更长的训练,必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%,在 ADE20K 语义分割上达到 49.5 mIoU,证明了自监督学习的可扩展性 [1]。 ...

2026年1月24日 · 11 分钟 · LexHsu

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题:全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构(JEPA)视为通向自主机器智能的核心路径 [3],其基本假设优雅而有力:预测应当在潜在空间中进行,而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域,取得了令人瞩目的成果,在动作识别(Kinetics-400: 87.3%)和视频-文本检索任务上均达到了当时的最佳水平。 ...

2026年1月10日 · 20 分钟 · LexHsu

ReconVLA:用 gaze-crop 重建给 VLA 视觉接地

OpenVLA 一线 VLA 把 vision token + text token + action token 全部 concat 给 LLM,用 next-token cross-entropy 监督,推理时 LLM 直接吐离散化 action token。这套 pipeline 训出来的 attention map 有一个反复出现的问题:散。VLA 看场景跟看哪个具体物体之间没区分,attention 几乎均匀铺在整个 frame 上。 ...

2025年10月27日 · 11 分钟 · LexHsu
访客 704 人次 · 访问 1065 次