从 2D 到 4D:视觉表征的本体论问题
文章定位 本文讨论 4D 视觉表征的本体论问题:什么是 4D?为什么 4D 是 world model 的关键?spatial-temporal joint vs decoupled 在表征空间几何上意味着什么?这些问题既不能从单个 paper 推出,也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...
文章定位 本文讨论 4D 视觉表征的本体论问题:什么是 4D?为什么 4D 是 world model 的关键?spatial-temporal joint vs decoupled 在表征空间几何上意味着什么?这些问题既不能从单个 paper 推出,也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...
在上一篇文章中,我们讨论了奇异值分解与低秩近似。奇异值不仅刻画了矩阵的"能量分布",还定义了两个极其重要的量:谱范数和条件数。谱范数衡量矩阵的最大拉伸能力,条件数则刻画了矩阵"各向异性"的程度。这两个概念在优化理论和深度学习实践中扮演着核心角色——条件数决定了梯度下降的收敛速度,谱范数则是控制神经网络 Lipschitz 常数的关键工具。 ...
线性代数中,矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式,QR 分解揭示了正交性的力量,而奇异值分解(Singular Value Decomposition, SVD)则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求,却能揭示矩阵最本质的几何结构。 ...
文章定位 本文是 V-JEPA 系列方法在自动驾驶场景的应用综述,与 V-JEPA 2.1 paper 精读 视角区分——后者讲方法本身的数学(context loss、距离加权、deep self-supervision、multi-modal tokenizer)和训练细节(VisionMix-163M、两阶段训练、cool-down 配置),本文聚焦 driving benchmark 的 fine-tune 结果与变体设计:nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略(motion-aware mask、temporal-coherent mask、causal future mask),以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...
Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基:深度为何是世界模型的基石 一个无法度量距离的世界模型,也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时,决策的核心依赖于一个几何量:与前方障碍物的距离。当机械臂伸手去拿咖啡杯时,运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时,大脑持续估计球的距离和速度以计算拦截点。在每一个例子中,支配行动的物理推理都锚定在几何之上,而几何始于深度。 ...
系统 2 与不预测像素的认知动机 LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点:智能体的核心能力是在抽象表征空间里预测自己行动的后果,再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。 ...
一个被忽视的现象:规模越大,特征越差 自监督视觉学习的叙事长期以来被一个乐观的假设驱动:更大的模型、更多的数据、更长的训练,必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%,在 ADE20K 语义分割上达到 49.5 mIoU,证明了自监督学习的可扩展性 [1]。 ...
核心问题:全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构(JEPA)视为通向自主机器智能的核心路径 [3],其基本假设优雅而有力:预测应当在潜在空间中进行,而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域,取得了令人瞩目的成果,在动作识别(Kinetics-400: 87.3%)和视频-文本检索任务上均达到了当时的最佳水平。 ...
引言 图片来自 CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discovery 开放式发现(Open-Ended Discovery)——在解空间缺乏清晰结构、评估可能代价高昂或信号稀疏的领域中搜索新颖且高质量的解——仍然是自动科学推理中最困难的挑战之一。与梯度或凸性可以引导搜索方向的约束优化不同,开放式问题要求持续的探索、部分洞察的积累,以及在进展停滞时重新调整方向的能力。数学猜想证明、系统级代码优化、组合设计等问题都属于这一范畴。 ...
为什么自动驾驶需要扩散模型? 自动驾驶规划的核心难题在于"找到正确的轨迹分布",而非仅仅是"找到一条轨迹"。 考虑一个简单场景:自车接近一个无信号灯的 T 字路口。存在三种合理选项——左转、右转、直行通过。传统回归模型(L1/L2 损失)训练后面对此场景会输出三条轨迹的平均值:一条斜向路口中央的无意义曲线。这是损失函数的结构性局限,而非模型的能力缺陷——L2 回归在多模态分布上的最优解恰好是条件均值,而条件均值在物理上可能根本不可行。 ...