Xu'Blog

从 2D 到 4D：视觉表征的本体论问题

文章定位本文讨论 4D 视觉表征的本体论问题：什么是 4D？为什么 4D 是 world model 的关键？spatial-temporal joint vs decoupled 在表征空间几何上意味着什么？这些问题既不能从单个 paper 推出，也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...

谱范数、条件数与优化景观

在上一篇文章中，我们讨论了奇异值分解与低秩近似。奇异值不仅刻画了矩阵的"能量分布"，还定义了两个极其重要的量：谱范数和条件数。谱范数衡量矩阵的最大拉伸能力，条件数则刻画了矩阵"各向异性"的程度。这两个概念在优化理论和深度学习实践中扮演着核心角色——条件数决定了梯度下降的收敛速度，谱范数则是控制神经网络 Lipschitz 常数的关键工具。 ...

奇异值分解与低秩近似：从矩阵压缩到 LoRA 微调

线性代数中，矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式，QR 分解揭示了正交性的力量，而奇异值分解（Singular Value Decomposition, SVD）则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求，却能揭示矩阵最本质的几何结构。 ...

Driving JEPA 综述：V-JEPA 系列方法在自动驾驶场景的应用

文章定位本文是 V-JEPA 系列方法在自动驾驶场景的应用综述，与 V-JEPA 2.1 paper 精读视角区分——后者讲方法本身的数学（context loss、距离加权、deep self-supervision、multi-modal tokenizer）和训练细节（VisionMix-163M、两阶段训练、cool-down 配置），本文聚焦 driving benchmark 的 fine-tune 结果与变体设计：nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略（motion-aware mask、temporal-coherent mask、causal future mask），以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...

Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基：深度为何是世界模型的基石一个无法度量距离的世界模型，也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时，决策的核心依赖于一个几何量：与前方障碍物的距离。当机械臂伸手去拿咖啡杯时，运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时，大脑持续估计球的距离和速度以计算拦截点。在每一个例子中，支配行动的物理推理都锚定在几何之上，而几何始于深度。 ...

LeJEPA：当 JEPA 不再需要启发式

系统 2 与不预测像素的认知动机 LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点：智能体的核心能力是在抽象表征空间里预测自己行动的后果，再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。 ...

DINOv3：自监督视觉基模的规模化困局与 Gram Anchoring 破局

一个被忽视的现象：规模越大，特征越差自监督视觉学习的叙事长期以来被一个乐观的假设驱动：更大的模型、更多的数据、更长的训练，必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%，在 ADE20K 语义分割上达到 49.5 mIoU，证明了自监督学习的可扩展性 [1]。 ...

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题：全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构（JEPA）视为通向自主机器智能的核心路径 [3]，其基本假设优雅而有力：预测应当在潜在空间中进行，而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域，取得了令人瞩目的成果，在动作识别（Kinetics-400: 87.3%）和视频-文本检索任务上均达到了当时的最佳水平。 ...

CORAL：面向开放式发现的自主多Agent进化

引言图片来自 CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discovery 开放式发现(Open-Ended Discovery)——在解空间缺乏清晰结构、评估可能代价高昂或信号稀疏的领域中搜索新颖且高质量的解——仍然是自动科学推理中最困难的挑战之一。与梯度或凸性可以引导搜索方向的约束优化不同，开放式问题要求持续的探索、部分洞察的积累，以及在进展停滞时重新调整方向的能力。数学猜想证明、系统级代码优化、组合设计等问题都属于这一范畴。 ...

扩散模型与自动驾驶规划：从去噪的数学到轨迹的生成

为什么自动驾驶需要扩散模型？自动驾驶规划的核心难题在于"找到正确的轨迹分布"，而非仅仅是"找到一条轨迹"。考虑一个简单场景：自车接近一个无信号灯的 T 字路口。存在三种合理选项——左转、右转、直行通过。传统回归模型（L1/L2 损失）训练后面对此场景会输出三条轨迹的平均值：一条斜向路口中央的无意义曲线。这是损失函数的结构性局限，而非模型的能力缺陷——L2 回归在多模态分布上的最优解恰好是条件均值，而条件均值在物理上可能根本不可行。 ...