LeJEPA：当 JEPA 不再需要启发式

系统 2 与不预测像素的认知动机

LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点：智能体的核心能力是在抽象表征空间里预测自己行动的后果，再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。

把这个论点翻译到工程层面：面前放一瓶没盖盖子的水。从底部推，瓶子在桌上滑动；从靠近瓶口处推，瓶子会翻倒。我们无法在像素级别预测水会以什么角度泼出、会流向桌面的哪一侧、瓶身会以什么轨迹倾倒——但我们可以在抽象层面预测会发生什么类型的事件。世界模型应该在这个层面工作。任何要求模型在像素层面重建未来的训练目标，都在消耗大量容量去拟合与决策无关的细节。

这条认知路径直接产出了一个工程选择：预测应当在表征空间，而非像素空间进行。生成式架构（VAE、MAE、扩散模型）通过重建像素来学习表征——这是 LeCun 主张的"输给了"的方向 [3]。非生成式的联合嵌入预测架构（Joint Embedding Predictive Architecture，JEPA）选择另一条路：用两个编码器分别处理两个相关输入（如视频的两段、图像的两个 view），再让一个 predictor 从一方的表征预测另一方的表征 [2]。

但这条路上立刻撞到一个根本性的工程问题：representation collapse。

防 Collapse 的方法学谱系

如果只让 predictor 最小化预测误差，存在一个平凡解：所有输入都映射到同一个常数向量。预测变成 trivial，损失变成 0。这不是 bug，是 loss landscape 的真实最优。任何 JEPA 类方法都必须有机制阻止这种坍缩。

防 collapse 的整个研究史可以归纳为三条路线：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
1989/92  Becker-Hinton / Schmidhuber              # 互信息最大化（理论先驱，未实用）
                          │
1993     LeCun: Contrastive Learning              # 正负样本对，scale 不上去
                          │
2020s    BYOL / DINO / V-JEPA / V-JEPA 2.1        # Distillation：EMA teacher + stop-gradient
                          │                       # 工作，但没人完全理解为什么
                          │
2022     VICReg                                   # 显式约束：均值、方差、协方差
                          │
2025     LeJEPA / SIGReg                          # 强约束完整分布 = isotropic Gaussian

Contrastive（1993）：LeCun 自己最早提出的方案 [3]。给一对应该相似的样本和一对应该不同的样本，最大化前者表征的相似度、最小化后者的。这条路工作，但有个致命缺陷——不 scale with dimension。随着嵌入维度升高，需要的负样本数指数级增长。当嵌入维度上千、batch 上万时，contrastive 的有效信号严重稀释。

Distillation（2020s）：BYOL 开创、DINO 系列发扬光大、V-JEPA / V-JEPA 2.1 沿用的范式 [4]。两个编码器共享架构但不共享权重：student 通过反向传播更新，teacher 用 student 的 EMA 更新，student 学着预测 teacher 的输出，teacher 一侧不传梯度（stop-gradient）。这套机制在实践中工作得很好，但理论上没人能完全说清为什么——你以为你在最小化某个损失函数，但模型实际收敛到的不是这个损失的最小值。监控训练时损失曲线甚至会向上漂移。所谓"crossing fingers and it works"。

V-JEPA 2.1 详细修了 distillation 路线下 context token 坍缩为全局聚合器的问题（详见 V-JEPA 2.1 深读）。但 V-JEPA 2.1 修的是这条路线的症状，没有动它的根——那一堆启发式：EMA 调度、stop-gradient、teacher-student、各种 warmup 和 scheduled schedules。

显式信息正则（2022→）：另一条更老但一直没爆发的路线。Becker & Hinton 在 1989、Schmidhuber 在 1992 都提出过通过最大化两个网络输出的互信息来防止坍缩 [5][6]。问题在于互信息只有上界，不能直接测量——你只能取一个上界然后 cross fingers。VICReg（2022）把这个想法落地：把"最大化信息"近似为约束嵌入分布的均值和协方差——让均值接近 0、协方差接近单位阵 [7]。

LeJEPA 是这条线的下一步。它问了一个更根本的问题：究竟应该把嵌入分布约束成什么样？

SIGReg：直接对齐到各向同性高斯

LeJEPA 的理论 backbone 是这样一个定理（[1] Theorem 1，论文 Section 3）：

在所有具有 scalar-based covariance 约束的分布中，各向同性高斯（isotropic Gaussian）唯一最小化下游任务的 integrated square bias。

这个最小化对两种下游 probe 都成立：

线性 probe 与 k-NN： $\mathrm{ISB}_{k\text{-NN}} = \frac{r_0^4}{(K+2)^2} \tau_g^2 J(p) + O(r_0^4)$
非线性 kernel probe： $\mathrm{ISB}_{\text{kernel}} \le \left(\frac{h^2 \mu_2(K)}{2}\right)^2 \big(2B^2 + 8L^2 J(p)\big)$

中间细节是 Fisher 信息和高斯分布 Fisher 信息最小化的经典结果（论文 Appendix B.4、B.7）。但要点是：isotropic Gaussian 不是一个工程选择，是从最小化下游 worst-case risk 这个明确目标推出来的最优分布。

定理给了目标，工程问题随之而来：如何在高维嵌入空间里实际把分布约束到 isotropic Gaussian？直接估计 d 维分布的 KL 散度到 isotropic Gaussian 在 d ~ 1000 的 ViT 嵌入维度下计算上不现实。

LeJEPA 的招式是切片（slicing）：把高维分布投影到一维方向上，逐切片对齐。这是 Cramér-Wold 定理的现代用法——一个 d 维分布完全由它在所有方向上的一维投影决定。所以"把 $p_z$ 对齐到 isotropic Gaussian"等价于"把 $p_z$ 沿每个一维方向投影后都对齐到一维标准高斯"。

具体的损失叫 SIGReg（Sketched Isotropic Gaussian Regularization），论文 Definition 2：

\mathcal{L}_{\text{SIGReg}}\big(A, \{f_\theta(x_n)\}_{n=1}^N\big) = \frac{1}{|A|} \sum_{a \in A} T\big(\{a^\top f_\theta(x_n)\}_{n=1}^N\big)

其中 $A$ 是从单位球面上随机采样的一组方向（论文默认 1024 个）， $T$ 是一个一维统计检验，用来测量"沿方向 $a$ 投影后的经验分布"与"一维标准高斯"的差距。

$Figure 2 — SIGReg 三面板示意图：左侧任意输入分布 pxp_x（可能在流形上）→ encoder fθf_\theta → 中间嵌入云 pzp_z 与随机投影方向 aa → 右侧每个方向上的一维边缘密度（彩色）必须匹配目标分布在同方向上的投影（黑色高斯）$

Epps-Pulley：可微的一维高斯拟合度

$T$ 的选择是工程关键。LeJEPA 推荐的是 Epps-Pulley 检验（论文 Section 4.2.3），基于经验特征函数与目标特征函数的加权 L2 距离：

\mathrm{EP} = N \int_{-\infty}^{\infty} |\hat\varphi_X(t) - \varphi(t)|^2 \, w(t) \, dt

其中经验特征函数

\hat\varphi_X(t) = \frac{1}{n}\sum_{j=1}^n e^{itX_j}

$\varphi(t) = e^{-t^2/2}$ 是标准高斯的特征函数，权重 $w(t) = e^{-t^2/\sigma^2}$ 是另一个高斯权重保证积分有限且数值稳定。

Epps-Pulley 相对其他正态性检验（Kolmogorov-Smirnov、Anderson-Darling、Shapiro-Wilk）的优势在工程层面是决定性的：

完全可微：是积分形式，不涉及排序或秩统计量
线性复杂度：经验特征函数是 $n$ 个复指数的平均， $O(n)$
GPU 友好：可以完全向量化，跨设备分布
bounded：积分有界，训练稳定，不会爆炸

实际实现里积分用数值积分逼近：默认 17 个积分点，积分区间 $[-5, 5]$ 。整个 SIGReg 损失的核心实现据论文摘要约 50 行代码。

LeJEPA 完整训练目标

把预测损失和 SIGReg 拼起来就是 LeJEPA 完整训练目标（论文 Section 5.1）：

\mathcal{L}_{\text{LeJEPA}} = \underbrace{\sum_{n,v,v'} \|\mu_n - z_{n,v'}\|_2^2}_{\text{predict (JEPA)}} + \lambda \cdot \underbrace{\frac{1}{|A|}\sum_{a \in A} \mathrm{EP}\big(\{a^\top z_{n,v}\}_{n,v}\big)}_{\text{SIGReg}}

其中 $z_{n,v} = f_\theta(x_{n,v})$ 是第 $n$ 个样本第 $v$ 个 view 的嵌入， $\mu_n = \frac{1}{|V_g|}\sum_{v \in V_g} z_{n,v}$ 是 global views 嵌入的均值（作为 student 的预测目标）。 $\lambda$ 是唯一的超参数（论文推荐 $\lambda=0.05$ ）。

注意公式里没有 stop-gradient、没有 teacher-student、没有 EMA。 $\mu_n$ 就是同一个 encoder $f_\theta$ 在 global views 上的输出平均，梯度正常流过。这是 LeJEPA 的核心声明：JEPA 不需要那些启发式，只是历史上还没找到一个足够强的显式约束。

VICReg 是 SIGReg 的退化极限

LeJEPA 论文 Section 5.2 给了一个让 VICReg 用户立刻能理解 SIGReg 强弱关系的论断：

如果令 $T(\{x_n\}_{n=1}^B) = \mathrm{mean}(\{x_n\})^2 + (\mathrm{std}(\{x_n\}) - 1)^2$ ，并在大量切片数极限下使用 SIGReg，则恢复 VICReg。

换句话说：

VICReg 约束：均值（一阶矩） $\to 0$ ，标准差（二阶矩） $\to 1$
SIGReg 约束：完整分布 $\to$ 标准高斯（所有矩）

VICReg 是 SIGReg 在 $T$ 只检测前两阶矩时的特例。这立刻解释了为什么 VICReg 工作但不够好——一个双峰分布、一个均匀分布、和一个标准高斯可以有完全相同的均值和方差，VICReg 全部接受，但只有高斯是 Theorem 1 意义下最优的。

让 SIGReg 强于 VICReg 的不是更复杂的损失，是约束完整分布而非只约束矩这件事本身。

实验：ViT-H/14 在 ImageNet 拿到 79%

LeJEPA 的实验展示（论文 Section 6.1）相对克制——这是一个偏理论 + 工程简化的工作，不是 SOTA 角逐。但几个数字值得记：

ViT-Large/14，100 epochs，frozen backbone + linear probe，IN-1k 上达到与 DINOv2 同级别的精度
ViT-H/14，达到 79% linear probe
Galaxy10（领域差异大的小数据集）：in-domain 用 LeJEPA 训练超过从 DINOv2、DINOv3 迁移——这是个有意思的数据点，说明单超参的稳定 SSL 让 domain-specific 训练重新变得可行
默认配置： $\lambda=0.05$ ，2 个 global views + 8 个 local views，batch $\ge 128$ ，1024 个切片方向

最后一条数字背后是工程层面的释放：当 SSL 训练只有一个超参，跨数据集、跨架构、跨 batch size 的调试成本接近于零。论文消融显示 LeJEPA 对架构、batch、Epps-Pulley 积分参数都很鲁棒。

这是 LeCun 在访谈里说"如果只读一篇就读这篇"的原因——不是因为 LeJEPA 在标准 benchmark 上颠覆了什么，而是因为它从原理上拆掉了 JEPA 训练里一整堆启发式的脚手架。

把 LeJEPA 放回 World Models 系列

JEPA 的真正赌注从来不是 ImageNet linear probe 的几个百分点。它是 LeCun 关于世界模型应当如何被训练的工程命题：

不预测像素（输给了的方向）
在表征空间预测（V-JEPA / V-JEPA 2 系列证明了在视频上可行）
防止 collapse 的机制必须是可证明最优的，不能是 cross fingers 的启发式（LeJEPA 的贡献）

第 3 步在 LeJEPA 之前一直是 JEPA 路线的软肋——你跟人讲 V-JEPA 工作得很好，对方问"那个 EMA teacher 为什么不会塌？" 你只能说"实践上不会，但我们也不确定为什么"。这在工程上能凑合，在理论上是缺口。LeJEPA 第一次给出了一个理论上对齐到唯一最优分布、工程上单超参实现、代码不到 50 行的方案。

它不直接是"下一个 V-JEPA"——它是 V-JEPA 这条路线下面的地基重铸。未来 V-JEPA 3、Driving JEPA 的下一代、所有用 JEPA 训练 world model 的工作，理论上都应该把 distillation 的脚手架换成 SIGReg。

与系列其他文章的关系

V-JEPA 2.1 修的是 distillation 路线下 dense feature 的工程问题（详见 V-JEPA 2.1 深读）。这是有用的，因为 V-JEPA 2.1 时代 LeJEPA 还没有出现，distillation 仍是工业级 JEPA 训练的现实选择。但从 LeJEPA 的视角回看，V-JEPA 2.1 那一整套 dense predictive loss + 距离加权 + warmup 的工程修复，可能在 SIGReg 框架下不必要——因为约束完整分布到 isotropic Gaussian 已经隐含了"每个 token 的局部信息都被保留"。

DINOv3 走的是 distillation 路线的另一种工程修复——Gram Anchoring 防止大规模训练下 dense feature 退化（详见 DINOv3）。同样地，这是在 distillation 框架内的局部最优。LeJEPA 没有 dense feature 退化的对应问题——因为它根本没有 EMA teacher。

Driving JEPA（详见 Driving JEPA）作为 JEPA 在 driving world model 上的具身落地，目前仍基于 V-JEPA 系列的 distillation backbone。如果 LeJEPA 的工程稳定性兑现，driving 这种数据 domain 差异大、计算预算紧、需要稳定可复现的场景，可能是 LeJEPA 最直接的受益者——单超参、对 batch size 鲁棒、in-domain 训练超过迁移。

LeCun 在访谈里提的 Tapestry（联邦学习训练全球开放基模）也契合这条路线——分布式训练时各节点都用同一个稳定 SSL 目标、不需要协调 EMA schedule，工程上极大降低了协同复杂度。

局限与开放问题

LeJEPA 不是终点。论文本身明确指出的局限：

理论局限：Theorem 1 是在 scalar-based covariance 约束下的最优性。如果未来证明某个特定下游任务有更强的先验（比如几何、物理约束），最优分布可能不再是 isotropic Gaussian
切片数 trade-off：1024 切片在 ViT-L 上够用，但更大模型、更高嵌入维度时切片数是否需要随维度 scale 尚未充分研究
Epps-Pulley 积分参数：积分区间和点数对极端分布尾部的覆盖有限。论文消融显示对常见情况鲁棒，但 long-tail 分布场景下可能需要调整

工程上的开放问题：

视频 JEPA 上的实证：LeJEPA 当前实验集中在静态图像。把它接入 V-JEPA 视频训练框架（time + space 双重切片？）会怎样？这是 V-JEPA 3 应该回答的问题
Action-conditioned 设置：JEPA → world model 的关键一步是把 predictor 变成 action-conditioned。LeJEPA 的稳定性是否在 action 条件下依然成立尚待验证

结论

LeJEPA 把 JEPA 从一个"实践上工作但理论上说不清楚"的工程产物，重新变成了一个"理论上有最优性保证、工程上极简"的训练范式。这件事的意义不在 ImageNet linear probe 的几个百分点，而在于：

它让 JEPA 从一堆相互纠缠的启发式（EMA teacher、stop-gradient、各种 warmup 和 scheduled schedules）里走出来了。剩下的就一个超参 $\lambda$ 、一组随机方向、一个一维高斯检验。代码 50 行。

LeCun 在 2025 年的访谈里说"如果只读一篇就读这篇"，他想说的是"这是 JEPA 路线的地基现在重新铺好了"——不是"这是 SOTA"。世界模型这条赌注的下一阶段（V-JEPA 3、driving 的 JEPA 落地、机器人的 action-conditioned 世界模型）都应该在这块新地基上建。

References

本文部分 reference 的 arXiv ID 为 2025 年实际编号；其他引用待论文正式公开后将更新链接。

- [1] Balestriero & LeCun, “LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics,” arXiv:2511.08544, 2025.

- [2] Assran et al., “V-JEPA 2: Self-Supervised Video Pretraining with Scalable Features,” 2025.

- [3] LeCun on Unsupervised Learning Podcast (Jacob Effron, Redpoint), 2025. “A Path Towards Autonomous Machine Intelligence,” 2022.

- [4] Grill et al., “Bootstrap Your Own Latent (BYOL),” 2020. Caron et al., “Emerging Properties in Self-Supervised Vision Transformers (DINO),” 2021.

- [5] Becker & Hinton, “Self-organizing neural network that discovers surfaces in random-dot stereograms,” Nature, 1992.

- [6] Schmidhuber, “Learning factorial codes by predictability minimization,” Neural Computation, 1992.

- [7] Bardes, Ponce & LeCun, “VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning,” ICLR 2022.

系统 2 与不预测像素的认知动机#

防 Collapse 的方法学谱系#

SIGReg：直接对齐到各向同性高斯#

Epps-Pulley：可微的一维高斯拟合度#

LeJEPA 完整训练目标#

VICReg 是 SIGReg 的退化极限#

实验：ViT-H/14 在 ImageNet 拿到 79%#

把 LeJEPA 放回 World Models 系列#

与系列其他文章的关系#

局限与开放问题#

结论#

References#

相关文章