Posts

Flow Matching 训练的广度、深度与物理 horizon：cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象：trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint，最后两三个点会往内或往外偏一个肉眼可见的角度，定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule：Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0，inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端，第一个 Euler 步因此在欠训区间上做了一次大跳，误差被后续步序放大。这个自洽，但只是表象。 ...

MiniT2I：把文生图拉回 ImageNet 实验台

一、一个被默认接受的复杂性文生图（Text-to-Image，T2I）在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮，但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文，第一反应是：先攒卡。 ...

从 million 到 billion：VLA 训练 recipe 在量级跃迁上的工程层重构

VLA（vision-language-action）训练这一两年走到一个尴尬阶段：架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里，data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省，业界各家给出的答案差异显著，且大多是后置工程经验，缺少同条件下的横向 ablation。 ...

X-Foresight：长时 chunk-wise AR 把世界模型嵌进 VLA 主干

X-Foresight（PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08）是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象，X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练，让同一张网络同时输出 chunk-wise 未来视频和 ego action，跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...

训练大模型的 Scaling Law：科学、工程与边界

2026-06-25 更新：本文从原"训练大模型的工程学：从 Chinchilla 到 2026"全面升级——前半段（§1-§4）补齐 Lilian Weng 在 Scaling Laws, Carefully 中梳理的 scaling law 完整科学叙述（前史、Why power law、数据约束、拟合脆弱性），并增加一个交互式 D3 拟合 playground；后半段（§5-§10）保留原文的越界训练、训练基建、Post-training、VLA 工程清单，但每节都加上前半段科学结论在 VLA 场景的具体投影。Lilian 原文是这次升级的主要参考来源——我做的是把她的科学叙述与本博客原有的工程落地视角融合。 ...

Qwen-VLA 解读：T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA（Qwen Team，arXiv:2605.30280，2026-05-28 v1）把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合；真正想清楚的设计在训练侧：四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来，T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT，让动作分布的语言索引在视觉介入之前就学完。 ...

VLA 加几何 backbone 的负结果：GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队（Yang et al., arXiv:2605.24642）把 GR00T-N1.5（manipulation VLA）跟 VGGT（geometric foundation model）拼起来，做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果：standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著（p < 0.05）超过 GR00T baseline。 ...

深入理解 KL 散度：四个视角

熵与信息论 §4 给了 KL 散度的定义跟几条性质，但容易在 ∑plog⁡(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL，每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用，每一个都能直接挂到其中一个视角的语言下。 ...

HiF-VLA：把 codec 副产品当成 VLA 的时间记忆

CVPR 2026 的 HiF-VLA（项目页 / 代码），西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事：往前用 VLM 直接预测未来 motion vectors，往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%，比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...

量产 VLA 的 8 个工程判断 + 4 个反例

量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...

熵与信息论：从 -log p 到深度学习

信息论里最反直觉的事情，是它的核心度量 −log⁡p-\log p 看起来完全像个随手挑的形式，却几乎是被三条无害的要求强制出来的。本文从这一点起步，走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方：分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...

Affordance vs Symbolic Perception in AD：二分 framing 错在哪

讨论 AD VLA 的时候经常听到一种二分：一边 “label-free / pure E2E / affordance”——人开车不靠语言思考，模型也不应该有 caption 或 detection head，photons 直接到 trajectory；另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注，必须保 V-L 对齐能力。Wayve / Tesla 一档，Mobileye 一档，蔚小理在中间。 ...

Dense Latent Predictive Supervision in AD VLA：为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone？打开任一篇 NAVSIM 93 PDMS 一档的 paper：监督信号是未来 12-16 个 (x,y)(x, y) waypoints，一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert（典型 500M），总可学习参数 2.5B 量级。 ...

自动驾驶 VLA 的 3D 视觉表征：从能力边界到工程注入

引言：这篇为什么写写在前面：本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D：视觉表征的本体论问题》讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题；《4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视》用信息瓶颈五条件审计了九种 4D encoder 方案；《X-World：小鹏可控自车视角多相机世界模型》拆解了重型 latent video diffusion 的生成派世界模型路径；Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...

ATLAS：视觉推理的动作词表

引言：模型什么时候需要画一条线几何题里的辅助线很少出现在题目里，却经常决定整道题能不能解出来。计数题里，先把候选目标圈出来，再逐个排除，比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似：判断猫有没有碰到杯子，视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...

X-World：小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言：从 Vista / DriveDreamer 到 X-World 的鸿沟驾驶世界模型这两年的论文非常密集，但把它们摆到一起，会发现一条很尴尬的分水岭：左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率；DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成；MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入；MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西：7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

自动驾驶世界模型 × Action：六范式在 NAVSIM 上的落地与跨域对偶

引言上一篇从预测未来到驱动行动：机器人世界模型的架构与评测以 NTU/UC Berkeley/Stanford 联合综述为底本，把世界模型与策略的耦合方式归纳为六个范式：解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇：把同一套理论骨架带到自动驾驶，看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。 ...

Polar Express：用 Chebyshev 逼近把 Muon 的矩阵正交化提速一倍

在 Muon 优化器：矩阵正交化驱动的梯度更新中，我们建立了 msign 算子的数学骨架：把梯度矩阵 GG 投影到最近的正交矩阵 msign(G)=UVT\text{msign}(G) = UV^T，并用 Newton-Schulz 迭代避免完整的 SVD。这套方案已经在 Kimi K2 上实现了 2× 训练加速，但它有一个隐疾：Newton-Schulz 在矩阵奇异值跨度大时，前十几步几乎不动。 ...

为什么大扩散模型不会背诵训练数据：两个时间尺度的隐式正则化

2023 年 Carlini 等人做了一件让 Stable Diffusion 团队和版权律师同时紧张的事：他们用一种"提示词反演"的攻击方法，从 Stable Diffusion 中逐像素重建出了部分训练图像，包括有身份的人脸和受版权保护的画作 [Carlini et al. 2023, USENIX]。论文里一张攻击图与训练原图的对照让人发凉——大模型确实在"背诵"。 ...

4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视

引言：4D 输入与 VLA 序列瓶颈的矛盾自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token，乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理（约 100 ms 预算）和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

从预测未来到驱动行动：机器人世界模型的架构与评测

引言在本系列前作中，V-JEPA 2.1 在潜在空间中做语义预测 [1]，Wan2.2 在像素空间中渲染视觉上合理的未来 [2]，VGGT 从 2D 观测中逆推 3D 几何 [3]，DA3 把空间结构蒸馏为逐像素深度 [4]，Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5]，2D 到 4D 综述梳理了视觉基模的几何觉醒 [6]，DINOv3 展示了自监督规模化对 dense feature 的突破 [7]，X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开，回答的都是表征侧的问题：世界模型应该长什么样。 ...

VLA 语义下的导航信息注入：从 Prompt 到 Diffusion Condition

在自动驾驶轨迹规划中，导航信息回答了一个根本问题：车应该往哪走？没有它，模型只能对所有合理选项均匀采样——左转、直行、右转都可能出现。但这个问题的有趣之处在于导航信息是以什么形式、在模型的什么位置被注入和消费的。 ...

得分匹配、GAN 与生成模型的统一

概率密度估计的经典方法——最大似然估计——要求模型给出归一化的概率密度 pθ(x)p_\theta(x)，这在复杂模型中往往不可行，因为归一化常数 Zθ=∫p~θ(x)dxZ_\theta = \int \tilde{p}_\theta(x)dx 的高维积分无法解析求解。2005 年，Aapo Hyvarinen 提出了一个绕过归一化常数的方法：得分匹配（Score Matching）。它不估计密度本身，而是估计密度的梯度——得分函数。 ...

VLM 时序记忆机制：从视频压缩到长短时记忆融合

引言视觉语言模型（VLM）在处理单帧图像上已趋于成熟，但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知，还是具身智能中的长任务执行，核心挑战都在于：如何在不引爆 token 预算的前提下，保留对决策真正有价值的时序信息。 ...

最优传输与 Wasserstein 距离：从 Monge 到 Kantorovich

1781 年，Gaspard Monge 在研究土木工程时提出了一个问题：如何以最小的代价将一堆土从一个地方搬到另一个地方？这个看似质朴的问题，在两百多年后成为概率论、优化和机器学习的交汇点。最优传输理论不仅给出了一种衡量概率分布之间距离的原则性方法，还揭示了概率度量与函数空间之间的深刻对偶关系。 ...

代码即感知：当大模型「看得懂代码」才是攻克理科题的钥匙

引言多模态大语言模型（MLLM）在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像，模型往往能给出看似合理的推理步骤，却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

变分自编码器：从 ELBO 到重参数化

生成模型的核心任务是学习数据分布 p(x)p(x)，然后从中采样生成新样本。对于观测变量 xx，一个自然的框架是引入隐变量 zz，通过联合分布 p(x,z)=p(x∣z)p(z)p(x, z) = p(x|z)p(z) 建模数据生成过程。然而，一旦模型建好，真正困难的步骤浮现出来：如何从观测 xx 推断隐变量 zz 的后验分布 p(z∣x)p(z|x)？这里需要澄清一个常见的混淆：先验假设与后验假设是两件不同的事。VAE 假设先验 p(z)=N(0,I)p(z) = \mathcal{N}(0, I)，这只是对边际分布的约束——它规定了隐空间的整体结构，但并未约束给定 xx 后 zz 的条件分布。真正核心的建模假设是：编码器输出的 qϕ(z∣x)=N(μϕ(x),σϕ2(x)I)q_\phi(z|x) = \mathcal{N}(\mu_\phi(x), \sigma_\phi^2(x) I) 近似真实后验 p(z∣x)p(z|x)。换言之，VAE 假设的核心不在于边际分布层面的"zz 是正态的"，而在于条件分布层面的"给定 xx 后，zz 的后验是正态的"——并且用参数化的编码器来逼近这个后验。 ...

ReflectDrive-2：理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言：离散扩散 + 端到端驾驶 = 新范式？ 2025-2026 年，端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。自回归(AR)派以 GPT-driver 和 VLA 系列为代表，token-by-token 顺序输出轨迹，串行解码慢，端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表，在连续空间去噪生成轨迹，但通常需要额外的 anchor 或 goal 系统辅助，破坏了原始数据分布。 ...

Flow Matching 与一致性模型：生成范式的新统一

扩散模型的概率流 ODE 将生成过程表述为从噪声到数据的确定性映射。但 ODE 路径并非唯一——不同的漂移和扩散系数定义了不同的路径。一个自然的问题随之而来：是否存在一条"最优"路径？Flow Matching 给出了肯定的回答：最优传输路径是直线。一致性模型则进一步追问：如果路径已经是最优的，能否一步走完？ ...

扩散模型的 SDE/ODE 统一：随机微分方程到确定性采样

一、从离散到连续：马尔可夫链的 SDE 极限 DDPM 的前向过程是一个离散的马尔可夫链：每一步从 xt−1x_{t-1} 到 xtx_t 添加一个小的高斯噪声。这个离散过程有一个自然的连续极限——当时间步长 Δt→0\Delta t \to 0 时，马尔可夫链收敛于一个随机微分方程（SDE）。 ...

凯明的方法论：从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来何恺明（Kaiming He）的论文有一种一眼能认出的辨识度。这种辨识度并非来自文风。他的论文写作并不华丽，公式不多，章节短，图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度，但每一次削减都站在一个更深的先验（prior）上，因此不构成 cheating。 ...

扩散模型的变分基础：从 ELBO 到去噪

DDPM 前向/反向过程的基础推导见扩散模型与自动驾驶规划，本文聚焦变分下界的分解与最优参数化。从直觉出发：拆楼与建楼 DDPM 的核心思想可以用一个朴素的类比来理解：一栋大楼（数据）可以逐步拆解为砖瓦水泥（噪声），反过来，学会拆楼的逆过程就能从砖瓦水泥重建大楼。这个类比的核心在于：逐步拆比一步拆更可控。如果一次爆破将大楼瞬间化为废墟，从废墟中重建大楼几乎不可能——因为信息丢失太严重，逆过程极度复杂。但如果每步只拆一小部分，每步的变化都很小，那么每步的逆过程也足够简单，可以用一个简单的高斯分布来描述。 ...

旋转约束下的压缩：从 RoPE 到 DeepSeek MLA

Transformer 推理的一个核心瓶颈是 KV Cache：每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用，其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时，KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...

DeepSeek 以视觉原语思考：让多模态大模型学会「用手指着推理」

引言：一个尚未命名的瓶颈给一张密集人群照片到任意 frontier 多模态模型，问「图里有多少人」，错误率会显著高于稀疏场景；给一张复杂电路图问空间位置关系，答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高，能看清每个细节。一个被反复观察到但很少被独立分析的现象是：模型在用自然语言构建多步思维链时，「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标，注意力随推理步数累积漂移。 ...

RoPE 的 β 进制类比与长度外推

RoPE 优雅地解决了"用绝对编码实现相对位置"的问题，但它自身面临另一个挑战：当模型需要处理训练时未见过的更长序列时，位置编码会发生什么？这个问题——长度外推——直接决定了模型能否在推理阶段扩展上下文窗口。理解长度外推的关键，在于苏剑林提出的一个深刻类比：RoPE 的旋转角度就是 β\beta 进制数的各位数字。 ...

X-Cache：小鹏自动驾驶世界模型的推理加速 Infra

引言：世界模型的 Infra 瓶颈自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA（Vision-Language-Action）系统。在这个新范式中，世界模型（World Model）正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...

旋转位置编码的几何本质：从复数到旋转矩阵

位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变，这意味着同一个句子打乱词序后，自注意力的计算逻辑完全不变。然而语言的本质是序列性的，“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命，就是将序的结构注入一个天生无视顺序的机制中。 ...

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机：传统几何重建在什么地方失效一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声，IMU 漂移开始累积，前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题：相机相对于隧道结构的位姿是什么？前方 30 米处那个反射点距离车头多远？ ...

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览：14B MoE DiT + Flow Matching + 3D VAE，详见 Wan2.2 GitHub 1. 承诺：视频生成即世界模拟当 OpenAI 在 2024 年初发布 Sora 时，其叙事框架经过了精心设计：这不仅仅是一个视频生成器，而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段，物体以合理的方式碰撞和变形，镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型，在某种层面上，必然理解世界是如何运作的。 ...

Muon 优化器：矩阵正交化驱动的梯度更新

在前两篇文章中，我们建立了奇异值分解和谱范数的理论基础。SVD 告诉我们矩阵可以分解为旋转和拉伸的组合，谱范数量化了最大拉伸因子，条件数决定了优化的难易程度。现在，我们将这些概念串联起来，理解一个正在改变大模型训练范式的优化器——Muon。 ...

Qwen3.5 vs Qwen3: A Deep Architectural Comparison

Figure from Qwen3.5-Omni Technical Report 本文基于 Qwen3.5 官方技术文档及代码结构分析，系统梳理 Qwen3.5 相较于 Qwen3 在架构层面的代际演进。两者之间的差异远非简单的参数调优，而是在注意力机制、多模态融合方式、稀疏化策略和位置编码等多个维度上进行了根本性的设计重构。 ...

从 2D 到 4D：视觉表征的本体论问题

文章定位本文讨论 4D 视觉表征的本体论问题：什么是 4D？为什么 4D 是 world model 的关键？spatial-temporal joint vs decoupled 在表征空间几何上意味着什么？这些问题既不能从单个 paper 推出，也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...

谱范数、条件数与优化景观

在上一篇文章中，我们讨论了奇异值分解与低秩近似。奇异值不仅刻画了矩阵的"能量分布"，还定义了两个极其重要的量：谱范数和条件数。谱范数衡量矩阵的最大拉伸能力，条件数则刻画了矩阵"各向异性"的程度。这两个概念在优化理论和深度学习实践中扮演着核心角色——条件数决定了梯度下降的收敛速度，谱范数则是控制神经网络 Lipschitz 常数的关键工具。 ...

奇异值分解与低秩近似：从矩阵压缩到 LoRA 微调

线性代数中，矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式，QR 分解揭示了正交性的力量，而奇异值分解（Singular Value Decomposition, SVD）则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求，却能揭示矩阵最本质的几何结构。 ...

Driving JEPA 综述：V-JEPA 系列方法在自动驾驶场景的应用

文章定位本文是 V-JEPA 系列方法在自动驾驶场景的应用综述，与 V-JEPA 2.1 paper 精读视角区分——后者讲方法本身的数学（context loss、距离加权、deep self-supervision、multi-modal tokenizer）和训练细节（VisionMix-163M、两阶段训练、cool-down 配置），本文聚焦 driving benchmark 的 fine-tune 结果与变体设计：nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略（motion-aware mask、temporal-coherent mask、causal future mask），以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...

Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基：深度为何是世界模型的基石一个无法度量距离的世界模型，也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时，决策的核心依赖于一个几何量：与前方障碍物的距离。当机械臂伸手去拿咖啡杯时，运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时，大脑持续估计球的距离和速度以计算拦截点。在每一个例子中，支配行动的物理推理都锚定在几何之上，而几何始于深度。 ...

LeJEPA：当 JEPA 不再需要启发式

系统 2 与不预测像素的认知动机 LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点：智能体的核心能力是在抽象表征空间里预测自己行动的后果，再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。 ...

DINOv3：自监督视觉基模的规模化困局与 Gram Anchoring 破局

一个被忽视的现象：规模越大，特征越差自监督视觉学习的叙事长期以来被一个乐观的假设驱动：更大的模型、更多的数据、更长的训练，必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%，在 ADE20K 语义分割上达到 49.5 mIoU，证明了自监督学习的可扩展性 [1]。 ...

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题：全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构（JEPA）视为通向自主机器智能的核心路径 [3]，其基本假设优雅而有力：预测应当在潜在空间中进行，而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域，取得了令人瞩目的成果，在动作识别（Kinetics-400: 87.3%）和视频-文本检索任务上均达到了当时的最佳水平。 ...