Flow Matching 训练的广度、深度与物理 horizon:cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象:trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint,最后两三个点会往内或往外偏一个肉眼可见的角度,定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule:Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0,inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端,第一个 Euler 步因此在欠训区间上做了一次大跳,误差被后续步序放大。这个自洽,但只是表象。 ...

2026年6月26日 · 29 分钟 · LexHsu

MiniT2I:把文生图拉回 ImageNet 实验台

一、一个被默认接受的复杂性 文生图(Text-to-Image,T2I)在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮,但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文,第一反应是:先攒卡。 ...

2026年6月23日 · 14 分钟 · LexHsu

从 million 到 billion:VLA 训练 recipe 在量级跃迁上的工程层重构

VLA(vision-language-action)训练这一两年走到一个尴尬阶段:架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里,data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省,业界各家给出的答案差异显著,且大多是后置工程经验,缺少同条件下的横向 ablation。 ...

2026年6月13日 · 18 分钟 · LexHsu

X-Foresight:长时 chunk-wise AR 把世界模型嵌进 VLA 主干

X-Foresight(PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08)是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象,X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练,让同一张网络同时输出 chunk-wise 未来视频和 ego action,跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...

2026年6月9日 · 20 分钟 · LexHsu

训练大模型的 Scaling Law:科学、工程与边界

2026-06-25 更新:本文从原"训练大模型的工程学:从 Chinchilla 到 2026"全面升级——前半段(§1-§4)补齐 Lilian Weng 在 Scaling Laws, Carefully 中梳理的 scaling law 完整科学叙述(前史、Why power law、数据约束、拟合脆弱性),并增加一个交互式 D3 拟合 playground;后半段(§5-§10)保留原文的越界训练、训练基建、Post-training、VLA 工程清单,但每节都加上前半段科学结论在 VLA 场景的具体投影。Lilian 原文是这次升级的主要参考来源——我做的是把她的科学叙述与本博客原有的工程落地视角融合。 ...

2026年6月7日 · 43 分钟 · LexHsu

Qwen-VLA 解读:T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA(Qwen Team,arXiv:2605.30280,2026-05-28 v1)把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合;真正想清楚的设计在训练侧:四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来,T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT,让动作分布的语言索引在视觉介入之前就学完。 ...

2026年5月28日 · 16 分钟 · LexHsu

VLA 加几何 backbone 的负结果:GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队(Yang et al., arXiv:2605.24642)把 GR00T-N1.5(manipulation VLA)跟 VGGT(geometric foundation model)拼起来,做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果:standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著(p < 0.05)超过 GR00T baseline。 ...

2026年5月28日 · 14 分钟 · LexHsu

深入理解 KL 散度:四个视角

熵与信息论 §4 给了 KL 散度的定义跟几条性质,但容易在 ∑plog⁡(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL,每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用,每一个都能直接挂到其中一个视角的语言下。 ...

2026年5月28日 · 12 分钟 · LexHsu

HiF-VLA:把 codec 副产品当成 VLA 的时间记忆

CVPR 2026 的 HiF-VLA(项目页 / 代码),西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事:往前用 VLM 直接预测未来 motion vectors,往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%,比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...

2026年5月27日 · 10 分钟 · LexHsu

量产 VLA 的 8 个工程判断 + 4 个反例

量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...

2026年5月26日 · 8 分钟 · LexHsu

熵与信息论:从 -log p 到深度学习

信息论里最反直觉的事情,是它的核心度量 −log⁡p-\log p 看起来完全像个随手挑的形式,却几乎是被三条无害的要求强制出来的。本文从这一点起步,走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方:分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...

2026年5月25日 · 18 分钟 · LexHsu

Affordance vs Symbolic Perception in AD:二分 framing 错在哪

讨论 AD VLA 的时候经常听到一种二分:一边 “label-free / pure E2E / affordance”——人开车不靠语言思考,模型也不应该有 caption 或 detection head,photons 直接到 trajectory;另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注,必须保 V-L 对齐能力。Wayve / Tesla 一档,Mobileye 一档,蔚小理在中间。 ...

2026年5月24日 · 11 分钟 · LexHsu

Dense Latent Predictive Supervision in AD VLA:为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone?打开任一篇 NAVSIM 93 PDMS 一档的 paper:监督信号是未来 12-16 个 (x,y)(x, y) waypoints,一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert(典型 500M),总可学习参数 2.5B 量级。 ...

2026年5月24日 · 16 分钟 · LexHsu

自动驾驶 VLA 的 3D 视觉表征:从能力边界到工程注入

引言:这篇为什么写 写在前面:本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D:视觉表征的本体论问题》 讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题;《4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视》 用信息瓶颈五条件审计了九种 4D encoder 方案;《X-World:小鹏可控自车视角多相机世界模型》 拆解了重型 latent video diffusion 的生成派世界模型路径;Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...

2026年5月22日 · 36 分钟 · LexHsu

ATLAS:视觉推理的动作词表

引言:模型什么时候需要画一条线 几何题里的辅助线很少出现在题目里,却经常决定整道题能不能解出来。计数题里,先把候选目标圈出来,再逐个排除,比直接在自然语言里说“左边那个、上面那个、旁边那个”稳定得多。空间关系题也类似:判断猫有没有碰到杯子,视线会自然落到猫爪和杯脚之间那一小块接触区域。 ...

2026年5月21日 · 12 分钟 · LexHsu

X-World:小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言:从 Vista / DriveDreamer 到 X-World 的鸿沟 驾驶世界模型这两年的论文非常密集,但把它们摆到一起,会发现一条很尴尬的分水岭:左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率;DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成;MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入;MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西:7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

2026年5月20日 · 26 分钟 · LexHsu

自动驾驶世界模型 × Action:六范式在 NAVSIM 上的落地与跨域对偶

引言 上一篇 从预测未来到驱动行动:机器人世界模型的架构与评测 以 NTU/UC Berkeley/Stanford 联合综述为底本,把世界模型与策略的耦合方式归纳为六个范式:解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇:把同一套理论骨架带到自动驾驶,看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。 ...

2026年5月19日 · 19 分钟 · LexHsu

Polar Express:用 Chebyshev 逼近把 Muon 的矩阵正交化提速一倍

在 Muon 优化器:矩阵正交化驱动的梯度更新 中,我们建立了 msign 算子的数学骨架:把梯度矩阵 GG 投影到最近的正交矩阵 msign(G)=UVT\text{msign}(G) = UV^T,并用 Newton-Schulz 迭代避免完整的 SVD。这套方案已经在 Kimi K2 上实现了 2× 训练加速,但它有一个隐疾:Newton-Schulz 在矩阵奇异值跨度大时,前十几步几乎不动。 ...

2026年5月18日 · 16 分钟 · LexHsu

为什么大扩散模型不会背诵训练数据:两个时间尺度的隐式正则化

2023 年 Carlini 等人做了一件让 Stable Diffusion 团队和版权律师同时紧张的事:他们用一种"提示词反演"的攻击方法,从 Stable Diffusion 中逐像素重建出了部分训练图像,包括有身份的人脸和受版权保护的画作 [Carlini et al. 2023, USENIX]。论文里一张攻击图与训练原图的对照让人发凉——大模型确实在"背诵"。 ...

2026年5月18日 · 18 分钟 · LexHsu

4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视

引言:4D 输入与 VLA 序列瓶颈的矛盾 自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token,乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理(约 100 ms 预算)和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

2026年5月17日 · 20 分钟 · LexHsu

从预测未来到驱动行动:机器人世界模型的架构与评测

引言 在本系列前作中,V-JEPA 2.1 在潜在空间中做语义预测 [1],Wan2.2 在像素空间中渲染视觉上合理的未来 [2],VGGT 从 2D 观测中逆推 3D 几何 [3],DA3 把空间结构蒸馏为逐像素深度 [4],Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5],2D 到 4D 综述梳理了视觉基模的几何觉醒 [6],DINOv3 展示了自监督规模化对 dense feature 的突破 [7],X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开,回答的都是表征侧的问题:世界模型应该长什么样。 ...

2026年5月15日 · 14 分钟 · LexHsu

VLA 语义下的导航信息注入:从 Prompt 到 Diffusion Condition

在自动驾驶轨迹规划中,导航信息回答了一个根本问题:车应该往哪走? 没有它,模型只能对所有合理选项均匀采样——左转、直行、右转都可能出现。但这个问题的有趣之处在于导航信息是以什么形式、在模型的什么位置被注入和消费的。 ...

2026年5月14日 · 31 分钟 · LexHsu

得分匹配、GAN 与生成模型的统一

概率密度估计的经典方法——最大似然估计——要求模型给出归一化的概率密度 pθ(x)p_\theta(x),这在复杂模型中往往不可行,因为归一化常数 Zθ=∫p~θ(x)dxZ_\theta = \int \tilde{p}_\theta(x)dx 的高维积分无法解析求解。2005 年,Aapo Hyvarinen 提出了一个绕过归一化常数的方法:得分匹配(Score Matching)。它不估计密度本身,而是估计密度的梯度——得分函数。 ...

2026年5月11日 · 15 分钟 · LexHsu

VLM 时序记忆机制:从视频压缩到长短时记忆融合

引言 视觉语言模型(VLM)在处理单帧图像上已趋于成熟,但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知,还是具身智能中的长任务执行,核心挑战都在于:如何在不引爆 token 预算的前提下,保留对决策真正有价值的时序信息。 ...

2026年5月9日 · 11 分钟 · LexHsu

最优传输与 Wasserstein 距离:从 Monge 到 Kantorovich

1781 年,Gaspard Monge 在研究土木工程时提出了一个问题:如何以最小的代价将一堆土从一个地方搬到另一个地方?这个看似质朴的问题,在两百多年后成为概率论、优化和机器学习的交汇点。最优传输理论不仅给出了一种衡量概率分布之间距离的原则性方法,还揭示了概率度量与函数空间之间的深刻对偶关系。 ...

2026年5月6日 · 14 分钟 · LexHsu

代码即感知:当大模型「看得懂代码」才是攻克理科题的钥匙

引言 多模态大语言模型(MLLM)在 STEM 视觉推理上的表现长期不尽如人意。面对一张立体几何截面图或函数图像,模型往往能给出看似合理的推理步骤,却在关键的空间关系、数量属性上犯下低级错误——根本没"看准"图。 ...

2026年5月2日 · 11 分钟 · LexHsu

变分自编码器:从 ELBO 到重参数化

生成模型的核心任务是学习数据分布 p(x)p(x),然后从中采样生成新样本。对于观测变量 xx,一个自然的框架是引入隐变量 zz,通过联合分布 p(x,z)=p(x∣z)p(z)p(x, z) = p(x|z)p(z) 建模数据生成过程。然而,一旦模型建好,真正困难的步骤浮现出来:如何从观测 xx 推断隐变量 zz 的后验分布 p(z∣x)p(z|x)? 这里需要澄清一个常见的混淆:先验假设与后验假设是两件不同的事。VAE 假设先验 p(z)=N(0,I)p(z) = \mathcal{N}(0, I),这只是对边际分布的约束——它规定了隐空间的整体结构,但并未约束给定 xx 后 zz 的条件分布。真正核心的建模假设是:编码器输出的 qϕ(z∣x)=N(μϕ(x),σϕ2(x)I)q_\phi(z|x) = \mathcal{N}(\mu_\phi(x), \sigma_\phi^2(x) I) 近似真实后验 p(z∣x)p(z|x)。换言之,VAE 假设的核心不在于边际分布层面的"zz 是正态的",而在于条件分布层面的"给定 xx 后,zz 的后验是正态的"——并且用参数化的编码器来逼近这个后验。 ...

2026年5月2日 · 17 分钟 · LexHsu

ReflectDrive-2:理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言:离散扩散 + 端到端驾驶 = 新范式? 2025-2026 年,端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。 自回归(AR)派以 GPT-driver 和 VLA 系列为代表,token-by-token 顺序输出轨迹,串行解码慢,端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表,在连续空间去噪生成轨迹,但通常需要额外的 anchor 或 goal 系统辅助,破坏了原始数据分布。 ...

2026年4月25日 · 19 分钟 · LexHsu

Flow Matching 与一致性模型:生成范式的新统一

扩散模型的概率流 ODE 将生成过程表述为从噪声到数据的确定性映射。但 ODE 路径并非唯一——不同的漂移和扩散系数定义了不同的路径。一个自然的问题随之而来:是否存在一条"最优"路径?Flow Matching 给出了肯定的回答:最优传输路径是直线。一致性模型则进一步追问:如果路径已经是最优的,能否一步走完? ...

2026年4月25日 · 21 分钟 · LexHsu

扩散模型的 SDE/ODE 统一:随机微分方程到确定性采样

一、从离散到连续:马尔可夫链的 SDE 极限 DDPM 的前向过程是一个离散的马尔可夫链:每一步从 xt−1x_{t-1} 到 xtx_t 添加一个小的高斯噪声。这个离散过程有一个自然的连续极限——当时间步长 Δt→0\Delta t \to 0 时,马尔可夫链收敛于一个随机微分方程(SDE)。 ...

2026年4月22日 · 21 分钟 · LexHsu

凯明的方法论:从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来 何恺明(Kaiming He)的论文有一种一眼能认出的辨识度。 这种辨识度并非来自文风。他的论文写作并不华丽,公式不多,章节短,图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度,但每一次削减都站在一个更深的先验(prior)上,因此不构成 cheating。 ...

2026年4月18日 · 21 分钟 · LexHsu

扩散模型的变分基础:从 ELBO 到去噪

DDPM 前向/反向过程的基础推导见 扩散模型与自动驾驶规划,本文聚焦变分下界的分解与最优参数化。 从直觉出发:拆楼与建楼 DDPM 的核心思想可以用一个朴素的类比来理解:一栋大楼(数据)可以逐步拆解为砖瓦水泥(噪声),反过来,学会拆楼的逆过程就能从砖瓦水泥重建大楼。这个类比的核心在于:逐步拆比一步拆更可控。如果一次爆破将大楼瞬间化为废墟,从废墟中重建大楼几乎不可能——因为信息丢失太严重,逆过程极度复杂。但如果每步只拆一小部分,每步的变化都很小,那么每步的逆过程也足够简单,可以用一个简单的高斯分布来描述。 ...

2026年4月18日 · 16 分钟 · LexHsu

旋转约束下的压缩:从 RoPE 到 DeepSeek MLA

Transformer 推理的一个核心瓶颈是 KV Cache:每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用,其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时,KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...

2026年4月11日 · 17 分钟 · LexHsu

DeepSeek 以视觉原语思考:让多模态大模型学会「用手指着推理」

引言:一个尚未命名的瓶颈 给一张密集人群照片到任意 frontier 多模态模型,问「图里有多少人」,错误率会显著高于稀疏场景;给一张复杂电路图问空间位置关系,答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高,能看清每个细节。一个被反复观察到但很少被独立分析的现象是:模型在用自然语言构建多步思维链时,「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标,注意力随推理步数累积漂移。 ...

2026年4月4日 · 19 分钟 · LexHsu

RoPE 的 β 进制类比与长度外推

RoPE 优雅地解决了"用绝对编码实现相对位置"的问题,但它自身面临另一个挑战:当模型需要处理训练时未见过的更长序列时,位置编码会发生什么?这个问题——长度外推——直接决定了模型能否在推理阶段扩展上下文窗口。理解长度外推的关键,在于苏剑林提出的一个深刻类比:RoPE 的旋转角度就是 β\beta 进制数的各位数字。 ...

2026年4月4日 · 19 分钟 · LexHsu

X-Cache:小鹏自动驾驶世界模型的推理加速 Infra

引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...

2026年3月28日 · 10 分钟 · LexHsu

旋转位置编码的几何本质:从复数到旋转矩阵

位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变,这意味着同一个句子打乱词序后,自注意力的计算逻辑完全不变。然而语言的本质是序列性的,“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命,就是将序的结构注入一个天生无视顺序的机制中。 ...

2026年3月28日 · 18 分钟 · LexHsu

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

2026年3月21日 · 12 分钟 · LexHsu

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机:传统几何重建在什么地方失效 一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声,IMU 漂移开始累积,前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题:相机相对于隧道结构的位姿是什么?前方 30 米处那个反射点距离车头多远? ...

2026年3月21日 · 17 分钟 · LexHsu

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览:14B MoE DiT + Flow Matching + 3D VAE,详见 Wan2.2 GitHub 1. 承诺:视频生成即世界模拟 当 OpenAI 在 2024 年初发布 Sora 时,其叙事框架经过了精心设计:这不仅仅是一个视频生成器,而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段,物体以合理的方式碰撞和变形,镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型,在某种层面上,必然理解世界是如何运作的。 ...

2026年3月14日 · 27 分钟 · LexHsu

Muon 优化器:矩阵正交化驱动的梯度更新

在前两篇文章中,我们建立了奇异值分解和谱范数的理论基础。SVD 告诉我们矩阵可以分解为旋转和拉伸的组合,谱范数量化了最大拉伸因子,条件数决定了优化的难易程度。现在,我们将这些概念串联起来,理解一个正在改变大模型训练范式的优化器——Muon。 ...

2026年3月14日 · 25 分钟 · LexHsu

Qwen3.5 vs Qwen3: A Deep Architectural Comparison

Figure from Qwen3.5-Omni Technical Report 本文基于 Qwen3.5 官方技术文档及代码结构分析,系统梳理 Qwen3.5 相较于 Qwen3 在架构层面的代际演进。两者之间的差异远非简单的参数调优,而是在注意力机制、多模态融合方式、稀疏化策略和位置编码等多个维度上进行了根本性的设计重构。 ...

2026年3月7日 · 12 分钟 · LexHsu

从 2D 到 4D:视觉表征的本体论问题

文章定位 本文讨论 4D 视觉表征的本体论问题:什么是 4D?为什么 4D 是 world model 的关键?spatial-temporal joint vs decoupled 在表征空间几何上意味着什么?这些问题既不能从单个 paper 推出,也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...

2026年3月7日 · 11 分钟 · LexHsu

谱范数、条件数与优化景观

在上一篇文章中,我们讨论了奇异值分解与低秩近似。奇异值不仅刻画了矩阵的"能量分布",还定义了两个极其重要的量:谱范数和条件数。谱范数衡量矩阵的最大拉伸能力,条件数则刻画了矩阵"各向异性"的程度。这两个概念在优化理论和深度学习实践中扮演着核心角色——条件数决定了梯度下降的收敛速度,谱范数则是控制神经网络 Lipschitz 常数的关键工具。 ...

2026年3月7日 · 11 分钟 · LexHsu

奇异值分解与低秩近似:从矩阵压缩到 LoRA 微调

线性代数中,矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式,QR 分解揭示了正交性的力量,而奇异值分解(Singular Value Decomposition, SVD)则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求,却能揭示矩阵最本质的几何结构。 ...

2026年2月28日 · 17 分钟 · LexHsu

Driving JEPA 综述:V-JEPA 系列方法在自动驾驶场景的应用

文章定位 本文是 V-JEPA 系列方法在自动驾驶场景的应用综述,与 V-JEPA 2.1 paper 精读 视角区分——后者讲方法本身的数学(context loss、距离加权、deep self-supervision、multi-modal tokenizer)和训练细节(VisionMix-163M、两阶段训练、cool-down 配置),本文聚焦 driving benchmark 的 fine-tune 结果与变体设计:nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略(motion-aware mask、temporal-coherent mask、causal future mask),以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...

2026年2月21日 · 11 分钟 · LexHsu

Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基:深度为何是世界模型的基石 一个无法度量距离的世界模型,也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时,决策的核心依赖于一个几何量:与前方障碍物的距离。当机械臂伸手去拿咖啡杯时,运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时,大脑持续估计球的距离和速度以计算拦截点。在每一个例子中,支配行动的物理推理都锚定在几何之上,而几何始于深度。 ...

2026年2月7日 · 24 分钟 · LexHsu

LeJEPA:当 JEPA 不再需要启发式

系统 2 与不预测像素的认知动机 LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点:智能体的核心能力是在抽象表征空间里预测自己行动的后果,再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。 ...

2026年2月7日 · 12 分钟 · LexHsu

DINOv3:自监督视觉基模的规模化困局与 Gram Anchoring 破局

一个被忽视的现象:规模越大,特征越差 自监督视觉学习的叙事长期以来被一个乐观的假设驱动:更大的模型、更多的数据、更长的训练,必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%,在 ADE20K 语义分割上达到 49.5 mIoU,证明了自监督学习的可扩展性 [1]。 ...

2026年1月24日 · 11 分钟 · LexHsu

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题:全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构(JEPA)视为通向自主机器智能的核心路径 [3],其基本假设优雅而有力:预测应当在潜在空间中进行,而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域,取得了令人瞩目的成果,在动作识别(Kinetics-400: 87.3%)和视频-文本检索任务上均达到了当时的最佳水平。 ...

2026年1月10日 · 20 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次