训练大模型的 Scaling Law:科学、工程与边界

2026-06-25 更新:本文从原"训练大模型的工程学:从 Chinchilla 到 2026"全面升级——前半段(§1-§4)补齐 Lilian Weng 在 Scaling Laws, Carefully 中梳理的 scaling law 完整科学叙述(前史、Why power law、数据约束、拟合脆弱性),并增加一个交互式 D3 拟合 playground;后半段(§5-§10)保留原文的越界训练、训练基建、Post-training、VLA 工程清单,但每节都加上前半段科学结论在 VLA 场景的具体投影。Lilian 原文是这次升级的主要参考来源——我做的是把她的科学叙述与本博客原有的工程落地视角融合。 ...

2026年6月7日 · 43 分钟 · LexHsu

旋转约束下的压缩:从 RoPE 到 DeepSeek MLA

Transformer 推理的一个核心瓶颈是 KV Cache:每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用,其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时,KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...

2026年4月11日 · 17 分钟 · LexHsu

RoPE 的 β 进制类比与长度外推

RoPE 优雅地解决了"用绝对编码实现相对位置"的问题,但它自身面临另一个挑战:当模型需要处理训练时未见过的更长序列时,位置编码会发生什么?这个问题——长度外推——直接决定了模型能否在推理阶段扩展上下文窗口。理解长度外推的关键,在于苏剑林提出的一个深刻类比:RoPE 的旋转角度就是 β\beta 进制数的各位数字。 ...

2026年4月4日 · 19 分钟 · LexHsu

旋转位置编码的几何本质:从复数到旋转矩阵

位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变,这意味着同一个句子打乱词序后,自注意力的计算逻辑完全不变。然而语言的本质是序列性的,“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命,就是将序的结构注入一个天生无视顺序的机制中。 ...

2026年3月28日 · 18 分钟 · LexHsu

Qwen3.5 vs Qwen3: A Deep Architectural Comparison

Figure from Qwen3.5-Omni Technical Report 本文基于 Qwen3.5 官方技术文档及代码结构分析,系统梳理 Qwen3.5 相较于 Qwen3 在架构层面的代际演进。两者之间的差异远非简单的参数调优,而是在注意力机制、多模态融合方式、稀疏化策略和位置编码等多个维度上进行了根本性的设计重构。 ...

2026年3月7日 · 12 分钟 · LexHsu

奇异值分解与低秩近似:从矩阵压缩到 LoRA 微调

线性代数中,矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式,QR 分解揭示了正交性的力量,而奇异值分解(Singular Value Decomposition, SVD)则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求,却能揭示矩阵最本质的几何结构。 ...

2026年2月28日 · 17 分钟 · LexHsu

CORAL:面向开放式发现的自主多Agent进化

引言 图片来自 CORAL: Autonomous Multi-Agent Evolution for Open-Ended Discovery 开放式发现(Open-Ended Discovery)——在解空间缺乏清晰结构、评估可能代价高昂或信号稀疏的领域中搜索新颖且高质量的解——仍然是自动科学推理中最困难的挑战之一。与梯度或凸性可以引导搜索方向的约束优化不同,开放式问题要求持续的探索、部分洞察的积累,以及在进展停滞时重新调整方向的能力。数学猜想证明、系统级代码优化、组合设计等问题都属于这一范畴。 ...

2025年11月22日 · 16 分钟 · LexHsu

Multi-Head Latent Attention: DeepSeek V2/V3 工程视角

本文聚焦工程视角。 MLA 的数学推导(从 RoPE 出发到 latent 投影、partial RoPE 的兼容性证明、权重吸收的代数推导)详见 https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/。本文不重复这些数学内容,只讨论 DeepSeek V2/V3 实际部署中关心的工程数字与设计取舍。 ...

2025年9月13日 · 5 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次