训练大模型的 Scaling Law:科学、工程与边界
2026-06-25 更新:本文从原"训练大模型的工程学:从 Chinchilla 到 2026"全面升级——前半段(§1-§4)补齐 Lilian Weng 在 Scaling Laws, Carefully 中梳理的 scaling law 完整科学叙述(前史、Why power law、数据约束、拟合脆弱性),并增加一个交互式 D3 拟合 playground;后半段(§5-§10)保留原文的越界训练、训练基建、Post-training、VLA 工程清单,但每节都加上前半段科学结论在 VLA 场景的具体投影。Lilian 原文是这次升级的主要参考来源——我做的是把她的科学叙述与本博客原有的工程落地视角融合。 ...