线性代数中,矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式,QR 分解揭示了正交性的力量,而奇异值分解(Singular Value Decomposition, SVD)则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求,却能揭示矩阵最本质的几何结构。
这篇文章从 SVD 的几何直觉出发,推导 Eckart-Young 最优低秩近似定理,然后回答一个在深度学习实践中反复出现的问题:为什么一个秩远小于原矩阵维度的分解,仍然能够有效近似原矩阵?LoRA 微调正是这一原理的工程实例。
SVD 的几何直觉
任何一个 的实矩阵 都可以分解为
其中 是 正交矩阵, 是 正交矩阵, 是 对角矩阵,对角线上的元素 称为奇异值,。
这个分解的几何含义非常清晰:一个线性变换可以分解为三步操作——旋转、拉伸、旋转。
具体来说,对于 ,向量 经过 变换为 的过程可以理解为:
- 旋转: 是正交矩阵,它的作用是将 旋转到一组新的坐标轴方向。正交变换不改变向量的长度和相对位置,只改变方向。
- 拉伸: 是对角矩阵,它沿着每个坐标轴方向进行独立的缩放。第 个方向上的缩放因子恰好是 。
- 旋转:最后, 将拉伸后的结果旋转到输出空间的最终方向。
最经典的例子是单位圆的变换。二维空间中的单位圆经过 旋转后仍然是单位圆(正交变换保距),经过 拉伸后变成椭圆,半轴长度恰好等于 和 ,再经过 旋转后,椭圆的方向被旋转到了最终的朝向。
当我们将某个奇异值设为零时,对应的"拉伸方向"被完全舍弃,椭圆退化为一条线段(rank-1 近似)或一个点(rank-0)。这就是低秩近似的几何本质:丢弃小奇异值对应的方向,只保留大奇异值对应的主要形变。
SVD 的代数定义
更形式化地,设 ,其奇异值分解为
其中 是 的第 列(左奇异向量), 是 的第 列(右奇异向量), 是奇异值。
这个展开形式揭示了一个重要事实:矩阵 可以表示为 个秩为 1 的矩阵之和,每个秩 1 矩阵 捕捉了 的一个"成分",其重要性由 衡量。
奇异值与特征值的关系也值得注意: 的特征值恰好是 ,对应的特征向量就是 。类似地, 的特征值也是 ,特征向量是 。这意味着 SVD 可以通过求解 或 的特征值分解来获得。
Moore-Penrose 伪逆
在推导 Eckart-Young 定理之前,我们需要引入一个关键工具——Moore-Penrose 伪逆。它不仅给出了奇异值分解的"逆运算",还为低秩近似提供了统一的优化视角。
设 的 SVD 为 ,其伪逆定义为
其中 是将 中非零奇异值取倒数后转置得到的矩阵:若 的对角线为 ,则 的对角线为 。
当 是可逆方阵时,;当 列满秩时,;当 行满秩时,。伪逆是逆矩阵概念在任意形状、任意秩矩阵上的推广。
伪逆的优化视角
伪逆不仅是一个代数定义,它还可以从优化问题中自然地导出。考虑
其中 是 单位矩阵。这个优化问题的含义是:在所有 中,找到使得 最接近单位矩阵的那个。对目标函数求导并令其为零,可以得到最优解恰好是 。类似地, 也是 的最优解。
这个优化视角揭示了一个重要事实:伪逆是"最小二乘意义下最接近逆矩阵的矩阵"。
伪逆桥接低秩近似
伪逆的关键作用在于,它将低秩近似问题分解为两个更简单的子问题。考虑
我们可以将 参数化为 (其中 ,),从而将问题改写为
这是一个交替最小化的标准形式。关键观察是:给定 时, 的最优解为
这是因为伪逆给出了 的解析最优解——正是伪逆的优化视角的直接推论。将 代回后,问题化简为对 的搜索,而 的最优解对应于 的前 个左奇异向量,从而回收到截断 SVD 的结果。
苏剑林在《低秩近似之路》系列中正是用伪逆桥接了整个推理链:从伪逆的定义出发,通过优化视角推导出低秩近似的结构,再由此得到 SVD 截断的最优性。这种处理方式使得伪逆、SVD 和 CR 近似三篇文章形成了统一的逻辑体系——伪逆是"最优近似"的语言,SVD 给出了这个语言的具体答案,而 CR 近似则是在附加结构约束下的最优近似。
Eckart-Young 定理
SVD 最深刻的性质之一是它给出了最优低秩近似。这就是 Eckart-Young-Mirsky 定理:
定理(Eckart-Young, 1936):设 的 SVD 为 ,截断 SVD 定义为
则对于任意秩不超过 的矩阵 ,有
即 是 在所有秩不超过 的矩阵中 Frobenius 范数意义下的最优近似。
这个定理的证明思路非常优雅。首先,注意到
也就是说,截断 SVD 的近似误差恰好是被舍弃的奇异值的平方和。
证明的关键在于利用矩阵的秩的可加性约束。对于任意秩不超过 的矩阵 , 的秩不超过 (但更精确的分析利用了秩与奇异值的关系)。通过 Weyl 不等式, 的第 大奇异值至少是 ,因此
这就完成了证明。定理对谱范数(2-范数)同样成立:,且这是所有秩不超过 的近似中的最小值。
借助伪逆的语言,Eckart-Young 定理也可以这样理解:将低秩近似问题参数化为 (其中 有 列),给定 后 的最优解是 ,而 的最优选择正是 的前 个左奇异向量构成的矩阵。截断 SVD 的最优性,就是伪逆在这个嵌套优化问题中提供的解析最优解。
Eckart-Young 定理告诉我们:截断 SVD 是有理论保证的最优解,而非启发式方法。在所有秩不超过 的矩阵中,你找不到比 更好的近似。
谱衰减假设:为什么现实矩阵通常是低秩的?
Eckart-Young 定理保证了截断 SVD 是最优的,但它没有告诉我们近似误差有多大。这取决于奇异值的衰减速度。
如果奇异值快速衰减——前几个奇异值占据了大部分能量——那么即使 , 也能很好地近似 。反之,如果奇异值缓慢衰减,低秩近似就会丢失大量信息。
定义矩阵的"累积能量占比"为
当 而 时,我们说这个矩阵是"低秩友好"的。
关键观察是:现实世界中的许多矩阵确实是低秩友好的。这不是巧合,而有深层的原因:
平滑性:自然图像的像素矩阵通常具有高度的空间相关性,相邻像素值变化缓慢。这种平滑性意味着矩阵的大部分信息集中在少数几个奇异向量上。JPEG 压缩的核心——离散余弦变换(DCT)——就是在利用这一性质。
有限生成机制:在神经网络中,权重矩阵的更新往往沿着低维子空间进行。经验研究表明,SGD 训练过程中的梯度方向高度集中,少数几个方向贡献了大部分方差。这意味着训练好的权重矩阵可以用低秩矩阵很好地近似。
统计结构:推荐系统中的用户-物品交互矩阵、语言模型中的词共现矩阵,其背后都有少量隐因子驱动。这些低维隐因子结构使得矩阵天然是低秩的。
观察上图可以发现,对于快速衰减的谱,仅保留前 5-10 个奇异值就能捕获超过 99% 的能量;而对于缓慢衰减的谱,则需要保留更多的分量。这也解释了为什么同一套低秩近似方法在不同场景下效果差异巨大——它取决于数据本身的谱结构。
LoRA:低秩分解的工程实例
LoRA(Low-Rank Adaptation)是低秩近似理论在深度学习中最成功的应用之一。其核心思想极为简洁:
对于一个预训练好的权重矩阵 ,LoRA 将微调时的增量参数化为
其中 ,,。微调后的权重为
参数量从 降低到 。当 、 时,参数量仅为原来的 。
LoRA 有效的关键假设是:微调过程中的权重增量 具有低秩结构。这不是一个先验假设——它由 SVD 的语言可以精确表达:如果 的奇异值快速衰减,那么存在一个低秩矩阵 能够很好地近似它。Hu et al. (2022) 的实验证实了这一点——他们发现 LoRA 学到的 的有效秩(即奇异值显著不为零的维度)通常非常低。
从 Eckart-Young 定理的角度看, 是 的最优秩 近似(当 和 无约束时)。当然,实际训练中 是通过梯度下降直接优化的,而非对 做 SVD 截断——但两者在数学上是等价的:SGD 在低秩约束下的最优解必然收敛到截断 SVD 的结果。
为什么微调增量天然低秩?一种直觉是:预训练已经将权重带到了一个"好"的邻域,微调只需要在这个邻域内做小幅调整。而高维空间中的局部调整,其自由度远小于整个参数空间——类似于泰勒展开中低阶项主导了局部行为。另一种视角来自流形假设:自然数据的参数空间本身可能就嵌在低维流形上,微调只是沿着这个流形移动。
MLA 中的低秩联合投影
低秩近似在大型语言模型中的另一个关键应用是 DeepSeek 的 Multi-head Latent Attention(MLA)。其核心思想是:将 Key 和 Value 的投影矩阵联合压缩到一个低秩隐空间。
标准 Multi-Head Attention 中,每个 token 需要缓存的 KV 对维度为 ( 为头数, 为头维度)。MLA 的做法是引入一个下投影矩阵 (),将输入投影到低秩隐空间
再由上投影矩阵恢复 Key 和 Value:
缓存的对象从完整的 KV 向量变为了压缩后的 ,长度从 降低到 。在 DeepSeek-V2 中,,而原始 KV 维度为 ,压缩比超过 。
这其实就是 SVD 低秩近似的工程实现:联合 KV 投影矩阵 被 和 近似,其秩被 限制。由于注意力权重矩阵的谱通常快速衰减(长序列中的注意力高度集中),这种低秩压缩在几乎不损失性能的前提下极大地降低了推理开销。
关于 MLA 的更详细分析,可以参考本站的 DeepSeek MLA 详解。
CR 近似:有结构约束的低秩近似
SVD 截断给出的是无约束的最优低秩近似——近似矩阵的每个元素都可以取任意值。但在许多实际场景中,我们希望近似矩阵保留原始数据的某些结构。CR(Column-Row)近似正是这样一类有结构约束的低秩近似。
CR 近似的基本形式为
其中 是从 中选出的 列子矩阵, 是选出的 行子矩阵, 为目标秩。与 SVD 截断不同,CR 近似的因子直接来自原始矩阵的行列,而非抽象的奇异向量。
这带来了几个重要的区别:
可解释性:SVD 的奇异向量通常是所有原始行/列的线性组合,缺乏直接的物理含义;而 CR 近似选出的行列就是原始数据的一部分,保留了解释性。在特征选择场景中,这意味着我们可以直接识别"哪些特征最重要",而不仅仅是"哪些组合最重要"。
兼容非线性运算:许多数据管道在矩阵运算之外还涉及非线性操作(如逐元素激活函数)。SVD 截断后的矩阵不再具有原始数据的结构,难以与这些非线性操作交互;而 CR 近似保留的行列可以直接穿过非线性层。
计算效率:CR 近似不需要计算完整的 SVD,只需选择重要的行和列,计算量显著更低。这在随机化线性代数(randomized linear algebra)中被广泛利用。
CR 近似与 SVD 截断的精度差距取决于原始矩阵的结构。当 的主要信息集中在少数行列上时(例如稀疏矩阵或局部化矩阵),CR 近似可以非常接近 SVD 截断的效果;当信息均匀分散时,CR 近似的误差会更大,因为它无法像 SVD 那样通过线性组合来"浓缩"信息。
在深度学习中,CR 近似的思想出现在结构化低秩近似的研究中——例如,对神经网络的权重矩阵做低秩近似时,如果要求近似矩阵的某些行或列与原矩阵相同(以保持与特定神经元连接的兼容性),就自然地引出了 CR 近似的问题。
苏剑林在《低秩近似之路(三):CR 近似》中详细讨论了 CR 近似的最优选择策略,以及它与 SVD 截断之间的精度关系。从伪逆的统一视角看,SVD 截断是"无约束最优",CR 近似是"行列约束下的最优"——两者共享同一个优化框架,只是约束条件不同。
小结
奇异值分解揭示了矩阵最本质的结构——它将任意线性变换分解为旋转和拉伸的组合,而奇异值量化了每个方向上"拉伸"的强度。伪逆给出了 SVD 的"逆运算",为低秩近似提供了统一的优化语言:将 中内层优化的解析解表达为伪逆,使得截断 SVD 的最优性可以从嵌套优化的结构中自然推出。Eckart-Young 定理保证了截断 SVD 是无约束下的最优低秩近似,而 CR 近似则表明,即使在附加行列选择的结构约束下,低秩近似的框架依然适用——只是约束不同,最优解的形式不同。
LoRA 和 MLA 都是无约束低秩近似的成功实践。它们的有效性建立在同一个经验事实之上:深度学习中的许多矩阵——无论是微调增量还是注意力投影——其奇异值谱都呈现快速衰减的特征。低秩近似是在"去噪"而非"丢失信息"——小奇异值对应的成分往往是不重要的或者甚至是噪声。
相关概念
- 谱范数与条件数 — SVD的奇异值定义谱范数σ₁和条件数σ₁/σᵣ,详见谱范数、条件数与优化景观
- 正交化与优化 — SVD是msign算子的计算基础,截断SVD与Newton-Schulz迭代的关系,详见Muon优化器
- 低秩压缩与位置编码 — MLA中的KV联合投影是SVD低秩近似的工程实现,详见从RoPE到DeepSeek MLA
- LoRA的变分视角 — 低秩参数化在扩散模型中同样出现,详见扩散模型的变分基础
参考文献
- 苏剑林. 低秩近似之路(一):伪逆. https://kexue.fm/archives/10366
- 苏剑林. 低秩近似之路(二):SVD. https://kexue.fm/archives/10407
- 苏剑林. 低秩近似之路(三):CR近似. https://kexue.fm/archives/10427
- Eckart, C., & Young, G. (1936). The approximation of one matrix by another of lower rank. Psychometrika, 1(3), 211-218.
- Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022.
- DeepSeek-AI. (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model.