得分匹配、GAN 与生成模型的统一

概率密度估计的经典方法——最大似然估计——要求模型给出归一化的概率密度 $p_\theta(x)$ ，这在复杂模型中往往不可行，因为归一化常数 $Z_\theta = \int \tilde{p}_\theta(x)dx$ 的高维积分无法解析求解。2005 年，Aapo Hyvarinen 提出了一个绕过归一化常数的方法：得分匹配（Score Matching）。它不估计密度本身，而是估计密度的梯度——得分函数。

得分匹配的思想起初并未在生成模型领域引起广泛关注。直到 2019 年左右，宋飏将去噪得分匹配与朗之万采样结合，提出了基于得分的生成模型，随后发展出扩散模型。与此同时，苏剑林从能量视角分析了 GAN 的训练动力学，揭示了 GAN 与扩散 ODE 的深层联系。

这篇文章从得分匹配出发，建立 VAE、GAN 和扩散模型在分布匹配框架下的统一视角，展示这三条看似不同的研究路线如何收敛到同一组数学结构。

得分函数与 Hyvarinen 得分匹配

得分函数定义为对数概率密度的梯度：

s(x) = \nabla_x \log p(x)

得分函数有一个重要性质：它不依赖于归一化常数。因为 $\log p(x) = \log \tilde{p}(x) - \log Z$ ，而 $\nabla_x \log Z = 0$ ，所以 $\nabla_x \log p(x) = \nabla_x \log \tilde{p}(x)$ 。这意味着我们可以用未归一化的模型来计算得分函数，完全绕过配分函数的计算难题。

Hyvarinen 的关键观察是：我们可以通过匹配得分函数来估计模型参数，而不需要知道归一化常数。具体地，定义 Fisher 散度：

J(\theta) = \mathbb{E}_{p_{\text{data}}}\left[\frac{1}{2}\|s_\theta(x) - s_{\text{data}}(x)\|^2\right]

其中 $s_\theta(x) = \nabla_x \log p_\theta(x)$ 是模型的得分函数， $s_{\text{data}}(x) = \nabla_x \log p_{\text{data}}(x)$ 是数据的得分函数。

直接优化 $J(\theta)$ 需要知道数据得分 $s_{\text{data}}(x)$ ，而这正是未知的。Hyvarinen 的贡献在于证明了，在温和的正则条件下， $J(\theta)$ 可以改写为仅涉及 $s_\theta(x)$ 及其雅可比矩阵的形式：

J(\theta) = \mathbb{E}_{p_{\text{data}}}\left[\text{tr}(\nabla_x s_\theta(x)) + \frac{1}{2}\|s_\theta(x)\|^2\right] + \text{const}

其中 $\nabla_x s_\theta(x)$ 是得分函数的雅可比矩阵， $\text{tr}(\cdot)$ 是迹运算。这个目标不涉及数据得分 $s_{\text{data}}(x)$ ，可以直接用数据样本估计期望项。

但 Hyvarinen 得分匹配有一个实际限制： $\text{tr}(\nabla_x s_\theta(x))$ 的计算需要对 $s_\theta$ 的每个分量求偏导，在 $x$ 是高维向量时计算量很大。这正是去噪得分匹配要解决的问题。

去噪得分匹配

Vincent (2011) 提出的去噪得分匹配（Denoising Score Matching, DSM）提供了一个等价但更高效的替代方案。核心思想是：对数据加噪，然后学习如何去噪——去噪的方向恰好就是得分函数。

具体地，给定噪声水平 $\sigma$ ，定义扰动分布：

q_\sigma(\tilde{x}|x) = \mathcal{N}(\tilde{x}; x, \sigma^2 I)

Vincent 证明了：

\mathbb{E}_{q_\sigma(\tilde{x})}\left[\frac{1}{2}\|s_\theta(\tilde{x}) - \nabla_{\tilde{x}} \log q_\sigma(\tilde{x}|x)\|^2\right] = \mathbb{E}_{q_\sigma(\tilde{x})}\left[\frac{1}{2}\|s_\theta(\tilde{x}) - s_{\sigma}(\tilde{x})\|^2\right] + \text{const}

其中 $s_\sigma(\tilde{x}) = \nabla_{\tilde{x}} \log q_\sigma(\tilde{x})$ 是扰动分布的得分函数。当 $\sigma$ 足够小时， $q_\sigma \approx p_{\text{data}}$ ，因此最小化 DSM 目标等价于匹配数据分布的得分函数。

对于高斯噪声 $q_\sigma(\tilde{x}|x) = \mathcal{N}(\tilde{x}; x, \sigma^2 I)$ ，条件得分函数有简洁形式：

\nabla_{\tilde{x}} \log q_\sigma(\tilde{x}|x) = -\frac{\tilde{x} - x}{\sigma^2}

DSM 的训练目标因此变为：

\mathcal{L}_{\text{DSM}} = \mathbb{E}_{x \sim p_{\text{data}}, \epsilon \sim \mathcal{N}(0, I)}\left[\frac{1}{2}\left\|s_\theta(x + \sigma\epsilon) + \frac{\epsilon}{\sigma}\right\|^2\right]

这正是扩散模型训练目标的核心形式。去噪得分匹配建立了得分函数估计与扩散模型之间的桥梁：扩散模型就是在多个噪声水平上训练得分函数，然后用朗之万动力学从学到的得分场中采样。

得分函数向量场与朗之万采样

Loading visualization...

混合高斯分布的密度热力图叠加得分函数箭头。点击任意位置，观察朗之万采样轨迹如何沿得分函数走向密度高峰。

const W = 800, H = 450;
const margin = {top: 30, right: 20, bottom: 50, left: 20};

const svg = d3.select(container).append("svg").attr("width", W).attr("height", H);
const g = svg.append("g").attr("transform", `translate(${margin.left},${margin.top})`);

const plotW = W - margin.left - margin.right;
const plotH = H - margin.top - margin.bottom;

// Mixture of Gaussians: 3 components
const components = [
  {mu: [-1.5, 0.5], sigma: [[0.5, 0.1], [0.1, 0.4]], weight: 0.4},
  {mu: [1.5, 1.0], sigma: [[0.4, -0.1], [-0.1, 0.5]], weight: 0.35},
  {mu: [0.5, -1.2], sigma: [[0.6, 0.05], [0.05, 0.3]], weight: 0.25}
];

const xRange = [-4, 4], yRange = [-3, 3];
const xScale = d3.scaleLinear().domain(xRange).range([0, plotW]);
const yScale = d3.scaleLinear().domain(yRange).range([plotH, 0]);

// 2D Gaussian PDF
function gauss2d(x, y, mu, sigma) {
  const dx = [x - mu[0], y - mu[1]];
  const det = sigma[0][0] * sigma[1][1] - sigma[0][1] * sigma[1][0];
  const invDet = 1 / det;
  const invSigma = [[sigma[1][1] * invDet, -sigma[0][1] * invDet], [-sigma[1][0] * invDet, sigma[0][0] * invDet]];
  const quad = dx[0] * (invSigma[0][0] * dx[0] + invSigma[0][1] * dx[1]) + dx[1] * (invSigma[1][0] * dx[0] + invSigma[1][1] * dx[1]);
  return Math.exp(-0.5 * quad) / (2 * Math.PI * Math.sqrt(Math.abs(det)));
}

function mixPDF(x, y) {
  return components.reduce((s, c) => s + c.weight * gauss2d(x, y, c.mu, c.sigma), 0);
}

// Score function: gradient of log p(x)
function scoreFn(x, y) {
  const eps = 0.01;
  const px = mixPDF(x, y);
  if (px < 1e-10) return [0, 0];
  const dpx = (mixPDF(x + eps, y) - mixPDF(x - eps, y)) / (2 * eps);
  const dpy = (mixPDF(x, y + eps) - mixPDF(x, y - eps)) / (2 * eps);
  return [dpx / px, dpy / px];
}

// Draw density heatmap
const imgW = 200, imgH = 150;
const canvas = document.createElement("canvas");
canvas.width = imgW;
canvas.height = imgH;
const ctx = canvas.getContext("2d");

const imgData = ctx.createImageData(imgW, imgH);
let maxDensity = 0;
const densityGrid = [];
for (let j = 0; j < imgH; j++) {
  densityGrid[j] = [];
  for (let i = 0; i < imgW; i++) {
    const x = xRange[0] + (xRange[1] - xRange[0]) * i / imgW;
    const y = yRange[1] - (yRange[1] - yRange[0]) * j / imgH;
    const d = mixPDF(x, y);
    densityGrid[j][i] = d;
    if (d > maxDensity) maxDensity = d;
  }
}

for (let j = 0; j < imgH; j++) {
  for (let i = 0; i < imgW; i++) {
    const t = Math.min(densityGrid[j][i] / maxDensity, 1);
    const idx = (j * imgW + i) * 4;
    // Viridis-like colormap
    imgData.data[idx] = Math.round(68 + t * (253 - 68));
    imgData.data[idx + 1] = Math.round(1 + t * (231 - 1));
    imgData.data[idx + 2] = Math.round(84 + t * (37 - 84));
    imgData.data[idx + 3] = Math.round(40 + t * 160);
  }
}
ctx.putImageData(imgData, 0, 0);

// Add image to SVG
const imgElem = document.createElementNS("http://www.w3.org/2000/svg", "image");
imgElem.setAttribute("width", plotW);
imgElem.setAttribute("height", plotH);
imgElem.setAttributeNS("http://www.w3.org/1999/xlink", "href", canvas.toDataURL());
g.node().appendChild(imgElem);

// Draw score function arrows
const arrowSpacing = 0.8;
const arrowG = g.append("g");
for (let x = xRange[0] + 0.4; x <= xRange[1] - 0.4; x += arrowSpacing) {
  for (let y = yRange[0] + 0.4; y <= yRange[1] - 0.4; y += arrowSpacing) {
    const [sx, sy] = scoreFn(x, y);
    const mag = Math.sqrt(sx * sx + sy * sy);
    if (mag < 0.01) continue;
    const maxLen = 25;
    const len = Math.min(mag * 8, maxLen);
    const nx = sx / mag, ny = sy / mag;
    const px = xScale(x), py = yScale(y);
    arrowG.append("line")
      .attr("x1", px).attr("y1", py)
      .attr("x2", px + nx * len).attr("y2", py - ny * len)
      .attr("stroke", "rgba(255,255,255,0.7)").attr("stroke-width", 1.5)
      .attr("marker-end", "url(#whiteArrow)");
  }
}

// Arrow marker
const defs = svg.append("defs");
defs.append("marker").attr("id", "whiteArrow")
  .attr("markerWidth", 6).attr("markerHeight", 5).attr("refX", 5).attr("refY", 2.5).attr("orient", "auto")
  .append("path").attr("d", "M0,0 L6,2.5 L0,5 Z").attr("fill", "rgba(255,255,255,0.8)");

// Langevin dynamics sampling
const trajectoryG = g.append("g");
let trajectories = [];
const stepSize = 0.15;
const nSteps = 40;

function langevinStep(x, y, alpha) {
  const [sx, sy] = scoreFn(x, y);
  // x_{t+1} = x_t + alpha/2 * score(x_t) + sqrt(alpha) * noise
  const noise = [randn(), randn()];
  return [
    x + alpha / 2 * sx + Math.sqrt(alpha) * noise[0],
    y + alpha / 2 * sy + Math.sqrt(alpha) * noise[1]
  ];
}

function randn() {
  const u1 = Math.random(), u2 = Math.random();
  return Math.sqrt(-2 * Math.log(u1)) * Math.cos(2 * Math.PI * u2);
}

function drawTrajectories() {
  trajectoryG.selectAll("*").remove();
  const colors = ["#e74c3c", "#3498db", "#2ecc71", "#f39c12", "#9b59b6"];
  trajectories.forEach((traj, idx) => {
    const line = d3.line().x(d => xScale(d.x)).y(d => yScale(d.y));
    trajectoryG.append("path").datum(traj).attr("d", line)
      .attr("fill", "none").attr("stroke", colors[idx % colors.length]).attr("stroke-width", 2);

// Start point
    trajectoryG.append("circle").attr("cx", xScale(traj[0].x)).attr("cy", yScale(traj[0].y))
      .attr("r", 4).attr("fill", colors[idx % colors.length]).attr("stroke", "#fff").attr("stroke-width", 1);

// End point
    const last = traj[traj.length - 1];
    trajectoryG.append("circle").attr("cx", xScale(last.x)).attr("cy", yScale(last.y))
      .attr("r", 3).attr("fill", colors[idx % colors.length]);
  });
}

// Click to start Langevin sampling
svg.on("click", function(event) {
  const rect = svg.node().getBoundingClientRect();
  const mx = event.clientX - rect.left - margin.left;
  const my = event.clientY - rect.top - margin.top;
  const dataX = xScale.invert(mx);
  const dataY = yScale.invert(my);

if (dataX >= xRange[0] && dataX <= xRange[1] && dataY >= yRange[0] && dataY <= yRange[1]) {
    const traj = runLangevin(dataX, dataY);
    trajectories.push(traj);
    if (trajectories.length > 5) trajectories.shift();
    drawTrajectories();
  }
});

// Clear button
const clearBtn = svg.append("g").attr("transform", `translate(${W - 80}, ${H - 18})`).style("cursor", "pointer");
clearBtn.append("rect").attr("x", 0).attr("y", -12).attr("width", 60).attr("height", 22).attr("rx", 4)
  .attr("fill", "#eee").attr("stroke", "#aaa");
clearBtn.append("text").attr("x", 30).attr("y", 3).text("\u6e05\u9664").style("text-anchor", "middle").style("font-size", "12px").style("fill", "#555");
clearBtn.on("click", () => { trajectories = []; drawTrajectories(); });

// Instructions
svg.append("text").attr("x", W/2).attr("y", H - 3)
  .text("\u70b9\u51fb\u4efb\u610f\u4f4d\u7f6e\u5f00\u59cb\u6717\u4e4b\u4e07\u91c7\u6837").style("text-anchor", "middle").style("font-size", "12px").style("fill", "#888");

GAN 的对抗训练：估计密度比

GAN（Generative Adversarial Network）采用了一种与得分匹配截然不同的策略。它不显式估计密度或得分函数，而是通过对抗训练隐式地衡量分布差异。

GAN 的判别器 $D(x)$ 学习区分真实样本和生成样本。Goodfellow 等人 (2014) 证明，最优判别器为：

D^*(x) = \frac{p_r(x)}{p_r(x) + p_g(x)}

其中 $p_r$ 是真实数据分布， $p_g$ 是生成分布。这等价于估计密度比 $\frac{p_r(x)}{p_g(x)}$ ：当 $D^*(x) = 1/2$ 时，两个分布在 $x$ 处无法区分。

原始 GAN 的训练目标等价于最小化 Jensen-Shannon 散度 $\text{JS}(p_r \| p_g)$ 。WGAN 将目标替换为 $W_1(p_r, p_g)$ ，判别器变为学习 Kantorovich-Rubinstein 对偶中的 1-Lipschitz 函数。

GAN 作为扩散 ODE

苏剑林在《生成扩散模型漫谈（十九）：作为扩散ODE的GAN》中提出了一个深刻的统一视角：GAN 的训练过程可以理解为扩散 ODE 在"参数训练时间维度"上的实现。

Wasserstein 梯度流方程

考虑生成器参数 $\theta$ 的演化。如果目标是缩小生成分布 $p_g$ 与数据分布 $p_{\text{data}}$ 之间的 $W_2$ 距离，那么参数的连续演化遵循 Wasserstein 梯度流方程：

\frac{d\theta}{dt} = -\nabla_\theta W_2(p_g, p_{\text{data}})

这个方程描述了参数沿 $W_2$ 距离下降最快的方向移动——这正是最自然的连续优化动力学。

判别器估计密度比

GAN 判别器的最优解 $D^*(x) = \frac{p_{\text{data}}(x)}{p_{\text{data}}(x) + p_g(x)}$ 可以改写为对数密度比的形式：

r(x) = \log \frac{p_{\text{data}}(x)}{p_g(x)} = \log \frac{D^*(x)}{1 - D^*(x)}

这个密度比 $r(x)$ 正是两个分布之间差异的局部度量——它衡量了在 $x$ 处数据分布密度相对于生成分布密度的优势程度。从 Wasserstein 梯度流的角度看， $r(x)$ 等价于估计分布间的密度梯度方向。

向前推一步

将密度梯度方向 $r(x)$ 投影到生成器参数空间，就得到了参数更新方向。具体地，密度比 $r(x)$ 给出了分布应该向何处移动的信号，而生成器 $G_\theta(z)$ 将这个信号从数据空间反传到参数空间：

\nabla_\theta \mathbb{E}_{z \sim p(z)}[r(G_\theta(z))]

这个梯度正是 Wasserstein 梯度流在离散参数空间中的近似实现——判别器提供梯度方向，生成器将梯度投影到参数空间。

单步优化的等价性

以下为启发式推导（informal argument），用于说明两种参数更新方向在判别器仅训练一步时为何"指向同一处"。严格证明需展开判别器对 $\theta$ 的链式法则、逐项核对梯度系数，本文不涉及——感兴趣的读者可参考苏剑林《生成扩散模型漫谈（十九）：作为扩散ODE的GAN》中式 (8) 与式 (11) 的完整推导。

关键一步：在单步优化的条件下，上述参数更新近似等价于标准 GAN 的非饱和损失。推导路线如下。

首先，从最优判别器恢复密度比。GAN 的最优判别器为 $D^*(x) = p_{\text{data}}(x) / (p_{\text{data}}(x) + p_g(x))$ ，由此可以构造对数密度比：

r(x) = \log \frac{D^*(x)}{1 - D^*(x)} = \log \frac{p_{\text{data}}(x)}{p_g(x)}

现在比较两个生成器目标的梯度方向。非饱和损失 $\nabla_\theta \mathbb{E}_z[-\log D(G_\theta(z))]$ 与 Wasserstein 梯度流投影 $\nabla_\theta \mathbb{E}_z[r(G_\theta(z))]$ 是否指向相同的参数更新方向？关键代数步骤如下：将 $-\log D^*$ 展开，

-\log D^*(x) = -\log \frac{p_{\text{data}}}{p_{\text{data}} + p_g} = \log\left(1 + \frac{p_g}{p_{\text{data}}}\right)

当 $p_g \ll p_{\text{data}}$ （生成分布尚未拟合数据分布时）， $\log(1 + p_g / p_{\text{data}}) \approx p_g / p_{\text{data}} \propto e^{-r}$ 。因此 $-\log D^* \approx e^{-r}$ ，而 $r$ 的梯度方向与 $e^{-r}$ 的负梯度方向一致（ $e^{-r}$ 关于 $\theta$ 单调递减）。这意味着：

\nabla_\theta \mathbb{E}_z[-\log D(G_\theta(z))] \quad \Longleftrightarrow \quad \nabla_\theta \mathbb{E}_z[r(G_\theta(z))]

左端是标准 GAN 生成器的非饱和损失梯度，右端是 Wasserstein 梯度流的参数投影。这个等价性仅在判别器与生成器交替优化一步时成立——判别器提供一次密度比估计，生成器据此做一步参数更新。苏剑林在原文中式(8)和式(11)的推导给出了完整的代数核对（本文略去）。

为什么 GAN 不能训练太多步

上述等价性有一个关键前提：判别器只训练一步。如果判别器训练过多步，密度比估计 $r(x)$ 会逐渐偏离真实的梯度方向。原因在于，当判别器接近最优时， $D^*(x)$ 趋近于 0 或 1，梯度信号饱和——判别器变得过于自信，无法提供有意义的密度比信息。此时参数更新不再等价于沿 Wasserstein 梯度流方向移动，而是沿着一个被扭曲的方向更新，导致训练不稳定。

这正是原始 GAN 训练中判别器与生成器需要严格同步更新的根本原因：等价性仅在单步优化时成立，多步优化会破坏这种等价性。

与扩散模型的结构对比

从 Wasserstein 梯度流的视角看，扩散模型与 GAN 的根本区别在于"传输步数"：

扩散模型用 $T$ 步完成从噪声到数据的传输——每步只做小幅修正，得分函数在每一步都提供准确的梯度方向，因此优化景观平滑。
GAN 用 1 步完成从噪声到数据的传输——单步大更新，等价性仅在单步优化时才成立，梯度方向一旦偏离就难以纠正。

这个对比揭示了 GAN 训练不稳定的根本原因：一步到位的映射比多步渐进的映射更难优化，梯度信号更不稳定。扩散模型的多步结构天然提供了更平滑的优化景观，每一步都有纠错的机会。

统一视角：VAE、GAN、扩散模型的分布匹配

现在我们可以将三种生成模型放在一个统一的框架下理解——它们都是分布匹配的不同实现，但优化目标和匹配策略不同。

模型	优化目标	匹配策略	分布距离
VAE	最大化 ELBO	变分近似	KL 散度（变分后验 vs 真实后验）
GAN	对抗损失	密度比估计	JS 散度 / $W_1$ 距离
扩散	得分匹配	得分函数估计	$W_2$ 上界

VAE 通过变分推断近似后验分布，最小化 $\text{KL}(q(z|x) \| p(z|x))$ 。它的优势是训练稳定、有显式的潜空间结构，但受限于单步映射和 MSE 重构损失。

GAN 通过对抗训练估计分布间的密度比或距离，最小化 JS 散度或 $W_1$ 距离。它能产生清晰的生成结果，但训练不稳定、模式坍塌问题严重。

扩散模型 通过多步去噪训练得分函数，其损失隐含了 $W_2$ 距离的上界约束。多步结构提供了平滑的优化景观，得分匹配避免了对抗训练的不稳定性。

从分布距离的角度看，三者形成了从 KL 到 JS/ $W_1$ 到 $W_2$ 的递进关系。KL 散度的梯度消失问题导致 VAE 生成模糊，JS 散度在不重叠时梯度为零导致 GAN 训练不稳定，而 $W_2$ 距离始终提供有意义的梯度，这从数学上解释了扩散模型的成功。

GAN 训练的分布演化

Loading visualization...

目标分布（固定双峰）与生成分布（逐步逼近）。拖动滑块控制训练步数，观察分布演化与度量值变化。

const W = 800, H = 450;
const margin = {top: 35, right: 30, bottom: 80, left: 55};
const plotW = W - margin.left - margin.right;
const plotH = H - margin.top - margin.bottom;

const svg = d3.select(container).append("svg").attr("width", W).attr("height", H);
const g = svg.append("g").attr("transform", `translate(${margin.left},${margin.top})`);

// Target: 2 Gaussians
// Generator: starts as 1 Gaussian, gradually splits into 2
let trainStep = 0;
const maxSteps = 100;

const xMin = -5, xMax = 7;
const xScale = d3.scaleLinear().domain([xMin, xMax]).range([0, plotW]);
const yScale = d3.scaleLinear().domain([0, 0.45]).range([plotH, 0]);

function gaussian(x, mu, sigma) {
  return Math.exp(-0.5 * ((x - mu) / sigma) ** 2) / (sigma * Math.sqrt(2 * Math.PI));
}

function targetPDF(x) {
  return 0.5 * gaussian(x, -1, 0.7) + 0.5 * gaussian(x, 3, 0.9);
}

function genPDF(x, step) {
  const t = Math.min(step / maxSteps, 1);
  // Interpolation: start with single Gaussian at center, end with two Gaussians matching target
  const mu1 = 1 + (-1 - 1) * t;  // 1 -> -1
  const mu2 = 1 + (3 - 1) * t;   // 1 -> 3
  const sigma1 = 1.5 + (0.7 - 1.5) * t;  // 1.5 -> 0.7
  const sigma2 = 1.5 + (0.9 - 1.5) * t;  // 1.5 -> 0.9
  const w1 = 0.5;
  const w2 = 0.5;
  return w1 * gaussian(x, mu1, sigma1) + w2 * gaussian(x, mu2, sigma2);
}

function jsDivergence(step) {
  // Approximate JS divergence via numerical integration
  const dx = 0.02;
  let js = 0;
  for (let x = xMin; x <= xMax; x += dx) {
    const p = targetPDF(x);
    const q = genPDF(x, step);
    const m = 0.5 * (p + q);
    if (p > 1e-10) js += 0.5 * p * Math.log(p / m) * dx;
    if (q > 1e-10) js += 0.5 * q * Math.log(q / m) * dx;
  }
  return Math.max(js, 0);
}

// Controls
const ctrlG = svg.append("g").attr("transform", `translate(${W/2 - 80}, ${H - 18})`);
ctrlG.append("text").attr("x", 0).attr("y", 4).text("\u8bad\u7ec3\u6b65\u6570:").style("font-size", "12px").style("fill", "#555");
const stepSlider = ctrlG.append("foreignObject").attr("width", 150).attr("height", 20).attr("x", 55).attr("y", -8)
  .append("xhtml:input")
  .attr("type", "range").attr("min", 0).attr("max", maxSteps).attr("step", 1).attr("value", trainStep)
  .style("width", "150px")
  .on("input", function() { trainStep = +this.value; draw(); });
const stepLabel = ctrlG.append("text").attr("x", 215).attr("y", 4).style("font-size", "12px").style("font-weight", "bold");

// Metric history
const metricHistory = [];
for (let s = 0; s <= maxSteps; s += 2) {
  metricHistory.push({step: s, js: jsDivergence(s), w1: w1Distance(s)});
}

function draw() {
  g.selectAll("*").remove();
  stepLabel.text(trainStep);

const nPts = 300;

// Draw target distribution
  const targetData = [];
  for (let i = 0; i <= nPts; i++) {
    const x = xMin + (xMax - xMin) * i / nPts;
    targetData.push({x: x, y: targetPDF(x)});
  }

const areaGen = d3.area().x(d => xScale(d.x)).y0(yScale(0)).y1(d => yScale(d.y));
  g.append("path").datum(targetData).attr("d", areaGen)
    .attr("fill", "rgba(74,144,217,0.15)").attr("stroke", "#4a90d9").attr("stroke-width", 2);

// Draw generated distribution
  const genData = [];
  for (let i = 0; i <= nPts; i++) {
    const x = xMin + (xMax - xMin) * i / nPts;
    genData.push({x: x, y: genPDF(x, trainStep)});
  }

g.append("path").datum(genData).attr("d", areaGen)
    .attr("fill", "rgba(231,76,60,0.15)").attr("stroke", "#e74c3c").attr("stroke-width", 2);

// Axes
  g.append("g").attr("transform", `translate(0,${plotH})`).call(d3.axisBottom(xScale).ticks(8));
  g.append("g").call(d3.axisLeft(yScale).ticks(5));

// Labels
  g.append("text").attr("x", plotW - 5).attr("y", 15)
    .text("\u76ee\u6807\u5206\u5e03 p_r").style("text-anchor", "end").style("font-size", "12px").style("fill", "#4a90d9");
  g.append("text").attr("x", plotW - 5).attr("y", 30)
    .text("\u751f\u6210\u5206\u5e03 p_g").style("text-anchor", "end").style("font-size", "12px").style("fill", "#e74c3c");

// Current metric values
  const jsVal = jsDivergence(trainStep);
  const w1Val = w1Distance(trainStep);
  g.append("text").attr("x", 10).attr("y", 15)
    .text("JS = " + jsVal.toFixed(4)).style("font-size", "12px").style("fill", "#e07b39");
  g.append("text").attr("x", 10).attr("y", 30)
    .text("W\u2081 = " + w1Val.toFixed(4)).style("font-size", "12px").style("fill", "#2ecc71");

// Metric evolution mini-plot (bottom-right)
  const miniW = 180, miniH = 60;
  const miniG = g.append("g").attr("transform", `translate(${plotW - miniW - 10}, ${plotH - miniH - 20})`);
  miniG.append("rect").attr("width", miniW).attr("height", miniH)
    .attr("fill", "rgba(255,255,255,0.9)").attr("stroke", "#ddd").attr("rx", 3);

const miniXScale = d3.scaleLinear().domain([0, maxSteps]).range([5, miniW - 5]);
  const maxJS = d3.max(metricHistory, d => d.js) || 1;
  const maxW1 = d3.max(metricHistory, d => d.w1) || 1;
  const miniYScale = d3.scaleLinear().domain([0, Math.max(maxJS, maxW1) * 1.1]).range([miniH - 5, 5]);

// JS curve
  const jsLine = d3.line().x(d => miniXScale(d.step)).y(d => miniYScale(d.js)).curve(d3.curveBasis);
  miniG.append("path").datum(metricHistory).attr("d", jsLine)
    .attr("fill", "none").attr("stroke", "#e07b39").attr("stroke-width", 1.5);

// W1 curve
  const w1Line = d3.line().x(d => miniXScale(d.step)).y(d => miniYScale(d.w1)).curve(d3.curveBasis);
  miniG.append("path").datum(metricHistory).attr("d", w1Line)
    .attr("fill", "none").attr("stroke", "#2ecc71").attr("stroke-width", 1.5);

// Current position
  miniG.append("line").attr("x1", miniXScale(trainStep)).attr("x2", miniXScale(trainStep))
    .attr("y1", 5).attr("y2", miniH - 5).attr("stroke", "#999").attr("stroke-dasharray", "2,2");

miniG.append("text").attr("x", miniW/2).attr("y", miniH + 12)
    .text("\u5ea6\u91cf\u968f\u8bad\u7ec3\u53d8\u5316").style("text-anchor", "middle").style("font-size", "10px").style("fill", "#888");
}

draw();

应用

RLHF 对齐中的分布匹配

在 RLHF 训练中，策略优化可以理解为一种分布匹配：将对齐策略 $\pi_\theta$ 推向奖励模型偏好的分布，同时用 KL 散度或 $W$ 距离约束偏离参考策略 $\pi_{\text{ref}}$ 的程度。这个约束与 VAE 的正则项结构类似——都是信息瓶颈的形式。

从得分匹配的角度看，DPO（Direct Preference Optimization）可以理解为在偏好数据上学习一个隐式的得分函数：给定偏好对 $(x_w, x_l)$ ，DPO 的训练目标鼓励模型增加 $x_w$ 的概率而降低 $x_l$ 的概率，这等价于沿着偏好得分函数的方向移动策略分布。

得分蒸馏（SDS）与文本到 3D

得分蒸馏采样（Score Distillation Sampling, SDS）是文本到 3D 生成（如 DreamFusion）的核心技术。SDS 利用预训练扩散模型的得分函数来引导 3D 模型的优化：

\nabla_\theta \mathcal{L}_{\text{SDS}} = \mathbb{E}_{t, \epsilon}\left[w(t)(\epsilon_\phi(x_t; t) - \epsilon)\frac{\partial x}{\partial \theta}\right]

其中 $\epsilon_\phi$ 是扩散模型的噪声预测网络， $x = g(\theta)$ 是 3D 渲染的 2D 图像。SDS 是在用扩散模型的得分函数（通过噪声预测参数化）作为"教师"信号，引导 3D 模型的参数 $\theta$ 向更符合文本描述的方向更新。

这种"用预训练得分函数指导其他模型优化"的范式，正是得分匹配思想超越纯生成任务的体现。得分函数不仅用于采样，还可以作为通用的梯度信号来源。

参考文献

苏剑林. 生成扩散模型漫谈（十八）：得分匹配 = 条件得分匹配. https://kexue.fm/archives/9509
苏剑林. 生成扩散模型漫谈（十九）：作为扩散ODE的GAN. https://kexue.fm/archives/9662
苏剑林. 能量视角下的GAN模型. https://kexue.fm/archives/6316
Hyvarinen, A. (2005). Estimation of Non-Normalized Statistical Models by Score Matching. JMLR.
Vincent, P. (2011). A Connection Between Score Matching and Denoising Autoencoders. Neural Computation.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS.
Song, Y., & Ermon, S. (2019). Generative Modeling by Estimating Gradients of the Data Distribution. NeurIPS.
Poole, B., et al. (2023). DreamFusion: Text-to-3D using 2D Diffusion. ICLR.

得分函数与 Hyvarinen 得分匹配#

去噪得分匹配#

GAN 的对抗训练：估计密度比#

GAN 作为扩散 ODE#

Wasserstein 梯度流方程#

判别器估计密度比#

向前推一步#

单步优化的等价性#

为什么 GAN 不能训练太多步#

与扩散模型的结构对比#

统一视角：VAE、GAN、扩散模型的分布匹配#

应用#

RLHF 对齐中的分布匹配#

得分蒸馏（SDS）与文本到 3D#

参考文献#

相关文章