从加噪到去噪：一张图看懂DDPM扩散模型的工作原理，附PyTorch复现核心步骤

张

张建站

2026/5/3 20:25:23

10分钟阅读

从加噪到去噪一张图看懂DDPM扩散模型的工作原理附PyTorch复现核心步骤在生成式AI的浪潮中扩散模型正以惊人的图像生成质量重新定义创作边界。想象一下让计算机从纯粹的随机噪声开始通过一系列去噪步骤逐渐塑造出逼真的人脸、风景或艺术作品——这正是Denoising Diffusion Probabilistic ModelsDDPM的魔力所在。不同于GAN的对抗训练或VAE的隐变量压缩DDPM通过模拟热力学中的扩散过程将图像生成转化为一个可解释的物理过程。本文将用视觉化方式拆解前向扩散与反向去噪的数学之美并带你用PyTorch实现核心算法体验从混沌中创造秩序的完整过程。1. 扩散模型的物理直觉从热力学到图像生成1.1 热力学启发的生成范式把一滴墨水倒入水中你会观察到色素分子逐渐扩散直至均匀分布——这是自然界最普遍的熵增现象。DDPM的灵感正来源于此前向过程加噪模拟墨水扩散将清晰图像逐步转化为各向同性的高斯噪声反向过程去噪逆转物理规律从噪声中重建原始图像结构# 前向扩散的数学表达离散形式 def forward_diffusion(x0, t, beta_t): x0: 原始图像 t: 时间步 beta_t: 噪声调度参数 noise torch.randn_like(x0) alpha_t 1 - beta_t mean torch.sqrt(alpha_t) * x0 variance 1 - alpha_t return mean torch.sqrt(variance) * noise1.2 马尔可夫链的数学框架DDPM将扩散过程建模为马尔可夫链每个步骤只依赖前一个状态步骤前向过程 (q)反向过程 (pθ)目标逐步加噪学习去噪转移q(xₜ|xₜ₋₁)pθ(xₜ₋₁|xₜ)分布固定高斯可学习神经网络关键洞见当扩散步数足够多时反向过程的转移分布可近似为高斯分布这使得用UNet预测噪声成为可能2. 核心算法拆解训练与采样的双重舞蹈2.1 训练阶段噪声预测的艺术DDPM不直接预测图像而是训练网络预测添加到图像中的噪声从训练集随机采样图像x₀随机选择时间步t∈[1,T]按照噪声调度表βₜ添加噪声得到xₜ让UNet预测噪声εθ(xₜ,t)优化L2损失# 简化版训练伪代码 for x0 in dataloader: t torch.randint(1, T, (x0.shape[0],)) noise torch.randn_like(x0) x_t q_sample(x0, t, noise) # 前向扩散 predicted_noise model(x_t, t) loss F.mse_loss(noise, predicted_noise) optimizer.zero_grad() loss.backward() optimizer.step()2.2 采样阶段渐进式创造的魔法从纯噪声x_T开始通过T个去噪步骤逐步重构图像采样过程的关键方程 xₜ₋₁ (1/√αₜ)(xₜ - (βₜ/√(1-ᾱₜ))εθ(xₜ,t)) σₜz其中z∼N(0,I)σₜ控制随机性强度。这个过程如同一位画家先勾勒大体轮廓再逐步添加细节。3. PyTorch实战构建精简版DDPM3.1 模型架构设计核心组件是时间步嵌入的UNetclass TimeEmbedding(nn.Module): def __init__(self, dim): super().__init__() self.dim dim half_dim dim // 2 emb math.log(10000) / (half_dim - 1) emb torch.exp(torch.arange(half_dim, dtypetorch.float) * -emb) self.register_buffer(emb, emb) def forward(self, t): emb t.float()[:, None] * self.emb[None, :] return torch.cat([torch.sin(emb), torch.cos(emb)], dim-1) class Block(nn.Module): def __init__(self, in_ch, out_ch, time_emb_dim): super().__init__() self.time_mlp nn.Linear(time_emb_dim, out_ch) self.conv1 nn.Conv2d(in_ch, out_ch, 3, padding1) self.conv2 nn.Conv2d(out_ch, out_ch, 3, padding1) def forward(self, x, t): h F.silu(self.conv1(x)) time_emb F.silu(self.time_mlp(t)) h h time_emb[:, :, None, None] return self.conv2(h)3.2 噪声调度策略βₜ的线性调度与余弦调度对比调度类型公式特点线性βₜ β₁ (βₙ-β₁)(t-1)/(T-1)简单直接早期变化剧烈余弦βₜ cos((t/Ts)/(1s)*π/2)²平滑过渡避免突变实践建议对于小型数据集如CIFAR10从线性调度开始高分辨率图像生成建议使用余弦调度4. 效果优化与高级技巧4.1 加速采样的工程艺术原始DDPM需要1000步采样以下方法可大幅加速DDIM将扩散过程重新定义为非马尔可夫链允许跳步采样Stochastic Differential Equations (SDE)将离散过程连续化知识蒸馏训练学生模型模仿多步采样效果# DDIM采样示例10步加速 torch.no_grad() def ddim_sample(model, shape, steps10): x torch.randn(shape) time_steps np.linspace(T, 1, steps) for t in reversed(time_steps): t torch.full((shape[0],), t, dtypetorch.long) pred_noise model(x, t) alpha_t alpha[t] x (x - (1 - alpha_t)/torch.sqrt(1 - alpha_bar[t]) * pred_noise)/torch.sqrt(alpha_t) return x4.2 条件生成的控制之道通过额外输入控制生成内容文本引导将CLIP文本编码注入UNet如DALL-E 2类别条件在时间嵌入中加入类别标签图像编辑将部分已知像素作为条件输入class ConditionalDDPM(nn.Module): def __init__(self, num_classes): super().__init__() self.label_emb nn.Embedding(num_classes, time_emb_dim) def forward(self, x, t, y): t_emb self.time_emb(t) y_emb self.label_emb(y) cond t_emb y_emb return self.unet(x, cond)在CIFAR10上的实验表明加入类别条件可将FID从3.17提升至2.89。这种控制能力使得扩散模型在医疗图像生成等精确度要求高的场景尤为珍贵。

利用 dify-schedule 实现 Dify 工作流自动化定时执行

1. 项目概述与核心价值如果你正在使用 Dify 来构建和运行 AI 工作流，那么一个绕不开的痛点可能就是：Dify 本身没有内置的定时任务功能。这意味着，那些需要每天、每周或特定时间自动触发的流程——比如定时生成日报、自动汇总数据、定期进行内…...

2026/5/3 20:25:22 阅读更多 →

别再只会用Aircrack-ng了！用Kali Linux和iwconfig/ifconfig命令，手把手教你排查无线网卡监听模式失败问题

Kali Linux无线网卡监听模式深度排错指南当你兴奋地打开Kali Linux准备开始无线渗透测试时，最令人沮丧的莫过于发现网卡死活进不了监听模式。别急着换工具——90%的问题其实都能通过基础命令诊断解决。本文将带你用iwconfig和ifconfig这两个常被忽视的利器&#xf…...

2026/5/3 20:21:30 阅读更多 →

多模态生成模型评估：MMGR基准测试与挑战

1. 多模态生成模型评估的现状与挑战当前AI领域最令人兴奋的进展之一，就是能够同时处理文本、图像、音频等多种数据类型的多模态生成模型。从DALLE生成逼真图像到GPT-4V理解图文混合内容，这些模型正在重塑人机交互的方式。但一个关键问题始终困扰着研究者…...

2026/5/3 20:16:27 阅读更多 →

10分钟掌握NSC_BUILDER：Switch游戏文件管理终极指南

10分钟掌握NSC_BUILDER：Switch游戏文件管理终极指南【免费下载链接】NSC_BUILDER Nintendo Switch Cleaner and Builder. A batchfile, python and html script based in hacbuild and Nuts python libraries. Designed initially to erase titlerights encryption…...

2026/5/3 0:00:27 阅读更多 →

适合学校行政校内会议场景的，学校会议转行动项整理技巧

2026年多数学校都在推校内工作闭环管理，行政校内会议结束后，最头疼的就是从一堆零散讨论里整理出可落地的行动项，漏项、错记责任人、错过截止时间都是常事，还给后续工作埋坑，这里给你一套可直接落地的整理技巧。某区公…...

2026/5/3 0:05:10 阅读更多 →

Degrees of Lewdity汉化版终极完整指南：从零开始的中文化体验之旅

Degrees of Lewdity汉化版终极完整指南：从零开始的中文化体验之旅【免费下载链接】Degrees-of-Lewdity-Chinese-Localization Degrees of Lewdity 游戏的授权中文社区本地化版本项目地址: https://gitcode.com/gh_mirrors/de/Degrees-of-Lewdity-Chinese-Locali…...

2026/5/3 0:09:10 阅读更多 →