图像生成与 Diffusion Model

发表于2026-06-20|更新于2026-07-15|AI

|浏览量:

这是”小白讲 AI”系列的第 10 篇。今天我们来聊一个让无数人直呼”魔法”的技术——Diffusion Model（扩散模型）。它是 Stable Diffusion、DALL·E、Midjourney 等 AI 画图工具背后的核心引擎。你只需要输入一句话，几秒钟后就能得到一张精美的图片。这到底是怎么做到的？别担心，本文零公式，全程用生活类比来解释，保证小白也能看懂。

1. 开场类比：反向洗衣机

想象你有一张漂亮的照片，然后你把它扔进了一台疯狂的洗衣机。洗衣机每转一圈，照片就变得更模糊、更混乱。转了上千圈之后，照片彻底变成了一团看不出任何内容的”雪花噪点”——就像老式电视没信号时的那种沙沙画面。

现在问题来了：有没有可能训练一个 AI，让它学会”反向开洗衣机”？也就是说，给它一张全是噪点的图，它能一步一步把噪点去掉，最终还原出一张清晰的照片？

答案是：可以！这就是 Diffusion Model 的核心思路。

整个过程分成两个阶段：

前向过程（加噪）：把好好的图片一步步加噪声，搅成一团糊。
反向过程（去噪）：训练 AI 学会一步步去掉噪声，从纯噪点变回图片——也就是”反向洗衣”。

听起来简单，效果惊艳。我们一步步展开来看。

2. 前向过程：一步步往图片上撒沙子

前向过程非常直觉，你可以想象成在一张照片上不断”撒沙子”。

第一步，在照片上轻轻撒一层薄薄的沙子（加一点点随机噪声）。这时候你还能看清照片的内容——嗯，这是一只橘猫趴在沙发上。

第二步，再撒一层。照片变得更模糊了，但你仍然隐约能看出轮廓和颜色。

第三步、第四步……不断重复。每一步都加一点点噪声，照片就越来越看不清了。

经过几百上千步之后，照片彻底被沙子盖住了，变成了一片纯粹的随机噪点。不管原来是一只猫、一条狗还是一幅风景画，最终都会变成同样的”雪花屏”。

这个过程有一个关键特点：每一步加多少噪声是严格按照数学规则来的，所以我们精确地知道在第几步、图片被”破坏”了多少。这个信息对后面的反向过程至关重要——就像你要倒放洗衣机录像，首先得知道洗衣机正着转了多少圈。

你可能会问：费这么大劲把图搅成糊，到底有什么用？别急，精彩的在下一节。

3. 反向过程：AI 学会从噪点里一步步恢复图片

前向过程是”破坏”，反向过程就是”修复”。这才是 Diffusion Model 真正厉害的地方。

我们训练一个神经网络，让它学会一件事情：给你一张带噪声的图片，请你预测这张图上的噪声长什么样。

注意重点：AI 不是直接猜”原图是什么”，而是猜”噪声是什么”。这就好比你在照片上撒了一把沙子，AI 的任务不是直接猜照片内容，而是猜”沙子撒在了哪里、撒了多少”。一旦知道沙子的分布，把沙子去掉，照片自然就露出来了。

训练过程大致是这样的。我们准备大量的原始图片，对每张图：

随机选一个步骤（比如第 200 步）
按照规则加上对应量的噪声，得到一张”带噪图”
把带噪图喂给 AI，让它预测噪声
拿 AI 预测的噪声和我们实际加的噪声做对比，差距越大就越使劲调整 AI 的参数

反复训练几十万次之后，AI 就掌握了”看到带噪图 → 预测噪声 → 去掉噪声”的能力。

生成图片的时候，我们只需要从一张纯随机噪点图开始，让 AI 一步一步去噪：

第 1000 步：纯噪点 → AI 去掉一点噪声 → 画面开始隐隐约约有一些结构
第 800 步：继续去噪 → 能看到一些模糊的形状和色块
第 500 步：越来越清晰 → 可以辨认出大致的物体轮廓
……
第 1 步：最后一点噪声被去掉 → 一张清晰的图片浮现出来！

整个过程就像看延时摄影：图片从一团混沌中慢慢浮现，细节一点点丰富起来，最终变成一张完整的画面。真的很像变魔术。

4. 文生图是怎么做到的：从文字到画面

到目前为止，我们只说了”从噪点生成图片”。但 AI 怎么知道你想要什么内容呢？你输入”一只穿宇航服的柴犬在月球上自拍”，AI 是怎么画出来的？

这里需要引入一个重要的帮手——CLIP 模型。

CLIP 是 OpenAI 训练出来的一个模型，它同时理解图片和文字。训练方法很巧妙：给它看互联网上几亿对”图片 + 文字描述”的配对数据，让它学会判断”这段文字说的是不是这张图”。训练完成后，CLIP 就能把文字和图片都转化成一组数字（向量），并且意思相近的文字和图片，在数字空间里的位置也彼此靠近。

理解了 CLIP，文生图的流程就清楚了：

你输入一段 Prompt（提示词），比如”一只穿宇航服的柴犬在月球上自拍，赛博朋克风格”。
CLIP 的文本编码器把这段文字转换成一组数字向量，代表了这段话的语义信息。
去噪的每一步中，这组数字充当”导航仪”：AI 在去噪时不仅要去掉噪声，还要让画面朝着”穿宇航服的柴犬”这个方向发展。

打个比方：如果说去噪过程是在浓雾中开车，那 CLIP 编码就是你的 GPS 导航。没有导航，你随便开，可能到达任何地方（生成一张随机图片）。有了导航，你就能准确到达”穿宇航服的柴犬在月球自拍”这个目的地。

你在使用 Stable Diffusion 等工具时经常会看到一个 “CFG Scale” 的参数——这就是控制”导航力度”的旋钮。值越高，AI 越严格地遵循你的文字描述；值越低，AI 越自由发挥。通常设在 7-12 之间效果最好，太高画面会变得过饱和或不自然。

5. 与 GAN 的对比：为什么 Diffusion 成了新王者

在 Diffusion Model 崛起之前，AI 图像生成领域的主流技术是 GAN（生成对抗网络）。GAN 的思路也很有趣，像是一场”警察抓小偷”的游戏：

生成器（小偷）：负责画假图，尽量以假乱真。
判别器（警察）：负责分辨哪些是真图、哪些是假图。

两个网络互相博弈、共同进步。小偷的画越来越逼真，警察的眼光也越来越毒辣，最终小偷能画出连警察都分辨不了的图。

GAN 曾经统治了 AI 图像生成好几年，但它有几个令人头疼的顽疾：

训练不稳定。两个网络互相博弈，非常容易”翻车”——小偷可能摆烂只画几种固定的图（行话叫”模式坍塌”），或者警察太强导致小偷根本学不会。调参就像走钢丝，动不动就失败。
多样性不足。GAN 容易反复生成雷同的图片，变化有限。
难以精确控制。你很难通过文字精确地告诉 GAN”我要画什么”，文字引导的效果远不如 Diffusion Model。

Diffusion Model 则几乎把这些问题一扫而空：

训练稳定：只训练一个去噪网络，没有对抗博弈的复杂性，收敛过程可靠得多。
多样性好：每次从不同的随机噪点出发，天然就能生成丰富多样的图片。
可控性强：结合 CLIP 引导和各种条件控制（下一节会讲），指哪打哪。
质量更高：生成的图片细节更丰富、色彩更自然、整体更和谐。

当然，Diffusion Model 也有自己的短板——速度慢。因为需要几十上百步迭代去噪，比 GAN 的一步到位慢了不少。不过这个问题正在被快速攻克：DDIM、DPM-Solver 等加速采样方法大幅减少了所需步数；蒸馏技术（如 SDXL Turbo、Flux Schnell）甚至可以做到一步或几步就生成高质量图片。如今速度已经不再是 Diffusion Model 的瓶颈了。

6. LoRA 和 ControlNet：定制你的专属 AI 画师

Stable Diffusion 这样的大模型虽然能力很强，但有时候你会有更具体的需求：想让 AI 画出某种特定风格、某个特定角色，或者按照你指定的姿势和构图来画。这时就需要两个强力工具了。

LoRA：用少量数据教会 AI 新风格

LoRA（Low-Rank Adaptation，低秩适配）是一种轻量级的模型微调技术。

打个比方：大模型就像一位什么都能画的全能画家，LoRA 相当于给这位画家上了一堂专题小课。比如你想让 AI 学会画”水墨赛博朋克风”，只需要准备二三十张这种风格的图片，用 LoRA 训练几十分钟到几小时，就能得到一个小小的”风格插件”（通常只有几十到一百多 MB）。把这个插件加载到大模型上，AI 就学会了这种新风格，而且不会忘记原来会画的东西。

LoRA 的精髓在于：它不修改大模型本身，只是给模型加了一个小小的”补丁”。 就像你不用重新装修整栋房子，只换一幅窗帘和几个摆件，就能让房间换个风格。你甚至可以同时加载多个 LoRA，把不同的风格和元素混搭在一起。

ControlNet：精确控制构图和姿势

ControlNet 解决的是另一个痛点：精确控制画面的空间布局。

比如你想让 AI 画一个人做出特定的瑜伽动作，光靠文字很难描述清楚。ControlNet 允许你提供额外的”控制图”来引导生成：

姿势骨架图：画一个火柴人或者用摄像头捕捉真人姿势，AI 就按这个姿势来画人物。
边缘线稿：提供一张轮廓线条图，AI 在此基础上填充颜色和细节。
深度图：标明画面中哪些东西远、哪些东西近，AI 就能正确处理前后关系。
语义分割图：用色块标出哪里是天空、哪里是建筑、哪里是草地，AI 就按照这个布局来构图。

ControlNet 就像给 AI 画师提供了一张施工蓝图。没有蓝图时画师自由发挥，有了蓝图就能严格按照你的要求来画，同时依然保持自己的”画技”和审美。

LoRA 和 ControlNet 可以叠加使用——用 LoRA 控制风格，用 ControlNet 控制构图和姿势，再用 Prompt 描述具体内容，三管齐下就能实现非常精细的创作控制。这也是为什么 Stable Diffusion 社区能产出如此丰富多样的作品。

7. 版权与伦理：AI 画的图算谁的？

AI 画图技术越来越强大，但随之而来的争议也越来越激烈。作为使用者，我们有必要了解这些问题。

训练数据的版权争议

Stable Diffusion 等模型是用互联网上海量的图片训练出来的，其中很多是艺术家辛苦创作的原创作品，但训练时并没有征得他们的同意，也没有支付报酬。

许多艺术家对此非常愤怒，认为这是”合法化的抄袭”——AI 吸收了他们的风格和创意，然后大量生成类似的作品，直接冲击了他们的收入。从 2023 年起，已经有多起相关集体诉讼在美国和欧洲的法院进行中。

AI 公司则辩称这属于”合理使用”（Fair Use），就像人类画家也会通过观摩前辈的作品来学习一样。这场争论至今没有定论，各国法律仍在探索中。

AI 生成图片的版权归属

AI 画的图到底算谁的作品？是使用者的？是 AI 公司的？还是谁都不是？

目前各国的态度不太一样：

美国：版权局倾向于认为纯 AI 生成的内容不受版权保护。但如果人类有足够的创造性投入（比如精心设计 Prompt、手动修改画面），可能获得部分版权。
中国：已有法院判决认定 AI 生成图片可以受版权保护，前提是使用者付出了实质性的智力劳动。
欧盟：通过 AI 法案要求对 AI 生成内容进行标识，并规范其使用。

深度伪造与伦理红线

AI 图像生成还带来了深度伪造（Deepfake）的风险：生成逼真的虚假人物照片、冒用他人形象、制作虚假新闻配图……这些滥用行为正在引起全社会的警惕。

各大 AI 画图平台已经在采取措施：内容审核、水印标识、使用条款限制等。但技术防线永远不是万能的，最终还需要法律法规的完善和每一位使用者的自律。

技术本身是中性的，关键在于我们怎么使用它。 享受 AI 画图的便利与乐趣的同时，尊重他人的创作权益，不制造和传播虚假内容，是每一位负责任的使用者应该坚守的底线。

写在最后

Diffusion Model 用一种看似”反常识”的方式——先破坏再修复——实现了惊人的图像生成效果。它的成功告诉我们：有时候解决问题的最好方法，不是直接正面硬上，而是把问题拆解成一小步一小步，每一步都简单到 AI 可以学会。

从 DALL·E 到 Stable Diffusion，从 Midjourney 到 Flux，AI 画图工具正在飞速进化。理解它们背后的原理，能帮助你更好地使用这些工具，也能让你在面对 AI 生成内容时保持独立的判断力。

延伸阅读

The Illustrated Stable Diffusion - Jay Alammar —— 用大量可视化图示解释 Stable Diffusion 的工作原理，非常直观易懂，强烈推荐。
What are Diffusion Models? - Lil’Log —— Lilian Weng 的经典博客文章，用相对通俗的语言介绍 Diffusion Model 的原理，适合想进一步深入的读者。
Stable Diffusion Art —— 面向实践者的教程站点，涵盖 Stable Diffusion 的安装、使用、LoRA 训练、ControlNet 配置等实操内容，上手即用。

文章作者: WALL-E-2000

文章链接: http://shiguol.github.io/2026/06/20/%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90%E4%B8%8EDiffusion-Model/