这是”小白讲 AI”系列的第 10 篇。今天我们来聊一个让无数人直呼”魔法”的技术——Diffusion Model(扩散模型)。它是 Stable Diffusion、DALL·E、Midjourney 等 AI 画图工具背后的核心引擎。你只需要输入一句话,几秒钟后就能得到一张精美的图片。这到底是怎么做到的?别担心,本文零公式,全程用生活类比来解释,保证小白也能看懂。

1. 开场类比:反向洗衣机

想象你有一张漂亮的照片,然后你把它扔进了一台疯狂的洗衣机。洗衣机每转一圈,照片就变得更模糊、更混乱。转了上千圈之后,照片彻底变成了一团看不出任何内容的”雪花噪点”——就像老式电视没信号时的那种沙沙画面。

现在问题来了:有没有可能训练一个 AI,让它学会”反向开洗衣机”?也就是说,给它一张全是噪点的图,它能一步一步把噪点去掉,最终还原出一张清晰的照片?

答案是:可以!这就是 Diffusion Model 的核心思路。

整个过程分成两个阶段:

  • 前向过程(加噪):把好好的图片一步步加噪声,搅成一团糊。
  • 反向过程(去噪):训练 AI 学会一步步去掉噪声,从纯噪点变回图片——也就是”反向洗衣”。

听起来简单,效果惊艳。我们一步步展开来看。

2. 前向过程:一步步往图片上撒沙子

前向过程非常直觉,你可以想象成在一张照片上不断”撒沙子”。

第一步,在照片上轻轻撒一层薄薄的沙子(加一点点随机噪声)。这时候你还能看清照片的内容——嗯,这是一只橘猫趴在沙发上。

第二步,再撒一层。照片变得更模糊了,但你仍然隐约能看出轮廓和颜色。

第三步、第四步……不断重复。每一步都加一点点噪声,照片就越来越看不清了。

经过几百上千步之后,照片彻底被沙子盖住了,变成了一片纯粹的随机噪点。不管原来是一只猫、一条狗还是一幅风景画,最终都会变成同样的”雪花屏”。

这个过程有一个关键特点:每一步加多少噪声是严格按照数学规则来的,所以我们精确地知道在第几步、图片被”破坏”了多少。这个信息对后面的反向过程至关重要——就像你要倒放洗衣机录像,首先得知道洗衣机正着转了多少圈。

你可能会问:费这么大劲把图搅成糊,到底有什么用?别急,精彩的在下一节。

3. 反向过程:AI 学会从噪点里一步步恢复图片

前向过程是”破坏”,反向过程就是”修复”。这才是 Diffusion Model 真正厉害的地方。

我们训练一个神经网络,让它学会一件事情:给你一张带噪声的图片,请你预测这张图上的噪声长什么样。

注意重点:AI 不是直接猜”原图是什么”,而是猜”噪声是什么”。这就好比你在照片上撒了一把沙子,AI 的任务不是直接猜照片内容,而是猜”沙子撒在了哪里、撒了多少”。一旦知道沙子的分布,把沙子去掉,照片自然就露出来了。

训练过程大致是这样的。我们准备大量的原始图片,对每张图:

  1. 随机选一个步骤(比如第 200 步)
  2. 按照规则加上对应量的噪声,得到一张”带噪图”
  3. 把带噪图喂给 AI,让它预测噪声
  4. 拿 AI 预测的噪声和我们实际加的噪声做对比,差距越大就越使劲调整 AI 的参数

反复训练几十万次之后,AI 就掌握了”看到带噪图 → 预测噪声 → 去掉噪声”的能力。

生成图片的时候,我们只需要从一张纯随机噪点图开始,让 AI 一步一步去噪:

  • 第 1000 步:纯噪点 → AI 去掉一点噪声 → 画面开始隐隐约约有一些结构
  • 第 800 步:继续去噪 → 能看到一些模糊的形状和色块
  • 第 500 步:越来越清晰 → 可以辨认出大致的物体轮廓
  • ……
  • 第 1 步:最后一点噪声被去掉 → 一张清晰的图片浮现出来!

整个过程就像看延时摄影:图片从一团混沌中慢慢浮现,细节一点点丰富起来,最终变成一张完整的画面。真的很像变魔术。

4. 文生图是怎么做到的:从文字到画面

到目前为止,我们只说了”从噪点生成图片”。但 AI 怎么知道你想要什么内容呢?你输入”一只穿宇航服的柴犬在月球上自拍”,AI 是怎么画出来的?

这里需要引入一个重要的帮手——CLIP 模型

CLIP 是 OpenAI 训练出来的一个模型,它同时理解图片和文字。训练方法很巧妙:给它看互联网上几亿对”图片 + 文字描述”的配对数据,让它学会判断”这段文字说的是不是这张图”。训练完成后,CLIP 就能把文字和图片都转化成一组数字(向量),并且意思相近的文字和图片,在数字空间里的位置也彼此靠近。

理解了 CLIP,文生图的流程就清楚了:

  1. 你输入一段 Prompt(提示词),比如”一只穿宇航服的柴犬在月球上自拍,赛博朋克风格”。
  2. CLIP 的文本编码器把这段文字转换成一组数字向量,代表了这段话的语义信息。
  3. 去噪的每一步中,这组数字充当”导航仪”:AI 在去噪时不仅要去掉噪声,还要让画面朝着”穿宇航服的柴犬”这个方向发展。

打个比方:如果说去噪过程是在浓雾中开车,那 CLIP 编码就是你的 GPS 导航。没有导航,你随便开,可能到达任何地方(生成一张随机图片)。有了导航,你就能准确到达”穿宇航服的柴犬在月球自拍”这个目的地。

你在使用 Stable Diffusion 等工具时经常会看到一个 “CFG Scale” 的参数——这就是控制”导航力度”的旋钮。值越高,AI 越严格地遵循你的文字描述;值越低,AI 越自由发挥。通常设在 7-12 之间效果最好,太高画面会变得过饱和或不自然。

5. 与 GAN 的对比:为什么 Diffusion 成了新王者

在 Diffusion Model 崛起之前,AI 图像生成领域的主流技术是 GAN(生成对抗网络)。GAN 的思路也很有趣,像是一场”警察抓小偷”的游戏:

  • 生成器(小偷):负责画假图,尽量以假乱真。
  • 判别器(警察):负责分辨哪些是真图、哪些是假图。

两个网络互相博弈、共同进步。小偷的画越来越逼真,警察的眼光也越来越毒辣,最终小偷能画出连警察都分辨不了的图。

GAN 曾经统治了 AI 图像生成好几年,但它有几个令人头疼的顽疾:

  • 训练不稳定。两个网络互相博弈,非常容易”翻车”——小偷可能摆烂只画几种固定的图(行话叫”模式坍塌”),或者警察太强导致小偷根本学不会。调参就像走钢丝,动不动就失败。
  • 多样性不足。GAN 容易反复生成雷同的图片,变化有限。
  • 难以精确控制。你很难通过文字精确地告诉 GAN”我要画什么”,文字引导的效果远不如 Diffusion Model。

Diffusion Model 则几乎把这些问题一扫而空:

  • 训练稳定:只训练一个去噪网络,没有对抗博弈的复杂性,收敛过程可靠得多。
  • 多样性好:每次从不同的随机噪点出发,天然就能生成丰富多样的图片。
  • 可控性强:结合 CLIP 引导和各种条件控制(下一节会讲),指哪打哪。
  • 质量更高:生成的图片细节更丰富、色彩更自然、整体更和谐。

当然,Diffusion Model 也有自己的短板——速度慢。因为需要几十上百步迭代去噪,比 GAN 的一步到位慢了不少。不过这个问题正在被快速攻克:DDIM、DPM-Solver 等加速采样方法大幅减少了所需步数;蒸馏技术(如 SDXL Turbo、Flux Schnell)甚至可以做到一步或几步就生成高质量图片。如今速度已经不再是 Diffusion Model 的瓶颈了。

6. LoRA 和 ControlNet:定制你的专属 AI 画师

Stable Diffusion 这样的大模型虽然能力很强,但有时候你会有更具体的需求:想让 AI 画出某种特定风格、某个特定角色,或者按照你指定的姿势和构图来画。这时就需要两个强力工具了。

LoRA:用少量数据教会 AI 新风格

LoRA(Low-Rank Adaptation,低秩适配)是一种轻量级的模型微调技术。

打个比方:大模型就像一位什么都能画的全能画家,LoRA 相当于给这位画家上了一堂专题小课。比如你想让 AI 学会画”水墨赛博朋克风”,只需要准备二三十张这种风格的图片,用 LoRA 训练几十分钟到几小时,就能得到一个小小的”风格插件”(通常只有几十到一百多 MB)。把这个插件加载到大模型上,AI 就学会了这种新风格,而且不会忘记原来会画的东西。

LoRA 的精髓在于:它不修改大模型本身,只是给模型加了一个小小的”补丁”。 就像你不用重新装修整栋房子,只换一幅窗帘和几个摆件,就能让房间换个风格。你甚至可以同时加载多个 LoRA,把不同的风格和元素混搭在一起。

ControlNet:精确控制构图和姿势

ControlNet 解决的是另一个痛点:精确控制画面的空间布局

比如你想让 AI 画一个人做出特定的瑜伽动作,光靠文字很难描述清楚。ControlNet 允许你提供额外的”控制图”来引导生成:

  • 姿势骨架图:画一个火柴人或者用摄像头捕捉真人姿势,AI 就按这个姿势来画人物。
  • 边缘线稿:提供一张轮廓线条图,AI 在此基础上填充颜色和细节。
  • 深度图:标明画面中哪些东西远、哪些东西近,AI 就能正确处理前后关系。
  • 语义分割图:用色块标出哪里是天空、哪里是建筑、哪里是草地,AI 就按照这个布局来构图。

ControlNet 就像给 AI 画师提供了一张施工蓝图。没有蓝图时画师自由发挥,有了蓝图就能严格按照你的要求来画,同时依然保持自己的”画技”和审美。

LoRA 和 ControlNet 可以叠加使用——用 LoRA 控制风格,用 ControlNet 控制构图和姿势,再用 Prompt 描述具体内容,三管齐下就能实现非常精细的创作控制。这也是为什么 Stable Diffusion 社区能产出如此丰富多样的作品。

7. 版权与伦理:AI 画的图算谁的?

AI 画图技术越来越强大,但随之而来的争议也越来越激烈。作为使用者,我们有必要了解这些问题。

训练数据的版权争议

Stable Diffusion 等模型是用互联网上海量的图片训练出来的,其中很多是艺术家辛苦创作的原创作品,但训练时并没有征得他们的同意,也没有支付报酬。

许多艺术家对此非常愤怒,认为这是”合法化的抄袭”——AI 吸收了他们的风格和创意,然后大量生成类似的作品,直接冲击了他们的收入。从 2023 年起,已经有多起相关集体诉讼在美国和欧洲的法院进行中。

AI 公司则辩称这属于”合理使用”(Fair Use),就像人类画家也会通过观摩前辈的作品来学习一样。这场争论至今没有定论,各国法律仍在探索中。

AI 生成图片的版权归属

AI 画的图到底算谁的作品?是使用者的?是 AI 公司的?还是谁都不是?

目前各国的态度不太一样:

  • 美国:版权局倾向于认为纯 AI 生成的内容不受版权保护。但如果人类有足够的创造性投入(比如精心设计 Prompt、手动修改画面),可能获得部分版权。
  • 中国:已有法院判决认定 AI 生成图片可以受版权保护,前提是使用者付出了实质性的智力劳动。
  • 欧盟:通过 AI 法案要求对 AI 生成内容进行标识,并规范其使用。

深度伪造与伦理红线

AI 图像生成还带来了深度伪造(Deepfake)的风险:生成逼真的虚假人物照片、冒用他人形象、制作虚假新闻配图……这些滥用行为正在引起全社会的警惕。

各大 AI 画图平台已经在采取措施:内容审核、水印标识、使用条款限制等。但技术防线永远不是万能的,最终还需要法律法规的完善和每一位使用者的自律。

技术本身是中性的,关键在于我们怎么使用它。 享受 AI 画图的便利与乐趣的同时,尊重他人的创作权益,不制造和传播虚假内容,是每一位负责任的使用者应该坚守的底线。

写在最后

Diffusion Model 用一种看似”反常识”的方式——先破坏再修复——实现了惊人的图像生成效果。它的成功告诉我们:有时候解决问题的最好方法,不是直接正面硬上,而是把问题拆解成一小步一小步,每一步都简单到 AI 可以学会。

从 DALL·E 到 Stable Diffusion,从 Midjourney 到 Flux,AI 画图工具正在飞速进化。理解它们背后的原理,能帮助你更好地使用这些工具,也能让你在面对 AI 生成内容时保持独立的判断力。


延伸阅读

  1. The Illustrated Stable Diffusion - Jay Alammar —— 用大量可视化图示解释 Stable Diffusion 的工作原理,非常直观易懂,强烈推荐。
  2. What are Diffusion Models? - Lil’Log —— Lilian Weng 的经典博客文章,用相对通俗的语言介绍 Diffusion Model 的原理,适合想进一步深入的读者。
  3. Stable Diffusion Art —— 面向实践者的教程站点,涵盖 Stable Diffusion 的安装、使用、LoRA 训练、ControlNet 配置等实操内容,上手即用。