文生图工作流程

Finder / 2024-10-16

大家好，今天我来教大家如何搭建文生图工作流。听完上节课的SD原理后，相信大家会更容易理解这节课的内容。

首先，我们来打开启动器。如果你安装了康复UI，在根目录下会有一个启动器，双击打开它。

进入页面后，养成这样的习惯：

先到版本管理
更新内核
更新扩展
回到第一个页面，点击一键启动

启动后，你可能会看到全是英文的界面，不要害怕！我来教你如何把它改成中文：

点击右上角的设置（齿轮图标）
往下拉，找到"text auto complete"，点击启用
找到"AGL translation language"，选择"Chinese simplified"
点击确定，界面就会变成中文了

现在，让我们看看主页面。你会看到很多长方形框，我们称为"节点"。主页面上有7个节点，组成了基本的文生图工作流。

虽然可以直接使用这个工作流，但自己动手搭建会让你学到更多，也会让后面的学习更轻松。所以，让我们一起来搭建自己的工作流吧！

这个工作流对应上节课讲的SD原理。先教大家一个选择多个节点的小技巧：按住Control键，用鼠标左键在空白处框选，然后按DELETE删除。我们现在来自己搭建。

SD的核心是什么？是大模型。它就像SD的心脏和大脑，没有它，再好的工作流也出不了图。这就是为什么上节课强调至少要有一个大模型。大模型的作用是定义图片风格，比如写实或动漫风格。

添加节点有两种常用方法：

在空白处右键点击"新建节点"。
双击页面空白处，直接搜索节点名称。

我们先添加一个大模型加载器节点。搜索"checkpoint"，选择"checkpoint加载器（简易）"。

接下来，我们需要添加文本编码器节点。这是用来输入关键词的地方。我们需要两个：一个用于正向关键词，一个用于负向关键词。

添加完节点后，我们需要把它们连接起来。节点的左边叫"首部"，右边叫"尾部"。只能把一个节点的尾部连到另一个节点的首部。

然后，我们需要添加采样器节点。右键新建节点，找到"采样"，选择"K采样器"。这里有几个重要设置：

随机种子：控制生成图片的随机性。
步数：决定降噪的次数，通常设为30-40。
CFG Scale：控制关键词和图片的相关性，建议设为7-8。
采样器：推荐使用Euler a或DPM++ 2M SDE。
调度器：通常选择normal或Karras。

最后，我们需要添加一个空latent节点来设置图片尺寸。尺寸选择取决于你使用的模型版本：

SD 1.5版本：建议512x512或512x768
SD 2.1版本：可以用768x768
SD XL或更新版本：建议1024x1024

记住，越新的模型通常支持更高的分辨率，因为它们使用更高质量的训练图片。

这样，我们就完成了基本工作流的搭建。后面的课程我们会学习如何使用这个工作流来生成图片。

打开启动器。如果你安装了康复UI，在根目录下有一个启动器，双击打开它。

进入页面后，请养成以下习惯：

先去版本管理
更新内核
更新扩展
回到第一个页面，点击一键启动

启动后，你可能会看到全是英文的界面，不用担心！我来教你如何改成中文：

点击右上角的设置（齿轮图标）
往下滑，找到"text auto complete"，点击启用
找到"AGL translation language"，选择"Chinese simplified"
点击确定，界面就会变成中文了

现主页面有很多长方形的框，我们称为"节点"。默认会有7个节点，组成了基本的文生图工作流。

这套工作流程对应上节课讲的SD原理。

大模型节点 #

首先，SD的核心是大模型。它就像SD的心脏和大脑，没有它就无法生成图片。大模型的作用是定义图片风格，比如写实或动漫风格。

如何添加大模型流程如下：

打开节点添加入口，有两种常用方法：
1. 在空白处右键点击"新建节点"。这里会显示所有可用的节点。
2. 双击页面空白处，直接搜索节点名称。这种方法更快捷，特别是当你熟悉节点名称时。
搜索"checkpoint"，你会看到"checkpoint加载器（简易）“和"checkpoint加载器”。选择第一个简易版本就可以了，两者功能差不多。

当你添加节点时，最好记住它们的名称。大模型在SD中英文叫做"checkpoint"，简称为"CKPT"。加载器的英文是"checkpoint loader"。

如果页面是中文，你可以输入"加载器"来搜索。但如果切换到英文界面，就只能用英文搜索了。

添加节点后，选择你喜欢的大模型就好。

现在我们来看看如何选择大模型。你可以点击节点中间来显示所有可用的大模型，或者使用左右箭头逐个浏览。右上角的数字（比如#10）是编号，现在不用关注它。

右边有三个重要选项：模型、CLIP和VAE。CLIP是文本编码器的一种，它能将我们的语言转换成AI可以理解的形式。VAE则是我们提到过的解码器。这些选项会连接到其他节点上。

让我们回顾一下SD的工作原理。我们用文字（也就是关键词）告诉AI我们想要什么样的图片。为了让AI理解这些关键词，我们需要使用CLIP文本编码器节点。它的作用是将人类的语言转换成计算机可以理解的语言。

CLIP文本编码器 #

接下来，我们来添加文本编码器节点。这个节点用于输入关键词。我们需要两个文本编码器：一个用于正向关键词，另一个用于负向关键词。

添加方法如下：

右键点击空白处，选择"新建节点"。
在条件类别下找到"CLIP文本编码器"。
添加后，复制这个节点，这样我们就有了两个编码器。

关键词分为两种：正向关键词和负向关键词。

正向关键词：你想在图片中看到的元素
负向关键词：你不想在图片中看到的元素

例如，如果你想生成"一个女孩在沙滩上走路吃冰淇淋"的图片，你可以这样写关键词：正向关键词：one girl eating ice cream while walking on the beach 负向关键词：对于负向关键词，你可以使用"embedding easy negative"，这是一个常用的负向关键词集合，可以帮助避免一些常见的图片生成问题。

K采样器 #

接下来，我们需要添加采样器节点：

右键新建节点，找到"采样"类别。
选择"K采样器"。
这个节点有几个重要设置：
- 随机种子：控制生成的随机性。设为0表示完全随机。
- 运动后操作：指代的是随机种子的行为。固定，指的的每次生成图使用一样的随机种子值；增加是每次生成后随机种子值+1；减少是每次生成后随机种子-1；随机是每次生成时随机一个值。默认为随机。
- 步数：决定降噪的次数。通常设置在25-40之间较好。
- CFG Scale：控制生成图像与关键词的相关性。建议设置在2-9之间，7是个不错的选择。
- 采样器：推荐使用"Euler a"或"DPM++ 2M SDE"。
- 调度器：图片生成时的降噪曲线，“Normal"是匀速降噪；“Karras"是曲线降噪，经历慢快慢的降噪过程； “exponential“是慢块的降噪过程。通常选择"Normal"或"Karras"即可。
- 降噪：图生图的重绘幅度，文生图时默认是 1 即可，图生图是值越高，和原图越不一样。

最后，我们需要设置图片的大小。为此，我们要添加一个"Latent"节点：

右键新建节点，找到"Latent"类别。
选择"空Latent”。
这个节点用来设置图片的尺寸和分辨率。

记得将所有节点正确连接。K采样器的左侧有多个连接点，需要分别连接到大模型、两个文本编码器和Latent节点。正确的连接是让工作流顺利运行的关键。

空Latent #

接下来，我们需要设置图片的大小。K采样器在潜在空间中工作，它会把你输入的尺寸压缩到显卡能处理的大小。为此，我们要添加一个"空Latent"节点，这个很重要，因为如果不确定尺寸，图片就无法生成。

右键新建节点，找到"Latent"类别。
选择"空Latent”。
这个节点用来设置图片的尺寸。

在Latent节点中，你需要输入图片的宽度和高度，单位是像素。选择合适的尺寸很重要：

对于1.5版本的模型，尽量保持在512到768之间。例如，512×512（正方形）或512×768（长方形）。
对于2.1版本的模型，可以用到768×768。
对于XL模型或新的SD3模型，尽量保持在1024×1024左右。

为什么新模型需要更高的分辨率？因为AI在不断进步，新模型使用的训练图片分辨率更高，所以生成的图片也更清晰。如果用高版本模型生成低分辨率图片，虽然不会报错，但图片质量会很差。

记得将Latent节点正确连接到其他节点上。

VAE解码器 #

到这一步，图片已经生成了，但是这是计算机能理解的格式，我们还看不到。我们需要解码这个图片，把它转换成我们能看到的格式。这就是VAE解码器的作用。

接下来，我们需要添加VAE解码器：

右键点击，选择"新建节点"
在"latent"类别中找到"VAE解码"
将VAE解码器连接到之前的节点上

解码后，图片就生成了，但我们还需要一个节点来显示或保存图片：

再次右键新建节点，选择"图像"类别
你可以选择"保存图像"或"预览图像"

“保存图像"会把所有生成的图片保存到你的电脑上，可能会占用很多空间。“预览图像"只在当前页面显示图片，不会保存。选择哪个取决于你的需求。

生图操作 #

视图右侧的”添加提示词队列“按钮
ctrl+enter

#Stable Diffusion 系统课 #ComfyUI #AI

最后一次修改于 2024-10-16