Stable Diffusion 常用模型介绍

363 0 0

大模型
Stable Diffusion是Latent Diffusion Model (https://arxiv.org/abs/2112.10752) 的一种应用。Diffusion Model 是文本到图像的图像生成模型，通过使用 VAE (Variational Auto-Encoder) 将潜空间的数据转换为正常图像。使用 Text Encoder (将人类语言转换成机器能理解的数学向量)的 CLIP(CLIPTextModel) 使用 U-Net调节(噪声的估计和去除) 图像生成。
大模型通常拥有完整的VAE、TextEncoder、U-Net。

常见的大模型一般为ckpt和safetensors格式，还有ema、full ema、nonema、pruned等版本
ckpt
ckpt (CheckPoint)，完整模型的常见格式，ckpt模型包含生成图像所需的TextEncoder、U-Net、VAE，不需要额外的文件。比如最近大火的ChilloutMix就是一种CHECKPOINT模型。般比较大，通常为 2~7 GB，其后缀为 .ckpt 。文件位置: 该模型一般放置在*\stable-diffusion-webui\models\Stable-diffusion目录内。

safetensors
使用方式: safetensors是为了解决模型的安全风险(pickle反序列化攻击)而出现的新型的模型格式，旨在取代ckpt格式，这也是我们最常用的大模型文件格式。
文件位置: 该模型一般放置在*\stable-diffusion-webui\models\Stable-diffusion目录内。

小模型
由于想要训练一个大模型非常困难，需要极高的显卡算力，所以更多的人选择去训练小型模型。小模型一般都是截取大模型的某一特定部分，虽然不如大模型能力那样完整，但是小而精，因为训练的方向各为明确，所以在生成特定内容的情况下，效果更佳。
常见微调模型: LoRA、VAE、Textual inversion (Embedding)、Hypernetwork等，下面-一进行介绍。

LORA模型
LORA (Low-Rank Adaptation of Large Language Models) 模型可以理解为大模型的补丁，用于修改风格对象。性价比很高 (效果好而且训练较为快速和简单) ，所以很常用。LORA的原理是冻结预训练好的模型权重参数，然后在每Transformer块(利用注意力机制来提高模型训练速度)里注入可训练的层，由于不需要对模型的权重参数重新计算梯度，所以可以减少参数量和计算量，提高训练效率和生成质量。
LORA模型通常是10~200 MB，常见格式为 .ckpt (safetensors)。
文件位置: 该模型一般放置在*\stable-diffusion-webui\models\Lora目录内。

VAE模型
VAE (Variational Auto-Encoder) 模型变分自编码器，负责将潜空间的数据转换为正常图像。可以简单理解为滤镜。一般大模型本身里面就自带 VAE，但是一些融合模型的VAE损坏了(画面发灰/颜色怪异)，需要额外使用VAE文件来修复。
VAE模型通常是300~800MB，常见格式为 .pt，.ckpt (safetensors)。
文件位置: 该模型一般放置在*\stable-diffusion-webui\models\VAE目录内。

Embedding
embedding模型用于定义新关键字来生成新的对象或风格的小文件(多用于风格引导)。不会改变模型，它只是定义新的关键宇来实现某些样式。
embedding模型通常为10~100 KB，常见格式为 .pt 。
文件位置: 该模型一般放置在*\stable-diffusion-webui\models\embeddings目录内。

Hypernetwork
hypernetworks可以根据自己的图片训练一个小部分的神经网络，然后用这个结果来生成新的图片。可以用来对Stable-diffusion 的模型进行风格迁移(stvle transter) ，即根据自己的图片或者其他模型生成一个新的权重然后用这个权重来改变生成图片的风格。
hypernetworks是 Stable Diffusion 的微调模型之一。它学起来很慢，设置起来很困难，而且没有很好的效果
所以它基本已经过气了，很少人在聊这个。
hypernetworks模型通常为 5~300 MB，常见格式为 .pt 。
文件位置: 该模型一般放置在*\stable-diffusion-webui\models\hypernetworks目录内。

常用模型训练方式
Dreambooth
配置要求: 显存12GB以上。
训练速度: 慢
训练难度: 可以简单可以很难
说明: 微调大模型，非常强大的训练方式，但是使用上会不那么灵活，推荐训练风用，人物/物体使用 LORA 训练。

LORA
配置要求: 显存8GB以上。
训练速度: 快
训练难度: 简单
说明: 好出效果的人物/物体/风格训练，配置要求低，图要求少。