在 ComfyUI(以及整个 Stable Diffusion 生态)中,理解这些目录和概念的区别,就相当于理解了一个“AI 绘画工作室”中各个部门的分工。
以下是这些目录和概念的详细解释:
1. models (模型根目录)
- 角色定位:整个工作室的资料库。
- 详细解释:这是一个根目录(Root Directory)。在 ComfyUI 的文件结构中,
models文件夹包含了所有用于生成图像的核心资产。你提到的checkpoints、loras、vae、clip等,通常都是这个目录下的子文件夹。
2. checkpoint (大模型 / 底模)
- 角色定位:工作室的总监 + 核心技术团队(包含画师、翻译、解码器)。
- 详细解释:Checkpoint 是最核心的“大模型”或“底模”。通常我们下载的几个 GB 大小的
.safetensors或.ckpt文件就是它。一个完整的 Checkpoint 内部实际上已经打包包含了 UNet、CLIP 和 VAE 这三个核心组件。它决定了出图的整体画风(如二次元、真实摄影、3D 渲染等)和基础质量。 - 对应 ComfyUI 目录:
models/checkpoints
3. UNet (核心扩散模型)
- 角色定位:工作室的主画师。
- 详细解释:UNet 是 Stable Diffusion 真正负责“画画”的部分。它的工作原理是在“潜空间(Latent Space)”中,根据你的提示词(Text Prompt)指导,一步步地把一张全是噪点的随机图像,去噪还原成一张有意义的画面。在 ComfyUI 中,虽然我们通常直接加载 Checkpoint,但你也可以单独加载独立的 UNet 模型(随着 SD3 和 Flux 时代的到来,UNet/Transformer 常被单独提取出来使用)。
- 对应 ComfyUI 目录:
models/unet
4. CLIP / text_encoders (文本编码器)
- 角色定位:工作室的翻译官。
- 详细解释:AI 是看不懂人类语言的。CLIP 的作用就是把你输入的提示词(如 “a cute cat”)翻译成 AI(UNet)能理解的数学多维向量(Embeddings)。
- CLIP 是早期的默认文本编码器。
- text_encoders 是一个更广泛的称呼。现在的模型(如 SDXL, SD3, Flux)越来越复杂,经常需要同时使用多个文本编码器(比如 CLIP-L, CLIP-G, 甚至 T5xxl)来更精准地理解长句子和复杂语义。在 ComfyUI 中,这些文件通常放在
clip目录下。
- 对应 ComfyUI 目录:
models/clip(通常包含所有 text encoders)
5. VAE (变分自编码器)
- 角色定位:工作室的显示器 / 冲印部。
- 详细解释:UNet “画画”是在一个人类肉眼看不懂的“潜空间(Latent Space)”里进行的,因为这样计算速度快。画完之后,需要 VAE 将潜空间的数据“解码”成我们在屏幕上能看到的彩色像素图像(RGB 图像)。VAE 直接影响画面的色彩饱和度、光影对比和微小细节。如果生成的图片看起来灰蒙蒙的,通常是因为没有加载或使用了错误的 VAE。
- 对应 ComfyUI 目录:
models/vae
6. LoRA (低秩适应微调模型)
- 角色定位:主画师的参考画册 / 特效滤镜。
- 详细解释:LoRA 是一种体积很小(通常几十到几百 MB)的微调模型,它不能独立工作,必须“外挂”在 Checkpoint 上使用。它的作用是在不改变大模型整体风格的前提下,给 AI 注入特定的知识——比如某个特定的动漫角色、某种特定的服装、特定的材质画风,或者特定的构图方式。
- 对应 ComfyUI 目录:
models/loras
总结对照表
为了更直观地理解,请参考下表:
| 目录/概念名 | 俗称/比喻 | 核心功能 | 文件大小 (参考) | 常见格式 |
| models | 资料库 / 总目录 | 存放所有 AI 模型的根文件夹。 | N/A | 文件夹 |
| checkpoint | 大模型 / 底模 | 决定整体画风和基础质量,内部通常已打包包含了 UNet, CLIP, VAE。 | 2GB – 24GB | .safetensors, .ckpt |
| UNet | 主画师 | 执行核心的降噪生成过程,决定画面内容。 | 1GB – 10GB | .safetensors |
| CLIP / text_encoders | 翻译官 | 将人类输入的文本提示词翻译成 AI 能懂的向量数据。 | 几百MB – 10GB (如 T5) | .safetensors |
| VAE | 冲印部 / 滤镜 | 将 AI 画完的潜空间数据转换成人类肉眼可见的彩色像素图片,影响色彩和细节。 | 300MB – 800MB | .safetensors, .pt |
| LoRA | 参考画册 / 扩展包 | 必须配合大模型使用,用于添加特定的人物特征、画风、服装或概念。 | 10MB – 300MB | .safetensors |