comfyui 下边这些目录的区别

作者：

在

在 ComfyUI（以及整个 Stable Diffusion 生态）中，理解这些目录和概念的区别，就相当于理解了一个“AI 绘画工作室”中各个部门的分工。

以下是这些目录和概念的详细解释：

1. models (模型根目录)

角色定位：整个工作室的资料库。
详细解释：这是一个根目录（Root Directory）。在 ComfyUI 的文件结构中，models 文件夹包含了所有用于生成图像的核心资产。你提到的 checkpoints、loras、vae、clip 等，通常都是这个目录下的子文件夹。

2. checkpoint (大模型 / 底模)

角色定位：工作室的总监 + 核心技术团队（包含画师、翻译、解码器）。
详细解释：Checkpoint 是最核心的“大模型”或“底模”。通常我们下载的几个 GB 大小的 .safetensors 或 .ckpt 文件就是它。一个完整的 Checkpoint 内部实际上已经打包包含了 UNet、CLIP 和 VAE 这三个核心组件。它决定了出图的整体画风（如二次元、真实摄影、3D 渲染等）和基础质量。
对应 ComfyUI 目录：models/checkpoints

3. UNet (核心扩散模型)

角色定位：工作室的主画师。
详细解释：UNet 是 Stable Diffusion 真正负责“画画”的部分。它的工作原理是在“潜空间（Latent Space）”中，根据你的提示词（Text Prompt）指导，一步步地把一张全是噪点的随机图像，去噪还原成一张有意义的画面。在 ComfyUI 中，虽然我们通常直接加载 Checkpoint，但你也可以单独加载独立的 UNet 模型（随着 SD3 和 Flux 时代的到来，UNet/Transformer 常被单独提取出来使用）。
对应 ComfyUI 目录：models/unet

4. CLIP / text_encoders (文本编码器)

角色定位：工作室的翻译官。
详细解释：AI 是看不懂人类语言的。CLIP 的作用就是把你输入的提示词（如 “a cute cat”）翻译成 AI（UNet）能理解的数学多维向量（Embeddings）。
- CLIP 是早期的默认文本编码器。
- text_encoders 是一个更广泛的称呼。现在的模型（如 SDXL, SD3, Flux）越来越复杂，经常需要同时使用多个文本编码器（比如 CLIP-L, CLIP-G, 甚至 T5xxl）来更精准地理解长句子和复杂语义。在 ComfyUI 中，这些文件通常放在 clip 目录下。
对应 ComfyUI 目录：models/clip (通常包含所有 text encoders)

5. VAE (变分自编码器)

角色定位：工作室的显示器 / 冲印部。
详细解释：UNet “画画”是在一个人类肉眼看不懂的“潜空间（Latent Space）”里进行的，因为这样计算速度快。画完之后，需要 VAE 将潜空间的数据“解码”成我们在屏幕上能看到的彩色像素图像（RGB 图像）。VAE 直接影响画面的色彩饱和度、光影对比和微小细节。如果生成的图片看起来灰蒙蒙的，通常是因为没有加载或使用了错误的 VAE。
对应 ComfyUI 目录：models/vae

6. LoRA (低秩适应微调模型)

角色定位：主画师的参考画册 / 特效滤镜。
详细解释：LoRA 是一种体积很小（通常几十到几百 MB）的微调模型，它不能独立工作，必须“外挂”在 Checkpoint 上使用。它的作用是在不改变大模型整体风格的前提下，给 AI 注入特定的知识——比如某个特定的动漫角色、某种特定的服装、特定的材质画风，或者特定的构图方式。
对应 ComfyUI 目录：models/loras

总结对照表

为了更直观地理解，请参考下表：

目录/概念名	俗称/比喻	核心功能	文件大小 (参考)	常见格式
models	资料库 / 总目录	存放所有 AI 模型的根文件夹。	N/A	文件夹
checkpoint	大模型 / 底模	决定整体画风和基础质量，内部通常已打包包含了 UNet, CLIP, VAE。	2GB – 24GB	`.safetensors`, `.ckpt`
UNet	主画师	执行核心的降噪生成过程，决定画面内容。	1GB – 10GB	`.safetensors`
CLIP / text_encoders	翻译官	将人类输入的文本提示词翻译成 AI 能懂的向量数据。	几百MB – 10GB (如 T5)	`.safetensors`
VAE	冲印部 / 滤镜	将 AI 画完的潜空间数据转换成人类肉眼可见的彩色像素图片，影响色彩和细节。	300MB – 800MB	`.safetensors`, `.pt`
LoRA	参考画册 / 扩展包	必须配合大模型使用，用于添加特定的人物特征、画风、服装或概念。	10MB – 300MB	`.safetensors`

评论

发表回复取消回复

更多文章