comfyui 下边这些目录的区别

在 ComfyUI(以及整个 Stable Diffusion 生态)中,理解这些目录和概念的区别,就相当于理解了一个“AI 绘画工作室”中各个部门的分工。

以下是这些目录和概念的详细解释:

1. models (模型根目录)

  • 角色定位:整个工作室的资料库
  • 详细解释:这是一个根目录(Root Directory)。在 ComfyUI 的文件结构中,models 文件夹包含了所有用于生成图像的核心资产。你提到的 checkpointslorasvaeclip 等,通常都是这个目录下的子文件夹。

2. checkpoint (大模型 / 底模)

  • 角色定位:工作室的总监 + 核心技术团队(包含画师、翻译、解码器)。
  • 详细解释:Checkpoint 是最核心的“大模型”或“底模”。通常我们下载的几个 GB 大小的 .safetensors.ckpt 文件就是它。一个完整的 Checkpoint 内部实际上已经打包包含了 UNetCLIPVAE 这三个核心组件。它决定了出图的整体画风(如二次元、真实摄影、3D 渲染等)和基础质量。
  • 对应 ComfyUI 目录:models/checkpoints

3. UNet (核心扩散模型)

  • 角色定位:工作室的主画师
  • 详细解释:UNet 是 Stable Diffusion 真正负责“画画”的部分。它的工作原理是在“潜空间(Latent Space)”中,根据你的提示词(Text Prompt)指导,一步步地把一张全是噪点的随机图像,去噪还原成一张有意义的画面。在 ComfyUI 中,虽然我们通常直接加载 Checkpoint,但你也可以单独加载独立的 UNet 模型(随着 SD3 和 Flux 时代的到来,UNet/Transformer 常被单独提取出来使用)。
  • 对应 ComfyUI 目录:models/unet

4. CLIP / text_encoders (文本编码器)

  • 角色定位:工作室的翻译官
  • 详细解释:AI 是看不懂人类语言的。CLIP 的作用就是把你输入的提示词(如 “a cute cat”)翻译成 AI(UNet)能理解的数学多维向量(Embeddings)。
    • CLIP 是早期的默认文本编码器。
    • text_encoders 是一个更广泛的称呼。现在的模型(如 SDXL, SD3, Flux)越来越复杂,经常需要同时使用多个文本编码器(比如 CLIP-L, CLIP-G, 甚至 T5xxl)来更精准地理解长句子和复杂语义。在 ComfyUI 中,这些文件通常放在 clip 目录下。
  • 对应 ComfyUI 目录:models/clip (通常包含所有 text encoders)

5. VAE (变分自编码器)

  • 角色定位:工作室的显示器 / 冲印部
  • 详细解释:UNet “画画”是在一个人类肉眼看不懂的“潜空间(Latent Space)”里进行的,因为这样计算速度快。画完之后,需要 VAE 将潜空间的数据“解码”成我们在屏幕上能看到的彩色像素图像(RGB 图像)。VAE 直接影响画面的色彩饱和度、光影对比和微小细节。如果生成的图片看起来灰蒙蒙的,通常是因为没有加载或使用了错误的 VAE。
  • 对应 ComfyUI 目录:models/vae

6. LoRA (低秩适应微调模型)

  • 角色定位:主画师的参考画册 / 特效滤镜
  • 详细解释:LoRA 是一种体积很小(通常几十到几百 MB)的微调模型,它不能独立工作,必须“外挂”在 Checkpoint 上使用。它的作用是在不改变大模型整体风格的前提下,给 AI 注入特定的知识——比如某个特定的动漫角色、某种特定的服装、特定的材质画风,或者特定的构图方式。
  • 对应 ComfyUI 目录:models/loras

总结对照表

为了更直观地理解,请参考下表:

目录/概念名俗称/比喻核心功能文件大小 (参考)常见格式
models资料库 / 总目录存放所有 AI 模型的根文件夹。N/A文件夹
checkpoint大模型 / 底模决定整体画风和基础质量,内部通常已打包包含了 UNet, CLIP, VAE。2GB – 24GB.safetensors, .ckpt
UNet主画师执行核心的降噪生成过程,决定画面内容。1GB – 10GB.safetensors
CLIP / text_encoders翻译官将人类输入的文本提示词翻译成 AI 能懂的向量数据。几百MB – 10GB (如 T5).safetensors
VAE冲印部 / 滤镜将 AI 画完的潜空间数据转换成人类肉眼可见的彩色像素图片,影响色彩和细节。300MB – 800MB.safetensors, .pt
LoRA参考画册 / 扩展包必须配合大模型使用,用于添加特定的人物特征、画风、服装或概念。10MB – 300MB.safetensors

comfyui基础四:comfyui的基础认知与基础模型分类

Comfyui基础认知

定义

ComfyUI 是一个基于“节点”工作流的 AI 图像生成工具。

如果把常用的 AI 绘图软件比作一台“全自动洗衣机”,你只需按一个按钮,它自动完成所有步骤。那么 ComfyUI 就是一套“乐高积木”,你需要自己挑选积木(节点),把它们连接起来,设计出一套专属的流水线,最终生成图像。

功能

Comfyui最开始确实只是一个图像生成工具,但是随着生态的一步步的繁荣壮大,功能也越发的丰富,甚至很多简单的功能即使不使用模型完全依靠丰富的插件即可完成。

  • 图片生成与修改

这是comfyui最基础的功能,比较常见的就是文生图、图生图、局部重绘、高清放大、图像扩展等多种功能。

  • 视频生成

ComfyUI 是目前 AI 视频生成最灵活的平台,如果说算上丰富的API调用的话,也可以说最强大的视频生成平台。

比较常见的功能有图生视频,文生视频,视频插针,动作迁移,数字人迁移等多种功能

  • 音乐生成

comfyui也同样包含音乐生成的功能,基本上开源的音乐项目都会进行适配。虽然和闭源平台的效果有不小的差距,但是通过API调用也可以生成不错的作品。相对于很多平台高昂的包月制度来讲,按次收费的api服务对于使用频率较低的用户可以说是非常友好。

  • 3D模型生成

3D模型生成在comfyui中也是可以实现的,只不过这类项目比较小众,对专业知识的需求比较高,所以目前来说资料相对较少。

优势

  • 极高的自由度与可控性

在 ComfyUI 中,你可以精确控制每一个环节。你可以让图片经过很多个不同的处理步骤,每一步都可以单独调整参数。它是目前实现复杂工作流的唯一真神。

  • 强大的社区生态

无缝支持新架构:每当新模型架构出现,ComfyUI 往往在几天内就能通过更新原生节点或简单插件完美支持,而无需等待软件大版本更新。

原生 ComfyUI 只有基础功能,但所有高级功能都来自社区开发的“自定义节点”。这些节点是由全球开发者用 Python 编写的独立功能模块,每个节点解决一个具体问题。

工作流生态丰富,很多大神将复杂的参数调整、节点连接逻辑保存下来,变成一张图片或一个 JSON 文件。拖入到工作流之中就可以获得整套流程。

  • 速度最快,显存占用最低

ComfyUI 的代码优化极佳。同样的显卡,使用 WebUI 上可能爆显存或者跑得很慢,在 ComfyUI 上就有可能流畅运行,甚至生成速度提升 30%-50%。

劣势

虽然comfyui有这么多的优势,但是同样也有不好的地方,不过我认为这并不是问题,反而这些问题属于正常现象。

  • 学习门槛高

和其他有着更加简单使用界面的软件相比,界面面里,满屏的连线、方框、参数,像极了复杂的电路图。这不仅是使用习惯的转换,同样是思维模式的变化。从告诉AI你要做什么,变成你需要一个详细的流程思路,而AI只负责最核心的运算。但是这是一个很正常的情况,就像我们修图使用美图秀秀但是专业人员会使用PS。普通人剪辑视频只需要一个剪映,可能在很多人眼里剪映已经属于专业的剪辑软件了。但是,依旧会有更专业的人员使用PR、达芬奇等更加专业的软件。同样的道理,更加专业的软件带来更多的使用技巧和更加细致的可控性,comfyui入门难这是所有专业软件的共同特点。

  • 依赖和插件兼容性问题

丰富的生态环境,也造成了很多难以规避的问题,作为一个全球开发者共同构建的生态环境,很难说不出现兼容性问题。这也算是成也萧何,败也萧何,基本上所有的开源项目都会有这种类似的情况。这也更加体现了一个优秀的整合包的重要性,虽然不可能完全避免兼容性问题,但是可以减少出问题的概率和维护的时间成本。

  • 对硬件配置的要求较高

虽然comfyui的优化很好,但是作为一个专业工具来讲,使用门槛肯定还是有的。不管是什么专业软件,基本上都会有自己的使用门槛,这没有办法避免的。

基础模型文件分类

大模型是我们运行工作的核心,假如把Comfyui比作一个人的话,软件本体就是躯干,插件就是代表了不同功能的肢体器官,连线是人体的神经脉络,而大模型就是最关键的大脑。就像人的大脑也有不同的分区一样,一个完整的大模型也不是由单独的一部分构成。

扩散模型

既然要使用comfyui我们不得不提到的一个名称,因为在comfyui中我们正常使用的图片模型和视频模型基本上都属于扩散模型。因为这类模型训练是通过正向扩散来构建训练数据,所以被称之为扩散模型。其实可以理解为通过展示破坏的过程,然后让模型学会还原的能力。这个还原的过程称之为反向去噪,这也是实现图像生成和视频生成的核心原理。

正向扩散

这里以图片进行举例,正向扩散就是为一张清晰的图片进行不断的添加噪点,直到最后变成一张杂乱无章完全由噪点构成的图片,从而训练反向预测的能力。

飞书文档 - 图片

反向去噪

反向去噪就是通过提示词引导模型一步步去噪的过程,开始先给模型一个完全由噪点构成的原始噪声,然后再通过一步一步降噪来预测提示词描绘的画面应该是什么样子的。这里的原始噪声就相当于原材料,提示词是制作要求,最后推理出来的图片为结果。

飞书文档 - 图片

完整模型结构

一个完整的扩散模型应该包含三部分,分别是负责去噪的主干模型,文本编码模型和潜空间编解码模型。

  • 主干模型(由UNET加载器加载):

负责最核心的功能,也就是负责进行去噪的这个过程。因为在最初的SD时代,这一部分的模型架构为UNET所以采用UNET加载器加载。即使新模型的模型架构已经发生了改变,也没有出现专门的加载器,而是由unet加载其进行兼容。

  • 文本编码模型(由CLIP加载器加载):

负责将提示词等文字信息转化为引导信号,可以理解为这是一个用来翻译的词典,把人类的语言翻译成对应大模型可以理解计算机语言。和主干模型都采用unet加载器加载同理,clip加载器也是对新模型架构进行了兼容。

  • 潜空间编解码模型(由VAE加载器加载):

我们模型进行去噪的过程是在潜空间内完成的,这主要目的是为了减少计算所占用的资源。这个可以理解为针对图片起一个压缩和放大的作用。如果需要把图像传入潜空间,就需要使用VAE进行编码(可以理解为压缩),我们最终生成的图片输出出来就需要使用VAE进行解码(可以理解为放大)。

这么说可能比较抽象,我这里用SD的VAE模型进行举例。

假如我需要一个512512分辨率的图像,如果直接计算这张图片就需要计算:512512*3=786432个数据。因为每种颜色都由光的三原色构成,也就是每个像素格都包含红绿蓝三个通道的信息。

但是在潜空间内运行的时候并不是直接运算这么多的数据,通过VAE编码会进行三次向下采样,也就是512→256→128→64,然后就变成了64644=16384个数据,这里的4是四个通道,这个数字是根据模型架构人为设定的,因为在研究过程中发现4个通道的潜空间可以在满足视觉信息保留的情况下同时保证压缩率,和上边颜色的三个通道不是一个概念。同时这也是我们设置的图像大小必须满足边长为8或16的倍数的原因。

飞书文档 - 图片

文生图工作流举例

我们先拿一个最简单最基础的工作流举例。这里是两个文生图的工作流,除了模型加载部分以外完全一样。

飞书文档 - 图片

使用不同的模型加载器的原因主要看使用的是什么类型的模型。我们上也提到,一个完整的模型除了降噪功能的主干模型以外,还要有文本编码模型(clip)和潜空间编解码模型(vae)。

但是我们目前比较常见的模型这三个部分是分开的,也就是要使用这个模型需要分别加载这三个模型文件。也就是我们第二个工作流这里的样子,分别使用到了UNET加载器、加载clip和加载VAE。目前官方发布模型,一般都是以分片模型的形式进行发布,这种分片模型并不能直接在Comfyui中直接使用。这类分片模型不仅每个部分独立存放,每个部分甚至会拆分成多个模型文件,我们使用的模型其实都是由comfyui或者其他社区大佬整合适配的版本。

但是也有将这三个模型整合成一个模型文件的版本,这种模型文件就需要使用到checkpoint加载器来进行加载了,也就是我们第一个工作流的方案。但是目前来说使用checkpoint加载器的频率其实是在逐渐降低的,在SD时期基本上以这类模型为主,现在除了一些第三方微调的AIO版本模型以外基本上都是分开加载了。

模型存放地址

那既然使用了不同的加载器,这些模型存放的地址肯定也是有所区别。虽然都是在comfyui的模型目录(models文件夹)内,但是所属的子文件夹有所不同。

模型目录:..\Leopard-cat-meow-ComfyUI-v3-01\ComfyUI\models

由unet加载器加载的模型

这类模型主要存放于unet文件夹和diffusion_models文件夹。

这里有两个目录,主要是一个社区规范性方案。因为新模型采用的架构已经不属于unet架构了,所以才有了diffusion_models文件夹。但是实际使用上,这两个文件夹的作用是一样的,unet加载器会同时识别这两个文件夹的模型。只不过新模型放入diffusion_models文件夹,而SD模型放入unet文件夹更符合社区规范性建议。

unet:

..\Leopard-cat-meow-ComfyUI-v3-01\ComfyUI\models\unet

diffusion_models:

..\Leopard-cat-meow-ComfyUI-v3-01\ComfyUI\models\diffusion_models

由clip加载器加载的模型

这类模型主要存放于clip文件夹和text_encoders文件夹。

这里依旧是两个文件夹,和unet加载的主干模型情况一致。加载clip节点也会同时识别这两个文件夹的模型。同样新模型的文本编码模型放进text_encoders文件夹更符合社区规范性建议。

clip:

..\Leopard-cat-meow-ComfyUI-v3-01\ComfyUI\models\clip

text_encoders:

..\Leopard-cat-meow-ComfyUI-v3-01\ComfyUI\models\text_encoders

由VAE加载器加载的模型

这类模型存放的文件夹只有一个vae文件夹。

因为即使模型在不断的迭代升级,但是vae模型的核心架构并没有发生改变。所以这里并没有对老旧情况进行建议性区分。

Vae

..\Leopard-cat-meow-ComfyUI-v3-01\ComfyUI\models\vae

由checkpoint加载器加载的模型

这类模型一定要存放在checkpoint文件夹内,checkpoint加载器只能识别到这一个文件夹,存放位置出错无法识别到你的模型。

checkpoint

..\Leopard-cat-meow-ComfyUI-v3-01\ComfyUI\models\checkpoint

Lora模型

除了上边讲到的基础模型外,Lora模型的使用频率也非常的高。Lora模型也叫做微调模型,它可以在原本大模型的计算矩阵上叠加增量起到调整输出效果的作用。最常见的功能就是:固定特定风格、固定特定IP形象、强化特定概念以及物体和降低模型采样步数的加速Lora。

这类模型都存放在loras文件夹。

loras

..\Leopard-cat-meow-ComfyUI-v3-01\ComfyUI\models\loras

模型存放建议

这些模型存放的文件夹都是支持子文件夹分类存放的,这些种类里边除了clip和vae种类较少以外都建议对模型进行分类。如果经常使用基本上都有模型越来越多的情况,分类存放也方便使用的时候选择查找。

comfyui基础二:系统环境的配置

https://mcnmjrvcf7x6.feishu.cn/wiki/G7zGwQo4wipmU8klMr2cLvU5n4J

虽然整合包已经内置了使用的所需环境,但是在某些情况下已经需要用到一些系统环境的支持。所以在使用整合包之前,先配置好本地的系统环境可以解决很多后续问题。

Visual C++ Redistributable:

这是最容易缺失的组件。ComfyUI 依赖的许多 Python 库(如 pillow, opencv, numpy 的底层部分)以及 PyTorch 本身,都需要调用 Windows 的 C++ 动态链接库。

官网连接:

Latest Supported Visual C++ Redistributable Downloads

网盘连接:

夸克网盘分享

下载并安装:VC_redist.x64,即使你之前安装过旧版本,也建议重新运行此安装包选择“修复”,以确保所有必要的 DLL 文件(如 vcruntime140.dll, msvcp140.dll 等)完整且版本正确。

具体流程:

飞书文档 - 图片
飞书文档 - 图片

显卡驱动更新和CUDA安装。

显卡驱动更新:

飞书文档 - 图片

Game Ready 驱动程序

驱动程序为游戏玩家设计。

更新频繁:每当有新的大作游戏发布(尤其是支持 DLSS、光追的新游戏),NVIDIA 会迅速推出新版驱动进行优化。

追求最新特性:优先保证对新游戏、新图形技术的支持。

可能包含“实验性”优化:为了赶在游戏发售日同步,有时会包含一些未经长期测试的优化代码。

适用于主要用来玩最新 PC 游戏的用户。

飞书文档 - 图片

Studio 驱动程序

为创意工作者设计(如视频剪辑、3D 渲染、AI 绘画、深度学习等)。

更新较慢:不跟随游戏发布节奏,而是经过更长时间的内部测试后才发布。

追求极致稳定:重点确保在 Adobe Premiere, Blender, Maya, Stable Diffusion, ComfyUI 等专业软件中的稳定性和兼容性。

通过 ISV 认证:许多版本经过了独立软件供应商(ISV)的认证,保证在专业工作流中不出错。

适用于使用电脑进行生产力创作、AI 计算、科学计算的用户。

飞书文档 - 图片

总结

并不是说不可以混用,只不过不同驱动程序适合不同的工作场景。具体如何选用看实际使用情况,因为不同的驱动在优化方向上有所不同。如果你玩大型单机比较多的话,游戏版驱动更适合你。但是如果平常使用专业的设计软件或者使用AI软件比较多的话设计版驱动是最佳选择。

CUDA安装:

官网链接:

NVIDIA Developer

网盘链接(后续使用的整合包环境使用的CUDA13.0,所以这里准备的版本为13.0.1,适用于win10和win11系统):

夸克网盘分享

查看显卡驱动支持情况

  1. 按 Win + R,输入 cmd,回车。(或右击开始菜单,选择“终端”)
  2. 输入 nvidia-smi 并回车。
  3. 看右上角的 CUDA Version 和表格里的 Driver Version。如果显示的 CUDA Version 低于 13.0(比如 12.8 或 12.9),说明驱动太老了,不支持 CUDA 13.0。这时候就需要先更新驱动来进行支持。
  4. 注意:这里的CUDA Version是可以支持CUDA的最高版本,不是电脑安装的版本。Driver Version是显卡驱动的版本号。
飞书文档 - 图片

CUDA安装具体流程(一直下一步即可)

飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片

GIT安装

Comfyui中安装插件一般需要使用GIT代码来进行安装。很多整合包为了简化,没有内置 Git,而是直接调用您系统环境变量里的 git。如果您没装 Git 或没配环境变量,就无法通过git代码安装新的插件(不然安装的差价无法一键更新,有些情况还可能造成依缺失)。即使整合包内置了 Git,有些个别情况,依然会尝试调用系统的 Git。

官网链接:

Install

网盘链接:

夸克网盘分享

具体流程

飞书文档 - 图片
飞书文档 - 图片

Add a Git Bash Profile to Windows Terminal选项是否勾选看具体需求,如果平时使用 Windows Terminal(微软官方现代终端),勾选此项可以让 Git Bash 作为一个标签页直接集成进去,体验更好。如果只用传统 CMD 或 PowerShell,保持不勾选即可。

飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片

这里建议选择Use Notepad as Git’s default editor。这个选择的是编辑器,如果只是用来下载插件的话,九成九的人可能都用不到这个东西,但是如果真的在使用过程中有需要这个选择对于普通用户是最友好的。

飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片

到这里就完成了GIT的安装,勾选View Release Notes会转跳到官网详情,取消勾选结束即可。

飞书文档 - 图片

.NET Desktop Runtime(6.0&8.0)

这个不是comfyui本身所需要的环境,可能是某些特定的启动器、管理工具或第三方插件所依赖的运行环境。准确说这个环境是为一些启动器或者第三方工具插件准备的。同时安装6.0和8.0版本是为了更好的兼容,新老版本的软件,所以建议两个都安装。

官网链接(选择“.NET 桌面运行时”板块下载):

下载 .NET 8.0 (Linux、macOS 和 Windows) | .NET

下载 .NET 6.0 (Linux、macOS 和 Windows) | .NET

网盘链接:

夸克网盘分享

具体流程(两个版本安装流程一致,点击安装即可)

飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片

DirectX End-User Runtimes (June 2010)

这个的主要作用是用来补全缺失的旧版 DirectX DLL 文件,防止视频解码或图像预览功能崩溃。但是这个安装的时候不要跳步骤,一定要选择好路径,不然会多出一堆散乱文件不太好清理。这个只需要运行一次,这个过程会自动检测你系统缺少的旧版库文件(如 D3DX9, XAudio 等)并进行安装,运行完就可以删除了。

官网链接:

Download DirectX End-User Runtime from Official Microsoft Download Center

网盘链接:

夸克网盘分享

具体流程

飞书文档 - 图片

下边这里找一个比较好找到的文件夹,建议直接放在桌面。这里不能直接右键创建文件夹,先在桌面创建好,然后再选择。

飞书文档 - 图片

找到提前建立好的文件夹,然后再点确定。

飞书文档 - 图片
飞书文档 - 图片

然后打开刚才创建好的文件夹,找到DXSETUP.exe双击运行

飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片

安装完成后删除桌面的文件即可,然后重启电脑保证所有安装的DLL文件注册生效。

Visual Studio

这个环境是比较重要的,comfyui运行是依赖的python环境,但是比如说某些节点包含了 C++ 或 CUDA 代码,又没有编译好的二进制文件(whl文件,也就是我们常说的轮子),我们在安装的时候就需要用电脑上的编译器来对源码进行编译。但是这环境,不需要完全安装,完全安装所占空间非常大,只需要按照步骤安装几个所需的组件即可。因为WIN10停止维护了,所以我这里放了一个老版本的,我这里没有WIN10的电脑,大家可以试试。WIN11用新版本的即可。

官网链接:

适用于 Windows、Mac 和 Linux 的 Visual Studio 和 VS Code 下载

网盘链接:

WIN11(新版)

夸克网盘分享

WIN10(老版)

夸克网盘分享

具体流程

飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片

这里先搜索SDK,然后在下边找到对应的系统版本。这里建议选择较新的版本。

飞书文档 - 图片

然后再搜索MSVC,拉到最下边,选择最新版,然后点击安装。

飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片

完成以后直接关闭然后重启电脑即可,这里不需要启动。

飞书文档 - 图片

comfyui基础 -a

核心硬件环境 (Hardware)

内存 (RAM)

注:务必手动设置虚拟内存:进入 Windows 设置 -> 系统 -> 关于 -> 高级系统设置 -> 性能设置 -> 高级 -> 虚拟内存。取消“自动管理”,选择你的 NVMe SSD,设置初始大小和最大大小为 32768 MB (32GB) 或更高(建议手动设置虚拟内存为物理内存的 1.5 倍 – 2 倍,且设置在速度最快的 NVMe SSD 上。)。如果不手动设置,Windows 默认的较小虚拟内存会导致大型工作流直接报 “CUDA out of memory” 崩溃,而不是变慢。

image
?fallback Source=1&height=1280&mount Node Token=Nv42dUWDyo0l4gx8C4ucOCTmnZf&mount Point=docx Image&policy=equal&width=1280
飞书文档 - 图片

飞书文档 - 图片
飞书文档 - 图片

硬盘存储 (Storage)

类型:建议是 NVMe SSD (NVMe协议固态硬盘)。SATA SSD和机械硬盘 (HDD) 会导致模型加载变慢,尤其是机械硬盘,严重影响体验。

NVMe SSD和机械硬盘速度差距范围(理论预计):

  • 大文件连续读写差距:约 20 倍 – 45 倍
  • 模型加载与解析:约 50 倍 – 200 倍+(机械硬盘有可能卡死)
  • 启动 ComfyUI 与节点加载:约 15 倍 – 30 倍 (因为还有其他原因,比如CPU瓶颈限制了上限,没能跑满硬盘性能,理论上来讲这个差距可以到约 3000 倍 – 6000 倍)
  • 虚拟内存数据交换:倍数差距:无法计算(HDD ≈ 死机,所需时间无法估计)。

空间预留:

模型文件:这是大头。一个 SDXL 模型约 6-7GB,Flux 模型约 20-24GB,加上 LoRA、Clip模型、VAE 等。

建议预留:至少 300GB – 500GB 的可用空间。如果你打算玩视频生成,建议直接准备 1TB 以上的 SSD。

注:ComfyUI 支持配置外部模型路径,建议将庞大的模型文件存放在其他大容量分区。

操作系统与驱动 (OS & Drivers)

操作系统推荐版本:Windows 10 (64位, 22H2及以上) 或 Windows 11。

更新状态:确保系统已更新到最新版本。Win11 对 WSL2 和新版 DirectX 的支持更好,部分新版的 PyTorch 依赖项可能需要较新的 Windows SDK 组件。

ComfyUI 及其依赖的 PyTorch、CUDA 工具链对旧系统的支持正在迅速减少。虽然理论上 Windows 7/8 也能跑,但会遇到大量的 DLL 缺失、驱动不兼容问题,且无法使用最新的加速特性(如 DirectML 的某些新功能)。强烈不建议在 Win7 上折腾新版整合包。

路径长度限制:Windows 默认有 260 字符的路径长度限制。ComfyUI 的节点层级深,容易触发此限制。

操作建议:在注册表中启用 LongPathsEnabled (设为 1),或者在安装整合包时,将其放在根目录下较短的路径中(例如 D:\AI\ComfyUI,避免放在 C:\Users\VeryLongName\Desktop\NewFolder…)。也可以可通过运行命令 gpedit.msc -> 计算机配置 -> 管理模板 -> 系统 -> 文件系统 -> 启用 Win32 长路径 来图形化开启。

飞书文档 - 图片
飞书文档 - 图片
飞书文档 - 图片

显卡驱动 (NVIDIA Driver)

版本要求:需要安装较新的 Game Ready 或 Studio 驱动。

具体版本:建议驱动版本支持 CUDA 12.6 / 12.7 或更高(截至 2026 年初的标准)。

检查方法:右键桌面 -> NVIDIA 控制面板 -> 系统信息,查看驱动程序版本。如果太旧,请去 NVIDIA 官网或使用 GeForce Experience 更新。旧驱动可能导致新算子无法识别,直接报错退出。

对于 ComfyUI 用户来说,Studio 驱动比 Game Ready 驱动更值得推荐,尤其是对于追求稳定性和生产力的用户。

  • 稳定性优先 (Stability First):

Game Ready 驱动:主要为了配合新发布的游戏进行优化,更新频率高(有时每两周一次),可能会引入新的不稳定性或 Bug。

Studio 驱动:经过更严格的测试流程,专门针对创意应用程序(如 Adobe 全家桶、Blender、DaVinci Resolve 以及 AI 生成工具)进行验证。它的更新频率较低,但极其稳定,能有效减少 ComfyUI 在长时间运行复杂工作流(如视频生成、高分辨率批量绘图)时的崩溃概率。

  • 对 AI 生态的专项优化:

NVIDIA 明确表示 Studio 驱动针对主流 AI 框架(PyTorch, TensorFlow)和生成式 AI 应用进行了性能调优。

虽然底层 CUDA 核心是一样的,但 Studio 驱动在处理显存管理、多任务并行(例如一边跑图一边做其他工作)时,调度策略往往更保守且稳健,不易出现“爆显存”导致的驱动重置。

Visual C++ Redistributable

虽然整合包自带了很多库,但底层仍依赖 Windows 的 VC++ 运行库。

建议:安装最新的 Microsoft Visual C++ Redistributable (x64) 合集,避免因缺少 vcruntime140.dll 等文件导致启动失败。

其他关键系统组件

  • Git for Windows (强烈推荐安装)

作用:ComfyUI Manager 安装/更新节点的核心工具。整合包自带的 Git 有时版本过旧或路径配置不当。

操作:下载并安装最新版 Git for Windows,安装时务必勾选 “Add Git to PATH”。这能解决 90% 的节点安装失败问题。

  • .NET Desktop Runtime (6.0 & 8.0)

作用:许多视频处理节点、高级预览插件及第三方启动器依赖 .NET 环境。

操作:访问微软官网,下载并安装 x64 架构的 .NET 6.0 和 .NET 8.0 运行时。

  • DirectX 最终用户运行时

作用:补全缺失的旧版 DirectX DLL 文件,防止视频解码或图像预览功能崩溃。

操作:搜索并下载 “DirectX End-User Runtimes (June 2010)” 运行一次即可。

  • Visual Studio

作用:部分节点可能未进行预编译,系统中没有编译器的话就可能报错。

操作:下载Visual Studio,安装所需组件。

  • PowerShell 版本

要求:确保 PowerShell 版本 >= 5.1,并支持 TLS 1.2/1.3。Windows 10 22H2 和 Windows 11 默认满足,若使用旧系统请更新。

网络环境 (Network)

这往往是国内用户最容易忽略但最致命的一环。

GitHub 访问:ComfyUI 的核心管理器 (ComfyUI Manager) 需要从 GitHub 下载自定义节点列表。如果无法直连 GitHub,管理器将无法加载节点列表,显示为空白或报错。

解决方案:需要稳定的网络环境(科学上网)或在整合包中配置国内镜像源(部分整合包如秋叶版已内置加速脚本)。

HuggingFace / Civitai/魔搭社区:下载大模型通常需要访问这些站点,速度慢会导致下载超时。可使用迅雷进行下载,右击下载按钮复制下载链接,迅雷即可自动弹出下载界面。

建议:优先查看魔搭社区有没有对应资源,无需使用魔法即可访问,降低使用成本。

软件冲突与权限 (Conflicts & Permissions)

杀毒软件/防火墙

Windows Defender 或其他第三方杀毒软件(如 360、火绒)有时会误报 ComfyUI 的某些 .dll 文件或 Python 脚本为病毒并直接隔离/删除,导致启动闪退。

操作建议:将整个 ComfyUI 文件夹添加到杀毒软件的白名单/排除项中。

用户权限

尽量避免在 C:\Program Files 等需要管理员权限的目录下运行。

最好放在非系统盘(如 D 盘、E 盘)的根目录或简单子目录下。

存放路径

正确方案:

为了确保 100% 兼容性和稳定性,建议遵循纯英文/数字 + 下划线原则:

字符集限制:仅使用 a-z, A-Z, 0-9。

分隔符:仅使用 下划线 _ 或 连字符 -。

风险字符:

  • 中文(以及日文、韩文等非 ASCII 字符):

Python 的路径编码问题:

虽然 Python 3 默认使用 UTF-8,但在 Windows 命令行(CMD/PowerShell)启动时,如果系统区域设置不是 UTF-8,或者某些老旧的第三方库(很多 AI 节点依赖的底层库是用 C/C++ 写的)在处理文件路径时,无法正确解析非 ASCII 字符(即中文)。这会导致程序找不到文件,抛出 FileNotFoundError,即使文件明明就在那里。

依赖库的兼容性:

ComfyUI 依赖大量的深度学习库(如 torch, xformers, onnxruntime, opencv 等)。这些库的底层编译往往假设路径是纯英文的。一旦路径中出现中文,它们在加载 .dll 动态链接库或读取模型权重文件时,可能会因为路径解码失败而直接崩溃,且报错信息通常是一串看不懂的乱码或 ImportError。

脚本执行问题:

整合包通常通过 .bat (批处理) 文件启动。Windows 的批处理脚本对中文路径的支持非常糟糕,容易导致环境变量设置失败,进而导致 Python 解释器无法启动。

  • 空格 (Space):

ComfyUI 启动依赖 .bat 批处理脚本。在命令行中,空格被视为参数分隔符。

如果路径是 D:\My ComfyUI\python.exe,脚本可能会将其解析为两个参数:D:\My 和 ComfyUI\python.exe,导致“文件未找到”。

虽然现代 Python 能处理带引号的路径,但整合包内调用的许多第三方工具(如 ffmpeg, git, 某些 C++ 编译的节点)往往没有做完善的引号处理,极易报错。

  • 特殊符号 &, %, $, !, #:

这些特殊符号通常在语法中有特殊作用,有可能造成批处理脚本逻辑混乱,导致启动流程中断。

  • 末尾的点 .:

Windows 资源管理器允许你创建以点或空格结尾的文件夹名,但底层 API 和许多程序(包括 Python 的 open() 函数在某些模式下)会自动修剪掉它们,导致路径不匹配,找不到文件。

  • 括号 () 和 []:

在 Shell 脚本(bat/cmd)中,括号有特殊含义(用于代码块或变量扩展)。

虽然加上引号通常能解决,但在复杂的嵌套调用中(例如 ComfyUI 调用外部节点脚本,脚本再调用 Python),括号经常导致语法解析错误,尤其是当路径中包含 (1) 这种自动重命名后缀时。

尽量不用。如果非要用,确保所有调用脚本都完美处理了引号(但这很难保证第三方节点也做到了)。最稳妥的是完全避免。

环境变量:

使用整合包通常不需要手动安装 Python 或配置全局环境变量。整合包内部使用的是独立环境。

切记:不要试图用你电脑里自己安装的 Python 去运行整合包里的脚本,这会导致依赖冲突。始终使用整合包目录下的 python_embeded 或启动脚本。