一、Base 模型 vs 社区微调 vs LoRA:先理解层级
结论:Checkpoint 决定"整体画风底子"(现实主义 / 动漫 / 厚涂),LoRA 决定"特定元素"(某个角色 / 某种服装 / 某种光效)。混用灵活。
二、SD 1.5 家族(2022-2023 经典)
| 模型 | 定位 | 备注 |
|---|---|---|
| Realistic Vision V6 | 现实风人像老兵 | 出 SDXL 前的工业标准,轻量 |
| AnythingV5 / Counterfeit | 二次元经典 | Pony 之前二次元首选 |
| DreamShaper 8 | 通用精品 | 能画现实也能画幻想 |
| ChilloutMix | 亚洲真人写实 | 生态庞大,但 2023 后不再更新 |
什么时候还用 SD 1.5:
- 显卡只有 4-6GB VRAM,跑不动 SDXL
- 需要特定的老 LoRA 生态(有些细分风格 LoRA 只有 SD1.5 版)
- 移动端/Web 端部署,对模型大小极度敏感
——质量天花板比 SDXL 低一截,文本理解弱、手和解剖经常崩、1024 分辨率需要额外 Hi-Res Fix。新项目建议直接从 SDXL 起步。
三、SDXL 家族(商用主力,2023-至今)
SDXL 的改进在三点:1) 双 Text Encoder(CLIP-L + CLIP-G)理解更强;2) 更大的 U-Net 参数量;3) 原生 1024 分辨率训练。
| Checkpoint | 画风 | 为什么选 |
|---|---|---|
| Juggernaut XL v9 / v10 | 通用现实主义 | 当前现实风标杆,商拍/产品图首选 |
| DreamShaper XL Turbo | 通用幻想+快速 | 4-8 步出图,实时场景 |
| RealVisXL V4 | 超写实人像 | 极细节皮肤/毛发 |
| Animagine XL 4.0 | 动漫 | 日系二次元权威 |
| AlbedoBase XL | 多风格通用 | 均衡,可做 base 再加 LoRA |
| SDXL Lightning / Turbo | 2-8 步极速版 | Base 蒸馏,实时 demo |
关于 Refiner
SDXL 官方文件里除了 base 还有一个 sd_xl_refiner_1.0.safetensors——原设计是两阶段 pipeline(Base 跑 0-80% 步数,Refiner 跑 80-100%)。实践中发现:
- 社区微调 Base 质量已经很好,Refiner 收益甚微,多数情况可以完全省掉
- Refiner 只对"极细节"(皮肤纹理、眼神光)有帮助,对构图/色彩无关
- 简化工作流就省一个模型加载和一段采样
四、Pony / Illustrious(二次元 NSFW 专精)
Pony V6 和 Illustrious XL 虽然都是 SDXL 的微调,但 prompt 语法完全不一样——它们用"danbooru 标签"体系训练,而不是自然语言。
普通 SDXL(自然语言):
a beautiful anime girl with long silver hair, wearing a red dress,
standing in a garden, cherry blossoms falling
Pony V6(标签):
score_9, score_8_up, score_7_up, source_anime, 1girl, solo,
long_hair, silver_hair, red_dress, outdoors, cherry_blossoms,
falling_petals, looking_at_viewer, masterpiece, best_quality
Pony 生态的关键词:
score_9score_8_upscore_7_up——Pony 独有的"质量指示符",几乎必加,否则画面会很糙source_anime/source_cartoon/source_furry——数据域指示rating_safe/rating_questionable/rating_explicit——内容分级,业务场景必加 safe- 人物结构标签:
1girl1boy2girlssolomultiple_views...
Illustrious XL 是 Pony 之后的新星,标签体系类似但质量更高——2025 年二次元首选。
Pony 训练集包含大量 NSFW 内容,即使你 prompt 没写,画面也可能"擦边"——这在商用/公开产品里是雷区。必用
rating_safe + 强反向 prompt nsfw, explicit, nude。合规要求高的场景直接用 Illustrious 或 Animagine(更干净)。
五、Flux.1 家族(2024-2025 最强开源)
Black Forest Labs(原 SD 核心团队离职后创立)在 2024 下半年放出 Flux,质量直接追平 Midjourney v6 / DALL-E 3,开源开发者集体"换门"。
| 版本 | 协议 | 特点 |
|---|---|---|
| Flux.1 pro | 闭源 API 付费 | 最高质量,仅 API |
| Flux.1 dev | 非商用开源 | 本地跑的首选,质量≈pro 九成 |
| Flux.1 schnell | Apache 2.0 商用 | 4 步蒸馏版,快但质量打七折 |
| Flux.1 dev GGUF/NF4 | 社区量化 | 显存门槛从 24GB 降到 8-12GB |
Flux 的三大"反常识"
- CFG 要低:Flux 用的是 "guidance" 而非 classifier-free guidance,ComfyUI 里 cfg 设
1.0,另一个FluxGuidance节点设3.5。设太高画面会灼伤。 - 不吃负向 prompt:CFG=1 没地方塞负向。正向 prompt 直接用自然语言描述,不要"bad quality, deformed"。
- 不用 CLIP skip:SDXL 老玩家习惯 skip=2,Flux 完全没这概念。
Flux 模型文件拆包
Flux 不像 SDXL 是一个 safetensors 搞定——官方把组件分开发布:
ComfyUI/models/
├── unet/
│ └── flux1-dev.safetensors (~12GB,主 DiT)
├── clip/
│ ├── clip_l.safetensors (~240MB,双 text encoder 之一)
│ └── t5xxl_fp16.safetensors (~10GB,另一个,理解长句的关键)
│ 或 t5xxl_fp8_e4m3fn.safetensors (~5GB,fp8 量化,质量几乎无损)
└── vae/
└── ae.safetensors (~335MB,Flux 的 VAE)
ComfyUI 用 Load Diffusion Model 节点加载 Flux 的 UNet,DualCLIPLoader 加载两个 text encoder,Load VAE 加载 ae.safetensors——比 SDXL 多几步,但更模块化。
① T5 用 fp8(省 5GB);② UNet 用 GGUF Q4/Q5(12GB→5-7GB);③ 用
Load Diffusion Model 时选 weight_dtype: fp8_e4m3fn_fast;④ 开 --lowvram。这套组合能让 Flux 跑在 10GB 3080 / 12GB 3060 上,出图速度 SDXL 的 1.5 倍慢。
六、SD 3 / 3.5 家族
Stability AI 为了对抗 Flux 放出 SD3/3.5,架构也是 DiT + 双 CLIP + T5,思路几乎和 Flux 一样。
| 模型 | 参数 | 备注 |
|---|---|---|
| SD 3 Medium | 2B | 发布时质量不及 SDXL 社区微调,口碑翻车 |
| SD 3.5 Large | 8B | 质量回升,可与 Flux dev 掰腕子 |
| SD 3.5 Medium | 2.5B | Large 的精简版 |
实话实说:2025 年下半年社区主力是 Flux + SDXL 微调,SD3 生态不如前两者。除非你有特定需求,不必专门折腾 SD3。
七、国产模型:Hunyuan / Wan / Kolors
| 模型 | 出品方 | 强项 |
|---|---|---|
| Hunyuan DiT | 腾讯 | 中文 prompt 理解力最强 |
| Hunyuan Video | 腾讯 | 视频,中文场景 |
| Wan 2.1 / 2.2 | 阿里 | 视频生成开源,质量接近 Sora |
| Kolors | 快手 | 图像,2B 参数,吃显存少 |
用场景:需要中文 prompt 精确理解、或者涉及中国特有文化/地标/服饰——国产模型比 Flux/SDXL 更稳。日常英文 prompt 和国际审美还是 Flux。
八、量化版本:GGUF / NF4 / FP8
当你在 HuggingFace 看到同一个 Flux dev 有 .safetensors / .gguf / nf4 / fp8 多个版本,这是啥?
九、Civitai / HuggingFace 下载实务
Civitai(社区微调/LoRA 主场)
- 按"Models" 过滤 Base Model = SDXL 1.0 / Pony / Flux
- 看"Stats":下载量 > 5 万 + 评分 > 4.5 + 最近 3 个月有更新的,通常是靠谱作品
- 图片预览一定看 metadata(点图片 → "Creation Data")——确认它用的 prompt、sampler、VAE,作者没水印的图反而经常是 cherry-pick
- 注意模型授权:CC BY-NC-SA 是非商用,RAIL 多数允许商用。商用要仔细读
HuggingFace(官方基础模型)
- 访问 Flux/SDXL 这类官方模型需要先同意协议(gated)——在页面上点 "Agree and access"
- 国内下载用镜像:
export HF_ENDPOINT=https://hf-mirror.com,或直接用huggingface-cli加--resume - ComfyUI-Manager 内置 HF 下载,免命令行
十、选型决策树
十一、存储与多版本管理
- Checkpoint 只保留 3-5 个"主力",其他删掉——下次要用再从 Civitai 重下。15 个 SDXL checkpoint = 90GB,没必要
- LoRA 按风格建子目录:
loras/character/、loras/style/、loras/concept/——ComfyUI 的 LoraLoader 节点支持子目录 - 每个 LoRA 的触发词必须记下来,建议文件名带触发词
character_hatsune_miku_v2.safetensors extra_model_paths.yaml可以把模型放在另外一块盘,让 ComfyUI 去那里读
十二、反模式
- 追最新 Base 而非看生态:SD3 刚出时一堆人切,结果 LoRA 没跟上、ControlNet 没跟上,最后还是回 SDXL。生态是王道。
- 忽视 VAE:某些 SD1.5 checkpoint 自带 VAE 损坏,图像会饱和度爆表——用
vae-ft-mse-840000-ema-pruned替换就好。 - Pony prompt 用自然语言:效果差距巨大,必须用标签。
- Flux 加负向 prompt:没用,白浪费 token,还容易让画面灼伤。
- 量化选错模式:视频模型用 NF4 会烂(精度需求高),Flux 用 GGUF Q4_K_S 才是甜点。
- 下 NSFW Checkpoint 不改 prompt:生成的"正常图"也容易被模型潜意识带歪。
- 不记触发词:下了 50 个 LoRA 全忘怎么激活——每个 LoRA 页面的 "Trigger Words" 要写进文件名或 README。
十三、本章小结
① Checkpoint(大模型底子) + LoRA(特定元素) 是 SD 生态的两级结构,记住这个你就不会乱。
② 2025 主流梯队:Flux.1 dev(顶级) > SDXL 社区微调(平衡) > SD1.5(老兵)。Pony/Illustrious 是 SDXL 的二次元分支。
③ Flux 的"三反":CFG=1、无负向 prompt、分文件加载。第一次跑会懵,记住就好。
④ 量化版本是低显存的救星,GGUF Q4_K_S 是 Flux 的最佳折衷点。