第 3 章 · 模型选型 · SD1.5 / SDXL / Flux / Pony

一、Base 模型 vs 社区微调 vs LoRA:先理解层级

Stability AI / Black Forest Labs 官方 Base (sd_xl_base_1.0, flux1-dev.safetensors 等) │ │ 社区在上面全量微调(fine-tune) ▼ 社区 Checkpoint(Juggernaut XL, DreamShaper, Pony V6 ...) · 保留原模型全部权重,重训了一遍 · 文件大小和 Base 一样(SDXL 约 6GB) · 你平时用 Civitai 下载的大多是这类 │ │ 再用 LoRA / Embedding 微调(轻量叠加) ▼ LoRA / Embedding(几 MB - 几百 MB) · 只改一小部分权重 · 加载时叠到 Checkpoint 上 · 一个 Checkpoint 可以叠多个 LoRA

结论:Checkpoint 决定"整体画风底子"(现实主义 / 动漫 / 厚涂),LoRA 决定"特定元素"(某个角色 / 某种服装 / 某种光效)。混用灵活。

二、SD 1.5 家族(2022-2023 经典)

模型	定位	备注
Realistic Vision V6	现实风人像老兵	出 SDXL 前的工业标准,轻量
AnythingV5 / Counterfeit	二次元经典	Pony 之前二次元首选
DreamShaper 8	通用精品	能画现实也能画幻想
ChilloutMix	亚洲真人写实	生态庞大,但 2023 后不再更新

什么时候还用 SD 1.5:

显卡只有 4-6GB VRAM,跑不动 SDXL
需要特定的老 LoRA 生态(有些细分风格 LoRA 只有 SD1.5 版)
移动端/Web 端部署,对模型大小极度敏感

2025 还用 SD1.5 不再主流
——质量天花板比 SDXL 低一截,文本理解弱、手和解剖经常崩、1024 分辨率需要额外 Hi-Res Fix。新项目建议直接从 SDXL 起步。

三、SDXL 家族(商用主力,2023-至今)

SDXL 的改进在三点:1) 双 Text Encoder(CLIP-L + CLIP-G)理解更强;2) 更大的 U-Net 参数量;3) 原生 1024 分辨率训练。

Checkpoint	画风	为什么选
Juggernaut XL v9 / v10	通用现实主义	当前现实风标杆,商拍/产品图首选
DreamShaper XL Turbo	通用幻想+快速	4-8 步出图,实时场景
RealVisXL V4	超写实人像	极细节皮肤/毛发
Animagine XL 4.0	动漫	日系二次元权威
AlbedoBase XL	多风格通用	均衡,可做 base 再加 LoRA
SDXL Lightning / Turbo	2-8 步极速版	Base 蒸馏,实时 demo

关于 Refiner

SDXL 官方文件里除了 base 还有一个 sd_xl_refiner_1.0.safetensors——原设计是两阶段 pipeline(Base 跑 0-80% 步数,Refiner 跑 80-100%)。实践中发现:

社区微调 Base 质量已经很好,Refiner 收益甚微,多数情况可以完全省掉
Refiner 只对"极细节"(皮肤纹理、眼神光)有帮助,对构图/色彩无关
简化工作流就省一个模型加载和一段采样

四、Pony / Illustrious(二次元 NSFW 专精)

Pony V6 和 Illustrious XL 虽然都是 SDXL 的微调,但 prompt 语法完全不一样——它们用"danbooru 标签"体系训练,而不是自然语言。

普通 SDXL(自然语言):
a beautiful anime girl with long silver hair, wearing a red dress,
standing in a garden, cherry blossoms falling

Pony V6(标签):
score_9, score_8_up, score_7_up, source_anime, 1girl, solo,
long_hair, silver_hair, red_dress, outdoors, cherry_blossoms,
falling_petals, looking_at_viewer, masterpiece, best_quality

Pony 生态的关键词:

score_9 score_8_up score_7_up——Pony 独有的"质量指示符",几乎必加,否则画面会很糙
source_anime / source_cartoon / source_furry——数据域指示
rating_safe / rating_questionable / rating_explicit——内容分级,业务场景必加 safe
人物结构标签:1girl 1boy 2girls solo multiple_views...

Illustrious XL 是 Pony 之后的新星,标签体系类似但质量更高——2025 年二次元首选。

Pony/Illustrious 的 NSFW 倾向
Pony 训练集包含大量 NSFW 内容,即使你 prompt 没写,画面也可能"擦边"——这在商用/公开产品里是雷区。必用 rating_safe + 强反向 prompt nsfw, explicit, nude。合规要求高的场景直接用 Illustrious 或 Animagine(更干净)。

五、Flux.1 家族(2024-2025 最强开源)

Black Forest Labs(原 SD 核心团队离职后创立)在 2024 下半年放出 Flux,质量直接追平 Midjourney v6 / DALL-E 3,开源开发者集体"换门"。

版本	协议	特点
Flux.1 pro	闭源 API 付费	最高质量,仅 API
Flux.1 dev	非商用开源	本地跑的首选,质量≈pro 九成
Flux.1 schnell	Apache 2.0 商用	4 步蒸馏版,快但质量打七折
Flux.1 dev GGUF/NF4	社区量化	显存门槛从 24GB 降到 8-12GB

Flux 的三大"反常识"

CFG 要低:Flux 用的是 "guidance" 而非 classifier-free guidance,ComfyUI 里 cfg 设 1.0,另一个 FluxGuidance 节点设 3.5。设太高画面会灼伤。
不吃负向 prompt:CFG=1 没地方塞负向。正向 prompt 直接用自然语言描述,不要"bad quality, deformed"。
不用 CLIP skip:SDXL 老玩家习惯 skip=2,Flux 完全没这概念。

Flux 模型文件拆包

Flux 不像 SDXL 是一个 safetensors 搞定——官方把组件分开发布:

ComfyUI/models/
├── unet/
│   └── flux1-dev.safetensors          (~12GB,主 DiT)
├── clip/
│   ├── clip_l.safetensors             (~240MB,双 text encoder 之一)
│   └── t5xxl_fp16.safetensors         (~10GB,另一个,理解长句的关键)
│       或 t5xxl_fp8_e4m3fn.safetensors (~5GB,fp8 量化,质量几乎无损)
└── vae/
    └── ae.safetensors                 (~335MB,Flux 的 VAE)

ComfyUI 用 Load Diffusion Model 节点加载 Flux 的 UNet,DualCLIPLoader 加载两个 text encoder,Load VAE 加载 ae.safetensors——比 SDXL 多几步,但更模块化。

8-12GB 显卡跑 Flux 的办法
① T5 用 fp8(省 5GB);② UNet 用 GGUF Q4/Q5(12GB→5-7GB);③ 用 Load Diffusion Model 时选 weight_dtype: fp8_e4m3fn_fast;④ 开 --lowvram。这套组合能让 Flux 跑在 10GB 3080 / 12GB 3060 上,出图速度 SDXL 的 1.5 倍慢。

六、SD 3 / 3.5 家族

Stability AI 为了对抗 Flux 放出 SD3/3.5,架构也是 DiT + 双 CLIP + T5,思路几乎和 Flux 一样。

模型	参数	备注
SD 3 Medium	2B	发布时质量不及 SDXL 社区微调,口碑翻车
SD 3.5 Large	8B	质量回升,可与 Flux dev 掰腕子
SD 3.5 Medium	2.5B	Large 的精简版

实话实说:2025 年下半年社区主力是 Flux + SDXL 微调,SD3 生态不如前两者。除非你有特定需求,不必专门折腾 SD3。

七、国产模型:Hunyuan / Wan / Kolors

模型	出品方	强项
Hunyuan DiT	腾讯	中文 prompt 理解力最强
Hunyuan Video	腾讯	视频,中文场景
Wan 2.1 / 2.2	阿里	视频生成开源,质量接近 Sora
Kolors	快手	图像,2B 参数,吃显存少

用场景:需要中文 prompt 精确理解、或者涉及中国特有文化/地标/服饰——国产模型比 Flux/SDXL 更稳。日常英文 prompt 和国际审美还是 Flux。

八、量化版本:GGUF / NF4 / FP8

当你在 HuggingFace 看到同一个 Flux dev 有 .safetensors / .gguf / nf4 / fp8 多个版本,这是啥?

FP16 / BF16(原始)

半精度,Flux dev 原始 12GB。质量基准。

FP8(E4M3 / E5M2)

8 位浮点,模型大小减半(~6GB),质量损失 1-3%。需要 RTX 4000 系+ 或 H100 硬件原生支持,A100/3090 上软模拟也能跑但加速有限。

NF4 / INT4(Bitsandbytes)

4 位量化,模型压到 1/4(~3.5GB)。质量损失较明显,但能让 6GB 显卡跑 Flux。

GGUF(Q2-Q8)

llama.cpp 团队的量化格式,2-8 位可选。Q4_K_S 是 Flux 的甜点:模型 7GB、质量损失 < 3%、10GB 显卡直接跑。ComfyUI 需装 ComfyUI-GGUF custom node。

九、Civitai / HuggingFace 下载实务

Civitai(社区微调/LoRA 主场)

按"Models" 过滤 Base Model = SDXL 1.0 / Pony / Flux
看"Stats":下载量 > 5 万 + 评分 > 4.5 + 最近 3 个月有更新的,通常是靠谱作品
图片预览一定看 metadata(点图片 → "Creation Data")——确认它用的 prompt、sampler、VAE,作者没水印的图反而经常是 cherry-pick
注意模型授权:CC BY-NC-SA 是非商用,RAIL 多数允许商用。商用要仔细读

HuggingFace(官方基础模型)

访问 Flux/SDXL 这类官方模型需要先同意协议(gated)——在页面上点 "Agree and access"
国内下载用镜像:export HF_ENDPOINT=https://hf-mirror.com,或直接用 huggingface-cli 加 --resume
ComfyUI-Manager 内置 HF 下载,免命令行

十、选型决策树

显卡 VRAM? ├─ 4-6GB ─▶ SD 1.5 + Realistic Vision / AnythingV5 ├─ 8-12GB ─▶ ① 现实风 → Juggernaut XL / RealVis XL │ ② 二次元 → Illustrious / Pony V6 │ ③ Flux ─▶ GGUF Q4 量化版 ├─ 16GB+ ─▶ Flux.1 dev FP8 / SDXL 全家桶自由玩 └─ 24GB+ ─▶ Flux dev BF16 / 视频模型全上业务诉求? ├─ 实时 demo(< 2s 出图) ─▶ SDXL Lightning / LCM / Turbo ├─ 商用写实人像 ─▶ Juggernaut XL + PhotoMaker/PuLID ├─ 日漫插画 ─▶ Animagine XL / Illustrious ├─ 中文特有场景 ─▶ Hunyuan / Kolors └─ 顶级单图质量 ─▶ Flux.1 dev(+ 2-3 个 Flux LoRA)

十一、存储与多版本管理

Checkpoint 只保留 3-5 个"主力",其他删掉——下次要用再从 Civitai 重下。15 个 SDXL checkpoint = 90GB,没必要
LoRA 按风格建子目录:loras/character/、loras/style/、loras/concept/——ComfyUI 的 LoraLoader 节点支持子目录
每个 LoRA 的触发词必须记下来,建议文件名带触发词 character_hatsune_miku_v2.safetensors
extra_model_paths.yaml 可以把模型放在另外一块盘,让 ComfyUI 去那里读

十二、反模式

追最新 Base 而非看生态:SD3 刚出时一堆人切,结果 LoRA 没跟上、ControlNet 没跟上,最后还是回 SDXL。生态是王道。
忽视 VAE:某些 SD1.5 checkpoint 自带 VAE 损坏,图像会饱和度爆表——用 vae-ft-mse-840000-ema-pruned 替换就好。
Pony prompt 用自然语言:效果差距巨大,必须用标签。
Flux 加负向 prompt:没用,白浪费 token,还容易让画面灼伤。
量化选错模式:视频模型用 NF4 会烂(精度需求高),Flux 用 GGUF Q4_K_S 才是甜点。
下 NSFW Checkpoint 不改 prompt:生成的"正常图"也容易被模型潜意识带歪。
不记触发词:下了 50 个 LoRA 全忘怎么激活——每个 LoRA 页面的 "Trigger Words" 要写进文件名或 README。

十三、本章小结

记住:
① Checkpoint(大模型底子) + LoRA(特定元素) 是 SD 生态的两级结构,记住这个你就不会乱。
② 2025 主流梯队:Flux.1 dev(顶级) > SDXL 社区微调(平衡) > SD1.5(老兵)。Pony/Illustrious 是 SDXL 的二次元分支。
③ Flux 的"三反":CFG=1、无负向 prompt、分文件加载。第一次跑会懵,记住就好。
④ 量化版本是低显存的救星,GGUF Q4_K_S 是 Flux 的最佳折衷点。