Chapter 03

模型选型 · SD1.5 / SDXL / Flux / Pony

Civitai 上模型上万,新手最大的困惑就是"我该下哪个"。这一章按场景+硬件给你一张清晰的选型地图,并讲清 Checkpoint / VAE / Refiner / Base / 量化版本之间的关系。

一、Base 模型 vs 社区微调 vs LoRA:先理解层级

Stability AI / Black Forest Labs 官方 Base (sd_xl_base_1.0, flux1-dev.safetensors 等) │ │ 社区在上面全量微调(fine-tune) ▼ 社区 Checkpoint(Juggernaut XL, DreamShaper, Pony V6 ...) · 保留原模型全部权重,重训了一遍 · 文件大小和 Base 一样(SDXL 约 6GB) · 你平时用 Civitai 下载的大多是这类 │ │ 再用 LoRA / Embedding 微调(轻量叠加) ▼ LoRA / Embedding(几 MB - 几百 MB) · 只改一小部分权重 · 加载时叠到 Checkpoint 上 · 一个 Checkpoint 可以叠多个 LoRA

结论:Checkpoint 决定"整体画风底子"(现实主义 / 动漫 / 厚涂),LoRA 决定"特定元素"(某个角色 / 某种服装 / 某种光效)。混用灵活。

二、SD 1.5 家族(2022-2023 经典)

模型定位备注
Realistic Vision V6现实风人像老兵出 SDXL 前的工业标准,轻量
AnythingV5 / Counterfeit二次元经典Pony 之前二次元首选
DreamShaper 8通用精品能画现实也能画幻想
ChilloutMix亚洲真人写实生态庞大,但 2023 后不再更新

什么时候还用 SD 1.5:

2025 还用 SD1.5 不再主流
——质量天花板比 SDXL 低一截,文本理解弱、手和解剖经常崩、1024 分辨率需要额外 Hi-Res Fix。新项目建议直接从 SDXL 起步。

三、SDXL 家族(商用主力,2023-至今)

SDXL 的改进在三点:1) 双 Text Encoder(CLIP-L + CLIP-G)理解更强;2) 更大的 U-Net 参数量;3) 原生 1024 分辨率训练。

Checkpoint画风为什么选
Juggernaut XL v9 / v10通用现实主义当前现实风标杆,商拍/产品图首选
DreamShaper XL Turbo通用幻想+快速4-8 步出图,实时场景
RealVisXL V4超写实人像极细节皮肤/毛发
Animagine XL 4.0动漫日系二次元权威
AlbedoBase XL多风格通用均衡,可做 base 再加 LoRA
SDXL Lightning / Turbo2-8 步极速版Base 蒸馏,实时 demo

关于 Refiner

SDXL 官方文件里除了 base 还有一个 sd_xl_refiner_1.0.safetensors——原设计是两阶段 pipeline(Base 跑 0-80% 步数,Refiner 跑 80-100%)。实践中发现:

四、Pony / Illustrious(二次元 NSFW 专精)

Pony V6 和 Illustrious XL 虽然都是 SDXL 的微调,但 prompt 语法完全不一样——它们用"danbooru 标签"体系训练,而不是自然语言。

普通 SDXL(自然语言):
a beautiful anime girl with long silver hair, wearing a red dress,
standing in a garden, cherry blossoms falling

Pony V6(标签):
score_9, score_8_up, score_7_up, source_anime, 1girl, solo,
long_hair, silver_hair, red_dress, outdoors, cherry_blossoms,
falling_petals, looking_at_viewer, masterpiece, best_quality

Pony 生态的关键词:

Illustrious XL 是 Pony 之后的新星,标签体系类似但质量更高——2025 年二次元首选

Pony/Illustrious 的 NSFW 倾向
Pony 训练集包含大量 NSFW 内容,即使你 prompt 没写,画面也可能"擦边"——这在商用/公开产品里是雷区。必用 rating_safe + 强反向 prompt nsfw, explicit, nude。合规要求高的场景直接用 Illustrious 或 Animagine(更干净)。

五、Flux.1 家族(2024-2025 最强开源)

Black Forest Labs(原 SD 核心团队离职后创立)在 2024 下半年放出 Flux,质量直接追平 Midjourney v6 / DALL-E 3,开源开发者集体"换门"。

版本协议特点
Flux.1 pro闭源 API 付费最高质量,仅 API
Flux.1 dev非商用开源本地跑的首选,质量≈pro 九成
Flux.1 schnellApache 2.0 商用4 步蒸馏版,快但质量打七折
Flux.1 dev GGUF/NF4社区量化显存门槛从 24GB 降到 8-12GB

Flux 的三大"反常识"

  1. CFG 要低:Flux 用的是 "guidance" 而非 classifier-free guidance,ComfyUI 里 cfg 设 1.0,另一个 FluxGuidance 节点设 3.5。设太高画面会灼伤。
  2. 不吃负向 prompt:CFG=1 没地方塞负向。正向 prompt 直接用自然语言描述,不要"bad quality, deformed"。
  3. 不用 CLIP skip:SDXL 老玩家习惯 skip=2,Flux 完全没这概念。

Flux 模型文件拆包

Flux 不像 SDXL 是一个 safetensors 搞定——官方把组件分开发布:

ComfyUI/models/
├── unet/
│   └── flux1-dev.safetensors          (~12GB,主 DiT)
├── clip/
│   ├── clip_l.safetensors             (~240MB,双 text encoder 之一)
│   └── t5xxl_fp16.safetensors         (~10GB,另一个,理解长句的关键)
│       或 t5xxl_fp8_e4m3fn.safetensors (~5GB,fp8 量化,质量几乎无损)
└── vae/
    └── ae.safetensors                 (~335MB,Flux 的 VAE)

ComfyUI 用 Load Diffusion Model 节点加载 Flux 的 UNet,DualCLIPLoader 加载两个 text encoder,Load VAE 加载 ae.safetensors——比 SDXL 多几步,但更模块化。

8-12GB 显卡跑 Flux 的办法
① T5 用 fp8(省 5GB);② UNet 用 GGUF Q4/Q5(12GB→5-7GB);③ 用 Load Diffusion Model 时选 weight_dtype: fp8_e4m3fn_fast;④ 开 --lowvram。这套组合能让 Flux 跑在 10GB 3080 / 12GB 3060 上,出图速度 SDXL 的 1.5 倍慢。

六、SD 3 / 3.5 家族

Stability AI 为了对抗 Flux 放出 SD3/3.5,架构也是 DiT + 双 CLIP + T5,思路几乎和 Flux 一样。

模型参数备注
SD 3 Medium2B发布时质量不及 SDXL 社区微调,口碑翻车
SD 3.5 Large8B质量回升,可与 Flux dev 掰腕子
SD 3.5 Medium2.5BLarge 的精简版

实话实说:2025 年下半年社区主力是 Flux + SDXL 微调,SD3 生态不如前两者。除非你有特定需求,不必专门折腾 SD3。

七、国产模型:Hunyuan / Wan / Kolors

模型出品方强项
Hunyuan DiT腾讯中文 prompt 理解力最强
Hunyuan Video腾讯视频,中文场景
Wan 2.1 / 2.2阿里视频生成开源,质量接近 Sora
Kolors快手图像,2B 参数,吃显存少

用场景:需要中文 prompt 精确理解、或者涉及中国特有文化/地标/服饰——国产模型比 Flux/SDXL 更稳。日常英文 prompt 和国际审美还是 Flux。

八、量化版本:GGUF / NF4 / FP8

当你在 HuggingFace 看到同一个 Flux dev 有 .safetensors / .gguf / nf4 / fp8 多个版本,这是啥?

FP16 / BF16(原始)
半精度,Flux dev 原始 12GB。质量基准。
FP8(E4M3 / E5M2)
8 位浮点,模型大小减半(~6GB),质量损失 1-3%。需要 RTX 4000 系+ 或 H100 硬件原生支持,A100/3090 上软模拟也能跑但加速有限。
NF4 / INT4(Bitsandbytes)
4 位量化,模型压到 1/4(~3.5GB)。质量损失较明显,但能让 6GB 显卡跑 Flux。
GGUF(Q2-Q8)
llama.cpp 团队的量化格式,2-8 位可选。Q4_K_S 是 Flux 的甜点:模型 7GB、质量损失 < 3%、10GB 显卡直接跑。ComfyUI 需装 ComfyUI-GGUF custom node。

九、Civitai / HuggingFace 下载实务

Civitai(社区微调/LoRA 主场)

HuggingFace(官方基础模型)

十、选型决策树

显卡 VRAM? ├─ 4-6GB ─▶ SD 1.5 + Realistic Vision / AnythingV5 ├─ 8-12GB ─▶ ① 现实风 → Juggernaut XL / RealVis XL │ ② 二次元 → Illustrious / Pony V6 │ ③ Flux ─▶ GGUF Q4 量化版 ├─ 16GB+ ─▶ Flux.1 dev FP8 / SDXL 全家桶自由玩 └─ 24GB+ ─▶ Flux dev BF16 / 视频模型全上 业务诉求? ├─ 实时 demo(< 2s 出图) ─▶ SDXL Lightning / LCM / Turbo ├─ 商用写实人像 ─▶ Juggernaut XL + PhotoMaker/PuLID ├─ 日漫插画 ─▶ Animagine XL / Illustrious ├─ 中文特有场景 ─▶ Hunyuan / Kolors └─ 顶级单图质量 ─▶ Flux.1 dev(+ 2-3 个 Flux LoRA)

十一、存储与多版本管理

十二、反模式

  1. 追最新 Base 而非看生态:SD3 刚出时一堆人切,结果 LoRA 没跟上、ControlNet 没跟上,最后还是回 SDXL。生态是王道。
  2. 忽视 VAE:某些 SD1.5 checkpoint 自带 VAE 损坏,图像会饱和度爆表——用 vae-ft-mse-840000-ema-pruned 替换就好。
  3. Pony prompt 用自然语言:效果差距巨大,必须用标签。
  4. Flux 加负向 prompt:没用,白浪费 token,还容易让画面灼伤。
  5. 量化选错模式:视频模型用 NF4 会烂(精度需求高),Flux 用 GGUF Q4_K_S 才是甜点。
  6. 下 NSFW Checkpoint 不改 prompt:生成的"正常图"也容易被模型潜意识带歪。
  7. 不记触发词:下了 50 个 LoRA 全忘怎么激活——每个 LoRA 页面的 "Trigger Words" 要写进文件名或 README。

十三、本章小结

记住:
Checkpoint(大模型底子) + LoRA(特定元素) 是 SD 生态的两级结构,记住这个你就不会乱。
② 2025 主流梯队:Flux.1 dev(顶级) > SDXL 社区微调(平衡) > SD1.5(老兵)。Pony/Illustrious 是 SDXL 的二次元分支。
③ Flux 的"三反":CFG=1、无负向 prompt、分文件加载。第一次跑会懵,记住就好。
④ 量化版本是低显存的救星,GGUF Q4_K_S 是 Flux 的最佳折衷点。