一、视频生成的两个流派
二、模型家族速查
| 模型 | 分辨率 × 帧 | 显存 | 质量 | 备注 |
|---|---|---|---|---|
| AnimateDiff v3(SD1.5) | 512×512 × 16 | 6-8GB | ★★★ | 老牌,LoRA 生态丰富 |
| AnimateDiff-Lightning | 同上,4 步出 | 6-8GB | ★★★ | 2024 加速版 |
| Hotshot-XL(SDXL 动画) | 1024×576 × 8 | 12GB | ★★★ | SDXL 版 AnimateDiff |
| SVD(Stable Video Diffusion) | 1024×576 × 14/25 | 14-20GB | ★★★★ | 2023 末,img2video |
| CogVideoX 5B | 720×480 × 49 | 12-24GB | ★★★★ | 清华系,质量好 |
| Hunyuan Video | 720×1280 × 129 | 60GB+ / 量化 12GB | ★★★★★ | 腾讯,2024 年底开源王者 |
| Wan 2.1 / 2.2 | 480p-720p × 5-10s | 量化 12-16GB | ★★★★★ | 阿里,质量接近 Sora |
| Mochi-1 | 480×848 × 163 | 60GB+ | ★★★★ | Genmo,首个开源巨型 DiT 视频 |
| LTX-Video | 768×512 × 121 | 12GB | ★★★★ | Lightricks,实时生成取向 |
2025 主流:Hunyuan / Wan 是质量天花板,LTX-Video 是实时之王,AnimateDiff 仍活跃于动漫二创。
三、AnimateDiff 工作流(入门最友好)
安装
- Manager 装
ComfyUI-AnimateDiff-Evolved(Kosinkadink) - Manager 装
ComfyUI-VideoHelperSuite(视频输入输出) - Motion Module 模型放
models/animatediff_models/:
·mm_sd15_v3.safetensors(SD1.5 主力)
·animatediffLightning_v20.safetensors(4 步加速版)
·hotshotxl_mm.safetensors(SDXL 版) - Motion LoRA 放
models/animatediff_motion_lora/:zoom_in/zoom_out/pan_left/rolling 等镜头运动
工作流
16 帧 → 更长视频:Context Batch
AnimateDiff 原生只能 16 帧。想做 64/128 帧:用 Uniform Context Options——把长视频切成 16 帧窗口,窗口之间重叠 4-8 帧,分段去噪后拼接。ComfyUI-AnimateDiff-Evolved 内置支持,连上 Context Options 节点即可。
加 ControlNet
视频版 ControlNet 和图像版一样用——但 CN 输入也是视频(比如 DWPose 对整个视频做姿态检测):
Video Input(舞蹈视频) ──▶ DWPose Preprocessor(逐帧) ──▶ 姿态图序列
│
▼
Apply ControlNet(strength=1.0)
│
配合 AnimateDiff Motion Module + IP-Adapter(人物)
│
▼
同姿态的角色动画
这是 B 站 / TikTok 上"换舞蹈主角"视频的主流做法。
四、Stable Video Diffusion(img2video)
SVD 是 Stability AI 2023 末推出的图像到视频模型——给一张图,生成 14 或 25 帧的短视频,带上自然的相机运动。
工作流
SVD 两个版本:
svd.safetensors:14 帧版,576×1024svd_xt.safetensors:25 帧版(4s @ 6fps),质量更好,显存吃 16GB+
五、Hunyuan Video(2024 年底王者)
腾讯开源,13B 参数,原生文生视频。质量接近 Runway Gen-3 / Kling。
硬件门槛
| 版本 | 显存 | 速度(5s 视频) |
|---|---|---|
| FP16 原版 | 60GB+ | H100 上 2-5 分钟 |
| FP8 量化 | 24GB | 4090 上 8-15 分钟 |
| GGUF Q4/Q5 | 12GB | 3060 上 20-40 分钟 |
工作流
Manager 装:ComfyUI-HunyuanVideoWrapper 或原生 ComfyUI 支持
模型文件:
models/diffusion_models/hunyuan_video_t2v_720p_bf16.safetensors
models/text_encoders/llava_llama3_fp16.safetensors(LLaMA-3 based)
models/text_encoders/clip_l.safetensors
models/vae/hunyuan_video_vae_bf16.safetensors
核心节点:
HunyuanVideo Sampler
├─ width=720, height=1280
├─ num_frames=65(~2s @ 24fps) / 129(~5s)
├─ steps=30
├─ guidance=6.0
└─ flow_shift=7.0(视频专用流匹配)
——Hunyuan 用 LLaMA-3 做 text encoder,理解力极强。写长段自然语言描述"镜头怎么动、人物做什么、光影怎么变"——不是标签风。例:"A woman in red dress slowly walks towards the camera, camera slowly tilts up to reveal a sunset sky, cinematic lighting, 35mm film grain, warm color grading."
六、Wan 2.1 / 2.2(阿里,2024-2025)
Wan(通义万相)阿里视频模型,开源版本分 T2V 文生视频、I2V 图生视频、T2I 图像三路。
Wan 2.1 / 2.2 速览
| 版本 | 类型 | 参数 | 特点 |
|---|---|---|---|
| Wan 2.1 T2V 14B | 文生视频 | 14B | 480p / 720p,5-10s |
| Wan 2.1 I2V 14B | 图生视频 | 14B | 图+prompt → 视频 |
| Wan 2.1 T2V 1.3B | 轻量文生视频 | 1.3B | 8GB 显卡可跑 |
| Wan 2.2 T2V-A14B | MoE 结构 | 专家激活 ≈ 14B | 2025 升级,高低噪 MoE |
| Wan 2.2 I2V-A14B | MoE 图生视频 | 同上 | 质量接近闭源 Sora |
| Wan 2.2 TI2V-5B | 统一文/图视频 | 5B | 消费级 5B 最强 |
ComfyUI 原生支持 Wan,有 WanVideo Sampler / WanImageToVideo 等节点,Manager 里装 ComfyUI-WanVideoWrapper。
七、LTX-Video(实时取向)
Lightricks 2024 底发布 LTX-Video——2B DiT,专攻"实时生成"。在 4090 上生成 5s 720p 视频只要 4-8 秒(比 real-time 还快)。
- 质量比 Hunyuan/Wan 低一些,但在"短时长 + 速度"场景无敌
- 支持 t2v、i2v、keyframe-guided(指定首尾帧)
- ComfyUI 原生支持
八、VRAM 实战经验
12GB 显卡(3060 / 4070)跑视频
- AnimateDiff + SD1.5:16 帧 @ 512,原生跑
- Hunyuan GGUF Q4:75 帧 @ 720×480,约 15 分钟
- Wan 2.1 1.3B:5s 480p,约 8 分钟
- LTX-Video:5s 768×512,约 30 秒
24GB 显卡(3090 / 4090)
- AnimateDiff SDXL / Hotshot:可以 1024×576 × 16 帧
- SVD xt:14-25 帧 1024×576 原生
- Hunyuan FP8:129 帧 720×1280,约 8-12 分钟
- Wan 2.1 14B FP8:原生可跑
——10GB 显存跑 Hunyuan 5s 视频约 20-40 分钟。这不是"等等就好",而是"你得规划好 prompt,一次跑对",浪费 40 分钟发现 prompt 写错了会崩溃。建议:先用 AnimateDiff / LTX 快速试 prompt,定稿后再用 Hunyuan/Wan 最终渲染。
九、视频常用后期
帧插值(FILM / RIFE)
AI 视频原生只有 8-16 fps,看着卡。用 ComfyUI-Frame-Interpolation 的 FILM/RIFE 节点插成 24/30/60fps:
视频帧序列(8fps) ──▶ RIFE VFI(multiplier=3) ──▶ 24fps 平滑视频
分辨率提升
视频 ESRGAN 放大——逐帧或用专用时序模型 Real-ESRGAN-x4plus_anime_6B:
视频帧 ──▶ Upscale Image (using Model, 2x) ──▶ 高清视频帧
(建议用 tile 放大模式,避免每帧 OOM)
首尾帧锁定(关键帧生成)
LTX-Video / Wan I2V 支持"给首帧 + 尾帧,中间自动补"——做转场或固定构图视频的神器。
十、一个实战工作流:舞蹈二创
需求:把一段舞蹈视频的舞者换成用户自选角色。
时间成本:10s 舞蹈视频,4090 上约 6-10 分钟。
十一、反模式
- 用 AnimateDiff 做写实视频:质量不够,该选 Hunyuan/Wan/SVD。
- Hunyuan 用标签 prompt:它的 LLaMA-3 encoder 喜欢完整自然段落,标签堆砌效果平庸。
- AnimateDiff 不用 Context Options 硬跑 64 帧:显存爆,且帧间语义漂移严重。
- 视频模型用 NF4 量化:精度损失在时间维度会放大,画面抖动。Hunyuan 建议 FP8 或 GGUF Q5+。
- 一帧一帧跑 VAE Decode 爆显存:SVD/Hunyuan 的 VAE 要用
VAE Decode (Tiled)分块解码。 - 不 tile 放大导致 VRAM 爆:视频逐帧 4× 放大一定要 tile 模式。
- fps=8 直接输出:没做插值,视觉上卡。至少 RIFE 到 24fps。
- 没考虑音频:AI 视频本身无音,商用别忘配音/BGM。
十二、本章小结
① 视频生成两大流派:AnimateDiff(2D+Motion) 轻量、生态丰富;原生视频模型(Hunyuan/Wan/SVD) 质量高、显存贵。
② 2025 主力:Hunyuan Video(腾讯) / Wan 2.2(阿里) / LTX-Video(实时)——前两者质量逼近 Sora,LTX 做实时 demo。
③ VRAM 是硬门槛:12GB 能玩 AnimateDiff+Wan 1.3B / LTX,24GB 能玩 Hunyuan/Wan 14B FP8,60GB+ 才能跑原版。
④ 后期三件套:RIFE 插帧、ESRGAN 放大、首尾帧锁定——AI 生成 → 后期加工 → 成片的标准流程。