UC Berkeley · PagedAttention · 20× throughput

vLLM 高性能推理实战

vLLM 用 PagedAttention 把 KV cache 切成页表管理,用连续批处理让 GPU 不空转,在相同硬件上把吞吐拉到 HuggingFace Transformers 的 20 倍。10 章从原理到生产,带你把 7B / 70B 模型稳稳跑起来。

vLLM 0.6+ PagedAttention Continuous Batching AWQ / GPTQ / FP8 Speculative Multi-LoRA

开始学习 →

🔥 10 章节 ⚡ 吞吐提升 20× 💰 成本降到 1/10

课程目录

从 PagedAttention 原理到多卡张量并行,把推理引擎当成工程品来打磨

为什么需要 vLLM:HF Transformers 的瓶颈

传统推理为什么慢:KV cache 碎片、静态 batch、GPU 利用率只有 20%。vLLM 用 PagedAttention + 连续批处理如何把这些问题一次性解决。

PagedAttention:KV cache 的页表革命

借操作系统虚拟内存的思路,把 KV cache 切成固定大小的 block,逻辑块映射到物理块,彻底消灭 padding 浪费,显存利用率从 40% 拉到 96%。

Continuous Batching:让 GPU 不空转

静态 batch 要等最长序列跑完,吞吐塌方。Continuous Batching 每步都能插入新请求、踢掉完成的请求,GPU 时刻吃满——本章看它怎么工作。

安装与 OpenAI 兼容服务

pip install vllm、启动参数详解(--model / --tensor-parallel-size / --gpu-memory-utilization)、--served-model-name 多模型路由、openai SDK 直连。

部署OpenAI API

量化推理:AWQ / GPTQ / FP8

把 70B 模型从 140GB 压到 35GB,精度只掉 1 个点。AWQ/GPTQ/FP8 各自适合什么场景、怎么用 vLLM 加载、哪些模型社区已预量化。

Speculative Decoding:用小模型押大模型

让 1B 小模型先猜 4 个 token,大模型一次验证,命中就白赚——延迟减半,精度不变。vLLM 的 n-gram、Medusa、draft-model 三种模式。

加速Speculative

多 LoRA 热插拔:一模型服多租户

base 模型 + N 个 LoRA adapter 共享显存,请求按 model name 路由到不同 LoRA。SaaS 场景一张卡服几十个客户定制模型,不用为每个人起一个服务。

张量并行 & 流水并行:撑起 70B+

单卡装不下?--tensor-parallel-size 把权重切到多卡、pipeline-parallel 做跨机流水。NCCL 拓扑、通信带宽、哪些层不能切——生产部署必看。

观测与性能调优

Prometheus metrics(GPU KV cache 使用率、queue time、TTFT / TPOT)、benchmark 脚本、max-model-len / max-num-seqs 怎么调最优,稳态吞吐打榜技巧。

实战:Llama-3 70B 生产部署

端到端案例:4×A100 跑 Llama-3-70B-Instruct-AWQ,用 K8s 起 3 副本 + HPA、Nginx 长连接、grafana 看板、滚动升级,把延迟打到 p95 < 2s。