vLLM 用 PagedAttention 把 KV cache 切成页表管理,用连续批处理让 GPU 不空转,在相同硬件上把吞吐拉到 HuggingFace Transformers 的 20 倍。10 章从原理到生产,带你把 7B / 70B 模型稳稳跑起来。
从 PagedAttention 原理到多卡张量并行,把推理引擎当成工程品来打磨