ViDoRe · PaliGemma · Late Interaction · 2026

ColPali — 用眼睛读文档的 RAG

传统 RAG 的第一步是 OCR + 文本切块,碰上表格、图表、多栏排版就瘸腿。ColPali 把整页文档喂给视觉语言模型,用 patch embedding + late interaction 直接算相关度——不解析、不 OCR、不切块,召回反而更准。从论文读起,到端到端生产部署,这十章把这条新路线走完。

PaliGemma ColBERT 多向量 ViDoRe Benchmark byaldi Qdrant Multivector Vespa / Weaviate
开始学习 →
📊 10 章节 🧭 从 OCR 的极限到 VLM 检索 🚀 新一代多模态 RAG

课程目录

从 OCR 为什么不够用讲起,一路到 ColQwen2 生态,把视觉检索这条路走到生产

Chapter 01
视觉文档检索为什么崛起
OCR→切块→嵌入的老 pipeline 为何在图表/多栏/扫描件上崩。ColPali 思路:把页面当图像,让 VLM 读。
RAG 痛点ViDoRe
Chapter 02
ColPali 架构拆解
PaliGemma 骨干 + patch 级 embedding + MaxSim late interaction。一张论文图看懂为什么这套比单向量 CLIP 强。
PaliGemmaMaxSim
Chapter 03
从零跑通:十行代码检索一本 PDF
byaldi + ColPali 权重,把整本 PDF 转成图像索引,查询直接给分——本地 GPU 也能跑。
byalditransformers
Chapter 04
多向量索引:Qdrant / Vespa / Weaviate
ColPali 每页产出 ~1024 个向量,传统 HNSW 扛不住。三种主流多向量存储方案与成本对比。
MultivectorHNSW
Chapter 05
微调:领域数据让召回再涨 10 点
合成 query / 难负样本挖掘 / LoRA 微调 PaliGemma,把通用 ColPali 调到你的业务文档上。
LoRAHard Negatives
Chapter 06
生产规模:量化、压缩、分层检索
Token pooling、二值化、Matryoshka 截断。把 1024 向量压到 128,QPS 涨 5 倍。
Binary Quantization两段式检索
Chapter 07
ColPali + VLM 生成:端到端多模态 RAG
检索回图像,直接喂给 Claude/GPT-4o/Qwen-VL,跳过文字化环节,引用精确到像素区域。
Claude VisionGrounded Citation
Chapter 08
评估:ViDoRe Benchmark 与业务自建集
nDCG@5 读法、ViDoRe v2 新指标、怎么自建 200 条标注就能判型号。
nDCG标注流程
Chapter 09
工程化部署
推理服务化(TEI / vLLM / 自写 FastAPI),GPU 批量索引,冷启动、热更新、灾备的真实方案。
TEI批量索引
Chapter 10
生态与未来:ColQwen2、ColSmolVLM 等
2025 年以来涌现的一众后继模型:ColQwen2、ColInternVL、ColSmol。选型矩阵与路线图判断。
ColQwen2选型
读前须知
本教程假设你已会基本 RAG、transformers、PyTorch。如果完全没接触过向量检索,先读 RAG 教程 再回来。代码默认 Python 3.11 + CUDA 12 + 16GB 显存起步,纯 CPU 能跑小样例但生产不现实。