模型家族大图
| 模型 | 骨干 | 参数 | 特点 | 适用 |
|---|---|---|---|---|
| ColPali v1.2 | PaliGemma-3B | 3B | 原版,固定 448×448 | 通用基线 |
| ColQwen2 | Qwen2-VL-2B | 2B | 动态分辨率,高分图更强 | A3 大页、精细图表 |
| ColQwen2.5 | Qwen2.5-VL-3B | 3B | 多页 reasoning 好 | 跨页引用任务 |
| ColInternVL2 | InternVL2-2B | 2B | 中文/日韩强 | 东亚语种业务 |
| ColSmolVLM | SmolVLM-500M | 0.5B | 笔记本/边缘可跑 | 离线 / 私有化 |
| ColFlor | PaliGemma 2-10B | 10B | 精度顶配 | 高价值检索 |
| BiColPali | 双塔版 | — | 单向量近似,快 10x | 大规模粗筛 |
选型决策树
从"文档量 + 延迟 + 语言"三维拍板:
文档量
├─ < 10 万页: ColQwen2.5 (最强精度)
├─ 10 万 - 500 万: ColPali v1.2 + binary + token pool
└─ > 500 万: Vespa + BiColPali 粗筛 + Col 精排
语言
├─ 英文为主: 任意
├─ 中文为主: ColInternVL2 优先
└─ 多语言混合: ColQwen2.5 (Qwen 多语支持好)
延迟预算
├─ p99 < 50ms: 必须 binary + 两段式
├─ p99 < 200ms: 原生 bfloat16 够用
└─ 离线批处理: 任何模型
隐私/部署
├─ 数据不出境: 必须自托管
├─ 边缘/移动: ColSmolVLM
└─ 无限制: 云推理 API 最快上线
API 托管服务
Vespa Cloud
官方 ColPali blueprint 一键部署,按查询量计费。
Qdrant Cloud
托管向量库 + 自己跑 embedding 服务。
Jina AI / Voyage AI
提供 col-style 多向量 embedding API,按 token 付费,免运维。
Cohere Rerank 2
不是 ColPali 家族,但同样支持 late interaction 做 rerank,常用于 ColPali 召回 + Cohere 精排级联。
2026 前沿方向
Unified 视觉 embedding
OpenAI / Google 下一代 embedding 直接支持"给图片或文本,出多向量"——ColPali 可能被基础设施化。
长文档(多页)embedding
ViDoRe v2 里跨页 query 占比增加,未来模型要把"整份文档"做成单个 hierarchical embedding。
视频 ColVid
把"页"换成"视频帧",原理一致。已有早期研究。
端侧部署
ColSmolVLM + MLX/llama.cpp 做 Mac/iPhone 离线搜索本地文档。
Agent 结合
Agent 用 ColPali 检索文档证据、用 VLM 读取、用工具执行——整个闭环都在视觉空间,不降维到文本。
学习资源
- 论文:
ColPali: Efficient Document Retrieval with Vision Language Models(ICLR 2025) - 官方实现:
github.com/illuin-tech/colpali - byaldi:
github.com/AnswerDotAI/byaldi - ViDoRe Leaderboard:
huggingface.co/spaces/vidore/vidore-leaderboard - Vespa 案例:
blog.vespa.ai/scaling-colpali-to-billions/ - Qdrant 教程:
qdrant.tech/documentation/advanced-tutorials/pdf-retrieval-at-scale/
终点:视觉检索的三条法则
- 当文档"看起来"比"写起来"重要——就上 ColPali。财报、论文、PPT、扫描件都符合
- 不要害怕存储膨胀——Binary + Token Pool 能把成本压回到可接受
- 选型永远从业务数据开始——不是 benchmark 最高就最好,自建 200 条评估集能避开 90% 选错模型的坑
全书小结
- 传统 OCR 管道在视觉文档上失效,ColPali 用 VLM 直接看
- PaliGemma + patch embedding + MaxSim 三件套,简洁有力
- byaldi 10 行跑通,Qdrant/Vespa 扛生产规模
- 微调、量化、两段检索组合,存储可压到 1/128、延迟快 6 倍
- 端到端多模态 RAG:检索图 + VLM 读,引用精确、幻觉少
- ColQwen2/ColSmolVLM 家族扩展,按语言、规模、延迟选型