ai-evals 教你"评什么、怎么评",Langfuse 教你"怎么让评估、trace、prompt、dataset 真正在生产跑起来"。从一条 docker compose 命令开始,到 Kubernetes 上日吞千万条 trace 的 ClickHouse 集群——十章把这套可观测系统端到端拉通,数据主权握在自己手里。
一条自建路线:SaaS 对比 → 架构拆解 → 本地跑通 → SDK 接入 → Prompt/Dataset/Eval → K8s 部署 → 成本优化 → 端到端接入真实 Agent
docker compose up 十分钟起飞。组织、项目、API Key 体系,第一条 trace 怎么来的,UI 六大面板(Traces / Sessions / Users / Scores / Prompts / Datasets)各管什么。@observe 装饰器、context manager、低层 SDK;LangChain / LlamaIndex / OpenAI SDK 自动 instrumentation;OpenTelemetry OTLP 直送 Langfuse。production / staging) 做灰度,cache 设置、A/B 分桶、回滚策略,和 LangChain / LlamaIndex 运行时绑定。dataset.runs() 跑评估,阈值卡回归,GitHub Actions 集成,基线文件进 Git。