一句话结论
资料切片、入向量库、走 RAG 模板,再用十个标准问答验证检索准确率。
适用场景
- 想把内训资料或产品手册做成问答 Agent
- 想给客服或员工提供搜索增强问答
- 已有大量 Markdown 或 PDF 文档
常见现象
- 资料找不到、找太慢
- 问的问题答非所问
- 回答不引用原文,没法验证
原因解释
- 资料没切片或切片粒度不对
- 检索模型没选对
- Prompt 没要求引用原文
解决步骤
- 把资料整理成 Markdown,按章节切片
- 选向量模型,把切片入库
- 在 OpenClaw 配置 RAG:检索、拼上下文、回答
- 在 Prompt 里要求模型必须引用原文段落
- 用十个真实问答验证准确率,再放量
仍然不行怎么办
- 答非所问就检查切片粒度和检索 top-k
- 引用错乱就在 Prompt 里强制带 [来源] 标注
小白先准备什么
- 选一份最核心的资料(产品手册、FAQ 文档、内训 PPT),不超过 50 页。
- 把资料转成 Markdown 或纯文本,按章节分段,每段 800-1500 字。
- 准备 10 个真实用户会问的问题,以及你认为的标准答案。
- 确认你有向量模型的 API(OpenAI text-embedding 或国产替代)。
验收标准
- 10 个标准问答里,Agent 至少 8 个能正确回答并引用原文段落
- 问资料里没有的内容时,Agent 回答「资料中未找到相关信息」而不是编造
- 引用标注格式统一,能追溯到具体文件和章节
- 检索延迟不超过 3 秒,回答延迟不超过 8 秒
可复制提示词
# 角色
你是知识库问答助手,只根据检索到的资料段落回答用户问题。
# 规则
- 必须引用原文,格式:[来源:文件名 · 章节标题]
- 如果检索结果里没有相关内容,回答「资料中未找到相关信息,建议联系人工」
- 不要编造、推测或补充资料里没有的内容
- 回答控制在 200 字以内
# 输出格式
回答:{基于资料的回答}
来源:[文件名 · 章节]
常见误区和不适合场景
- 误区:资料越多越好 → 不相关资料会干扰检索,先从核心 FAQ 开始
- 误区:切片越小越精准 → 太小会丢失上下文,800-1500 字是经验值
- 误区:上线后不用维护 → 资料更新后必须重新切片入库
- 不适合:资料每天都在变且没人负责更新的场景
- 不适合:需要跨多份资料做推理和对比的复杂分析任务
还卡着?
可以把截图、日志、需求单或当前页面链接发到 zhemuy@gmail.com。