RAG应用测试数据集:问题、证据和答案

发表评论 1070 浏览量
目录:

RAG应用测试数据集:问题、证据和答案

2024年10月记录,分类「AI测试」。这篇按当时的测试现场整理,重点放在目标、动作和可复用的检查点。

数据集结构

RAG 测试不能只问几个主观问题。我会把问题、期望证据、答案要点、不可接受回答放在同一条样本里。

对测试来说,最后要落到可复现、可验证、可交接,文章也是按这个思路写的。

样本怎么来

  • 从真实客服问题、产品文档和历史缺陷里抽样。
  • 每条样本绑定文档段落或知识库 id。
  • 把召回失败和生成错误分开统计。
{"question":"退款多久到账","evidence":"1-3个工作日","must_include":["1-3个工作日"]}

评估方式

  • 答案引用的证据真实存在。
  • 无证据问题能拒答或提示无法确认。
  • 文档更新后样本集同步更新。

落到团队协作里,重点是让新人能照着补用例,开发也能看懂为什么要改。

维护

RAG 质量要拆成找没找到和答没答对两个问题。后面遇到类似需求,可以先按这个结构跑一遍手工验证,再决定是否自动化。