RAG应用测试数据集:问题、证据和答案
2024年10月记录,分类「AI测试」。这篇按当时的测试现场整理,重点放在目标、动作和可复用的检查点。
数据集结构
RAG 测试不能只问几个主观问题。我会把问题、期望证据、答案要点、不可接受回答放在同一条样本里。
对测试来说,最后要落到可复现、可验证、可交接,文章也是按这个思路写的。
样本怎么来
- 从真实客服问题、产品文档和历史缺陷里抽样。
- 每条样本绑定文档段落或知识库 id。
- 把召回失败和生成错误分开统计。
{"question":"退款多久到账","evidence":"1-3个工作日","must_include":["1-3个工作日"]}
评估方式
- 答案引用的证据真实存在。
- 无证据问题能拒答或提示无法确认。
- 文档更新后样本集同步更新。
落到团队协作里,重点是让新人能照着补用例,开发也能看懂为什么要改。
维护
RAG 质量要拆成找没找到和答没答对两个问题。后面遇到类似需求,可以先按这个结构跑一遍手工验证,再决定是否自动化。