RAG应用测试数据集：问题、证据和答案

发表评论 1070 浏览量

目录:

RAG应用测试数据集：问题、证据和答案

RAG应用测试数据集：问题、证据和答案

2024年10月记录，分类「AI测试」。这篇按当时的测试现场整理，重点放在目标、动作和可复用的检查点。

数据集结构

RAG 测试不能只问几个主观问题。我会把问题、期望证据、答案要点、不可接受回答放在同一条样本里。

对测试来说，最后要落到可复现、可验证、可交接，文章也是按这个思路写的。

样本怎么来

从真实客服问题、产品文档和历史缺陷里抽样。
每条样本绑定文档段落或知识库 id。
把召回失败和生成错误分开统计。

{"question":"退款多久到账","evidence":"1-3个工作日","must_include":["1-3个工作日"]}

评估方式

答案引用的证据真实存在。
无证据问题能拒答或提示无法确认。
文档更新后样本集同步更新。

落到团队协作里，重点是让新人能照着补用例，开发也能看懂为什么要改。

维护

RAG 质量要拆成找没找到和答没答对两个问题。后面遇到类似需求，可以先按这个结构跑一遍手工验证，再决定是否自动化。

评论0

您还没有登录，请您登录后发表评论。