分类标签归档:RAG

RAG应用测试数据集:问题、证据和答案

发表评论 1069 浏览量

RAG应用测试数据集:问题、证据和答案

2024年10月记录,分类「AI测试」。这篇按当时的测试现场整理,重点放在目标、动作和可复用的检查点。

数据集结构

RAG 测试不能只问几个主观问题。我会把问题、期望证据、答案要点、不可接受回答放在同一条样本里。

对测试来说,最后要落到可复现、可验证、可交接,文章也是按这个思路写的。

样本怎么来

  • 从真实客服问题、产品文档和历史缺陷里抽样。
  • 每条样本绑定文档段落或知识库 id。
  • 把召回失败和生成错误分开统计。
{"question":"退款多久到账","evidence":"1-

阅读全文