Prompt版本回归:把提示词也当代码管理
2025年10月记录,分类「AI测试」。这篇更像工作笔记,记录的是一次问题拆解和复用清单。
为什么管版本
Prompt 改一个词,模型输出可能就变。把提示词当代码管理,至少要有版本、评审、回归和回滚。
我当时想确认的不是工具能不能跑,而是这个点能不能稳定地变成测试资产。
变更记录
- 每次修改记录变更原因和影响范围。
- 用固定样本集对比旧 prompt 和新 prompt。
- 上线后观察失败样本和人工反馈。
prompt版本: refund-v6
变更: 增加拒答边界
回归集: 120条客服问答 + 30条注入样本
回归集
- 提示词版本能和线上问题对应。
- 高风险样本没有退化。
- 回滚到上一版有明确入口。
这些点后面会进用例或检查单,尤其要补齐账号、数据、环境版本和日志关键字。
上线
提示词不是临时文案,它已经是系统行为的一部分。等业务规则再稳定一点,可以把这里的检查点拆成参数化用例。