Agent测试:工具调用链路怎么验
2026年1月记录,分类「AI测试」。这是一篇偏实战的记录,保留了当时的判断过程和后续沉淀。
Agent风险
Agent 测试不能只看最终回复,还要看它是否选择了正确工具、传了正确参数、处理了失败和权限。
我更关注它在真实提测流程里怎么落地,而不是单独演示一个命令或脚本。
工具调用
- 为每个工具准备成功、参数错误、权限不足、超时样本。
- 记录模型决策、工具入参、工具返回和最终答案。
- 对高风险工具增加人工确认或白名单。
{"tool":"query_order","arguments":{"order_id":"10001"},"expect_permission":"owner"}
失败路径
- 工具调用参数没有越权数据。
- 工具失败时不会编造成功结果。
- 审计日志能还原完整链路。
执行时最好把截图、请求、响应、日志时间点放在一起,后面复盘会省很多事。
审计
Agent 的质量在调用链路里,不只在最后一句回答里。这个记录后续还可以继续补真实缺陷样本,让它从笔记变成团队检查清单。