Agent测试:工具调用链路怎么验

发表评论 546 浏览量
目录:

Agent测试:工具调用链路怎么验

2026年1月记录,分类「AI测试」。这是一篇偏实战的记录,保留了当时的判断过程和后续沉淀。

Agent风险

Agent 测试不能只看最终回复,还要看它是否选择了正确工具、传了正确参数、处理了失败和权限。

我更关注它在真实提测流程里怎么落地,而不是单独演示一个命令或脚本。

工具调用

  • 为每个工具准备成功、参数错误、权限不足、超时样本。
  • 记录模型决策、工具入参、工具返回和最终答案。
  • 对高风险工具增加人工确认或白名单。
{"tool":"query_order","arguments":{"order_id":"10001"},"expect_permission":"owner"}

失败路径

  • 工具调用参数没有越权数据。
  • 工具失败时不会编造成功结果。
  • 审计日志能还原完整链路。

执行时最好把截图、请求、响应、日志时间点放在一起,后面复盘会省很多事。

审计

Agent 的质量在调用链路里,不只在最后一句回答里。这个记录后续还可以继续补真实缺陷样本,让它从笔记变成团队检查清单。