Agent测试：工具调用链路怎么验

发表评论 546 浏览量

目录:

Agent测试：工具调用链路怎么验

Agent测试：工具调用链路怎么验

2026年1月记录，分类「AI测试」。这是一篇偏实战的记录，保留了当时的判断过程和后续沉淀。

Agent风险

Agent 测试不能只看最终回复，还要看它是否选择了正确工具、传了正确参数、处理了失败和权限。

我更关注它在真实提测流程里怎么落地，而不是单独演示一个命令或脚本。

工具调用

为每个工具准备成功、参数错误、权限不足、超时样本。
记录模型决策、工具入参、工具返回和最终答案。
对高风险工具增加人工确认或白名单。

{"tool":"query_order","arguments":{"order_id":"10001"},"expect_permission":"owner"}

失败路径

工具调用参数没有越权数据。
工具失败时不会编造成功结果。
审计日志能还原完整链路。

执行时最好把截图、请求、响应、日志时间点放在一起，后面复盘会省很多事。

审计

Agent 的质量在调用链路里，不只在最后一句回答里。这个记录后续还可以继续补真实缺陷样本，让它从笔记变成团队检查清单。

评论0

您还没有登录，请您登录后发表评论。