Agent测试:工具调用链路怎么验
2026年1月记录,分类「AI测试」。这是一篇偏实战的记录,保留了当时的判断过程和后续沉淀。
Agent风险
Agent 测试不能只看最终回复,还要看它是否选择了正确工具、传了正确参数、处理了失败和权限。
我更关注它在真实提测流程里怎么落地,而不是单独演示一个命令或脚本。
工具调用
- 为每个工具准备成功、参数错误、权限不足、超时样本。
- 记录模型决策、工具入参、工具返回和最终答案。
- 对高风险工具增加人工确认或白名单。
{"tool":"query_order","arguments":{&quo