LLM评测指标:准确性、拒答、成本和时延
2025年2月记录,分类「AI测试」。这里不追求大而全,主要记录一个测试点从发现到落地的过程。
指标拆分
LLM 评测不能只看准确率。真实业务里,拒答边界、响应时延、调用成本、格式稳定性同样会影响上线。
我更关注它在真实提测流程里怎么落地,而不是单独演示一个命令或脚本。
样本准备
- 把事实问答、开放问答、拒答问题分开评估。
- 统计平均耗时、p95、token 成本和失败率。
- 对格式类输出增加 JSON schema 或字段校验。
指标: factuality、refusal、format、latency、cost
样本集: v2025.03
模型: qwen/max/private-v2
统计方式
- 错误样本能分类归因。
- 拒答不会过度保守也不会放开敏感问题。
- 模型版本变化有可比报告。
执行时最好把截图、请求、响应、日志时间点放在一起,后面复盘会省很多事。
上线门槛
模型评测要服务上线决策,指标必须和业务风险挂钩。真正有价值的不是这一次解决了什么,而是下次能不能更快定位同类问题。