LLM评测指标:准确性、拒答、成本和时延

发表评论 841 浏览量
目录:

LLM评测指标:准确性、拒答、成本和时延

2025年2月记录,分类「AI测试」。这里不追求大而全,主要记录一个测试点从发现到落地的过程。

指标拆分

LLM 评测不能只看准确率。真实业务里,拒答边界、响应时延、调用成本、格式稳定性同样会影响上线。

我更关注它在真实提测流程里怎么落地,而不是单独演示一个命令或脚本。

样本准备

  • 把事实问答、开放问答、拒答问题分开评估。
  • 统计平均耗时、p95、token 成本和失败率。
  • 对格式类输出增加 JSON schema 或字段校验。
指标: factuality、refusal、format、latency、cost
样本集: v2025.03
模型: qwen/max/private-v2

统计方式

  • 错误样本能分类归因。
  • 拒答不会过度保守也不会放开敏感问题。
  • 模型版本变化有可比报告。

执行时最好把截图、请求、响应、日志时间点放在一起,后面复盘会省很多事。

上线门槛

模型评测要服务上线决策,指标必须和业务风险挂钩。真正有价值的不是这一次解决了什么,而是下次能不能更快定位同类问题。