LLM评测指标：准确性、拒答、成本和时延

发表评论 841 浏览量

目录:

LLM评测指标：准确性、拒答、成本和时延

LLM评测指标：准确性、拒答、成本和时延

2025年2月记录，分类「AI测试」。这里不追求大而全，主要记录一个测试点从发现到落地的过程。

指标拆分

LLM 评测不能只看准确率。真实业务里，拒答边界、响应时延、调用成本、格式稳定性同样会影响上线。

我更关注它在真实提测流程里怎么落地，而不是单独演示一个命令或脚本。

样本准备

把事实问答、开放问答、拒答问题分开评估。
统计平均耗时、p95、token 成本和失败率。
对格式类输出增加 JSON schema 或字段校验。

指标: factuality、refusal、format、latency、cost
样本集: v2025.03
模型: qwen/max/private-v2

统计方式

错误样本能分类归因。
拒答不会过度保守也不会放开敏感问题。
模型版本变化有可比报告。

执行时最好把截图、请求、响应、日志时间点放在一起，后面复盘会省很多事。

上线门槛

模型评测要服务上线决策，指标必须和业务风险挂钩。真正有价值的不是这一次解决了什么，而是下次能不能更快定位同类问题。

评论0

您还没有登录，请您登录后发表评论。