置信度校准：模型说 0.9——这到底意味着什么？ | 上下文管理与可靠性

模型对一次提取报告 0.9 的置信度。这意味着 90% 的准确率吗？不一定。一个团队基于”0.85 置信度大概意味着 85% 准确率”的假设设了 0.85 的审查阈值。审计发现 40% 的总错误出现在 0.85 以上的提取中——模型是自信地犯了错，阈值放行了这些错误。

置信度分数对路由有用，但前提是经过实证校准。模型报告的数字和它在该数字上实际达到的准确率可能差异显著。

校准：拿声称的和现实比

校准度量的是报告的置信度是否匹配观察到的准确率。一个在报告 0.9 置信度时实际达到 90% 准确率的良好校准模型是有用的。一个在报告 0.9 时只有 75% 准确率的模型是过度自信的，对自动路由来说很危险。

一个团队对照标注验证集评估了他们模型的校准：

模型在 0.5-0.9 范围内校准还算合理。但在最高置信度区间（0.9+），它只达到 82% 准确率——意味着最自信的提取中将近 1/5 是错的。一个 0.8 的阈值（假设”80% 就够了”）放行了这些过度自信的项目。

部署基于置信度的路由之前：

没有通用的”0.8 是对的阈值”。每个模型、字段类型和文档来源需要自己的验证。阈值应该设在实际准确率降到该具体用例可接受水平以下的位置。

模型可能对某些类别校准良好而对其他类别过度自信。一个系统发现 warranty_period 字段平均 0.88 置信度但有 25% 的错误率，而其他字段在类似置信度下只有 3% 的错误率。

单一全局阈值平等对待所有字段。但如果保修提取过度自信，全局阈值就放行了它们的错误。按字段或按类别校准在不同字段达到准确率门槛的不同位置设不同阈值：

这让路由匹配每个字段的实际可靠性画像。

校准不是永久的。当数据分布变化时，准确率-置信度关系就会偏移。

一个团队校准了他们的系统并取得了优秀结果：0.85+ 置信度对应 91% 的实际准确率。六个月后重新校准检查显示 0.85+ 置信度现在只对应 76% 的准确率。原因：25% 的消息现在来自一个格式不同的新移动应用，模型处理得不那么可靠。

审查队列量没变（同样的阈值、同样的路由比例），但自动接受的提取质量已经静默退化了。没有定期重新校准，团队根本不会知道。

按固定计划（每季度是合理默认值）和在显著数据分布变化后（新来源、格式更新、客户渠道增加）重新校准。

基于置信度的路由有一个盲区：模型有时自信地犯错，没有阈值能捕获模型自己不知道的错误。

两种情况需要完全绕过置信度的覆盖规则：

高影响类别。 安全漏洞发现无论置信度如何都应该始终接受人工专家审查。一个漏掉的关键漏洞的代价远超审查成本。如果已知模型对安全发现过度自信，该类别的基于置信度路由不只是次优——而是主动危险。

模糊的源材料。 褪色的扫描件、手写修改、矛盾的规格——当源材料本身模糊时，模型可能对其解读报告高置信度，而另一种解读同样有效。检测源模糊性（格式标记、规格质量指标）的覆盖规则无论提取置信度如何都路由到审查。

当审查队列超过审查者产能（每天 500 项，团队产能 150）时，单靠置信度是错误的排序键。一个低置信度的客户姓名提取和一个低置信度的退款金额提取在审查重要性上并不相等。

审查队列内的基于影响优先级：

这把稀缺的审查者时间分配到错误代价最高的地方。FIFO 处理平等对待所有字段，把产能浪费在低影响项目上而高影响错误在排队。

对于有多个维度（发现类别、严重等级、置信度）的系统，路由矩阵最优分配有限的审查资源：

这个矩阵集成了校准（按类别阈值）、覆盖（关键安全始终审查）和资源分配（低严重等级优先级更低）。单一全局阈值编码不了这些区分。

置信度校准不是一次性设置：

跳过第 1 步（用未校准的分数部署）是最常见也最危险的反模式。下游的一切——阈值、路由、审查优先级——都依赖于置信度分数确实有意义。没有校准，它们只是数字。

一句话总结： 在信任置信度分数做路由之前对照标注数据校准——模型报告的 0.9 可能实际只有 82% 准确率，只有实证验证才能揭示真相。