S4.6.1 Task 4.6

按类别校准置信度——"HIGH"在风格检查里是 92%,在安全检查里是 70%

模型报告的置信度标签(HIGH/MEDIUM/LOW)必须在标注验证集上校准后才能用于生产路由。未校准的置信度会误导——安全类别中”HIGH 置信度”的误报率是 30%,尽管其他类别只有 5%。

校准数据

在 100+ 条标注发现上验证后:

报告的置信度实际准确率
HIGH92%(8% 误报)
MEDIUM71%(29% 误报)
LOW45%(55% 误报)

这些数字因类别而异。一个自动通过”HIGH 置信度”发现的全局阈值对风格检查管用(92% 准确),对安全检查不行(“HIGH”只有 70% 准确)。

按类别校准

不同审查类别需要不同的置信度阈值:

类别”HIGH”准确率可以自动通过?
风格95%可以
正确性88%看情况
安全70%不行

单一全局阈值服务不了所有类别。用标注数据独立校准每个类别。

路由策略

结合置信度和严重等级做智能路由:

  • 高置信度 + 低严重等级 → 自动通过
  • 低置信度 + 高严重等级 → 强制人工审查
  • 高置信度 + 高严重等级 → 人工审查(严重等级覆盖置信度)
  • 低置信度 + 低严重等级 → 批量归入定期审查

单靠置信度或单靠严重等级都无法实现这种路由。两个维度结合才能有效分配有限的人工审查带宽。

重新校准

置信度的准确率会随时间漂移,因为代码模式和 prompt 标准在演变。每季度用新的标注数据重新校准。6 个月前有效的阈值现在可能已经不准了。


一句话总结: 在信任置信度标签做路由之前,用标注数据按类别校准——未校准的”HIGH”在风格检查里意味着 92% 但在安全检查里只有 70%,全局阈值两头都不行。