模型报告的置信度标签(HIGH/MEDIUM/LOW)必须在标注验证集上校准后才能用于生产路由。未校准的置信度会误导——安全类别中”HIGH 置信度”的误报率是 30%,尽管其他类别只有 5%。
校准数据
在 100+ 条标注发现上验证后:
| 报告的置信度 | 实际准确率 |
|---|---|
| HIGH | 92%(8% 误报) |
| MEDIUM | 71%(29% 误报) |
| LOW | 45%(55% 误报) |
这些数字因类别而异。一个自动通过”HIGH 置信度”发现的全局阈值对风格检查管用(92% 准确),对安全检查不行(“HIGH”只有 70% 准确)。
按类别校准
不同审查类别需要不同的置信度阈值:
| 类别 | ”HIGH”准确率 | 可以自动通过? |
|---|---|---|
| 风格 | 95% | 可以 |
| 正确性 | 88% | 看情况 |
| 安全 | 70% | 不行 |
单一全局阈值服务不了所有类别。用标注数据独立校准每个类别。
路由策略
结合置信度和严重等级做智能路由:
- 高置信度 + 低严重等级 → 自动通过
- 低置信度 + 高严重等级 → 强制人工审查
- 高置信度 + 高严重等级 → 人工审查(严重等级覆盖置信度)
- 低置信度 + 低严重等级 → 批量归入定期审查
单靠置信度或单靠严重等级都无法实现这种路由。两个维度结合才能有效分配有限的人工审查带宽。
重新校准
置信度的准确率会随时间漂移,因为代码模式和 prompt 标准在演变。每季度用新的标注数据重新校准。6 个月前有效的阈值现在可能已经不准了。
一句话总结: 在信任置信度标签做路由之前,用标注数据按类别校准——未校准的”HIGH”在风格检查里意味着 92% 但在安全检查里只有 70%,全局阈值两头都不行。