按类别校准置信度——"HIGH"在风格检查里是 92%，在安全检查里是 70% | 提示工程与优化

模型报告的置信度标签（HIGH/MEDIUM/LOW）必须在标注验证集上校准后才能用于生产路由。未校准的置信度会误导——安全类别中”HIGH 置信度”的误报率是 30%，尽管其他类别只有 5%。

校准数据

在 100+ 条标注发现上验证后：

这些数字因类别而异。一个自动通过”HIGH 置信度”发现的全局阈值对风格检查管用（92% 准确），对安全检查不行（“HIGH”只有 70% 准确）。

不同审查类别需要不同的置信度阈值：

单一全局阈值服务不了所有类别。用标注数据独立校准每个类别。

结合置信度和严重等级做智能路由：

单靠置信度或单靠严重等级都无法实现这种路由。两个维度结合才能有效分配有限的人工审查带宽。

置信度的准确率会随时间漂移，因为代码模式和 prompt 标准在演变。每季度用新的标注数据重新校准。6 个月前有效的阈值现在可能已经不准了。

一句话总结： 在信任置信度标签做路由之前，用标注数据按类别校准——未校准的”HIGH”在风格检查里意味着 92% 但在安全检查里只有 70%，全局阈值两头都不行。