给每条发现加一个 detected_pattern 字段。当开发者驳回误报时,汇总哪些模式触发了最多驳回。给排名靠前的模式加有针对性的 SKIP few-shot 示例。测量。重复。
反馈循环
3 个月内:
| 阶段 | 误报率 | 真阳性检出率 |
|---|---|---|
| 起始 | 42% | 94% |
| 第一轮改进后 | 23% | 95% |
| 第二轮改进后 | 11% | 96% |
排名前 3 的模式覆盖了 80% 的驳回(帕累托分布)。用 SKIP 示例修复这 3 个模式带来了最大的改进。
流程
- 捕获 — 每条发现包含
detected_pattern字段(如 “empty_catch_block”、“unused_import”) - 汇总 — 按模式追踪 2-4 周的开发者驳回情况
- 排优先级 — 按驳回频率排名
- 修复 — 为驳回最多的模式添加配对的 SKIP 示例
- 测量 — 验证误报率降了但真阳性没丢
- 重复 — 这个循环是持续的,不是一次性的
反模式
丢弃驳回数据而不追踪是哪些模式导致的。驳回操作本身就是有价值的反馈——浪费掉意味着同样的误报会无限期持续。
在生成后自动压制模式。 一个隐藏”empty_catch_block”发现的过滤器治的是症状。SKIP 示例修的是 prompt,让 Claude 从源头上停止产生误报。
一次性改进。 修完排名前 3 的模式就停下来,剩下的模式原封不动。分布会随着头部模式被修复而变化——新的模式会成为主因。
一句话总结: 建立持续反馈循环:每条发现捕获 detected_pattern → 汇总开发者驳回 → 为排名靠前的模式加 SKIP 示例 → 误报率从 42% 降到 11%,检出率保持 94-96%。