一份研究综合报告称”AI 对表演艺术领域影响很小”。审阅者发现,网络搜索子代理在所有表演艺术查询上都超时了——实际上没有收集到任何数据。综合模型把数据缺失解读成了影响缺失。如果没有覆盖度标注标记表演艺术为”unavailable — search timed out”,模型就无法区分”未找到证据”和”证据收集失败”。
三种覆盖度类别
| 类别 | 含义 | 标注 |
|---|---|---|
well_supported | 多来源,数据完整 | 艺术(3 个来源)、音乐(4 个来源) |
limited_data | 少量来源,部分覆盖 | 舞蹈(1 个来源) |
unavailable | 搜索失败,未收集到数据 | 戏剧(超时 — 0 个来源) |
每个类别告诉决策者不同的信息:
- 充分支持: 基于这些发现放心行动
- 有限数据: 谨慎对待,可能需要补充研究
- 不可用: 不要得出结论——数据收集失败了,不是证据不存在
决策质量数据
| 指标 | 无标注 | 有标注 |
|---|---|---|
| 基于未识别空白做出的决策 | 35% | 4% |
| 决策修正率(发现空白后) | 22% | 3% |
| 决策者对研究的信心 | 65% | 89% |
覆盖度标注减少 89% 的未识别数据空白。决策者对研究的信任更高而非更低——当他们能看到研究的完整度时。透明度建立信心;隐藏的空白在被发现后摧毁信心。
流水线:子代理元数据 → 聚合 → 输出
步骤 1:子代理报告覆盖度元数据。 每个子代理在结果旁边包含结构化元数据:哪些查询成功了,哪些失败了,哪些产生了部分结果。这是唯一可靠的来源——综合代理无法仅从数据量推断覆盖度。
步骤 2:综合聚合逐主题覆盖度。 综合代理根据子代理元数据对每个主题分类:well_supported、limited_data 或 unavailable。多个子代理成功 → well_supported。一个来源 → limited。全部超时 → unavailable。
步骤 3:最终输出中的覆盖度章节。 综合报告醒目地包含覆盖度评估。不是笼统的免责声明(“某些来源可能不可用”),而是具体的、逐主题的标注并说明每个空白的原因。
为什么静默省略比标注更糟
一位产品经理反对:“覆盖度标注让输出变得杂乱。直接省略数据有限的主题——更干净的输出能建立信任。”
对做投资决策的利益相关者来说,静默省略是欺骗性的。如果一个主题被研究了但数据不可用,省略它会让利益相关者以为从来没被考虑过。当他们发现这个空白时,对整份报告的信任就崩塌了——远比”杂乱”的诚实标注更糟。
不要推断覆盖度——要求显式报告
从数据量或一致性推断覆盖度是不可靠的。超时返回零结果和成功搜索没有找到任何东西看起来是一样的。只有子代理的显式报告(query_status: timeout vs query_status: success, results: 0)才能区分这两种情况。
训练综合模型来”生成适当的覆盖度章节”但不提供元数据,意味着它会编造覆盖度评估。覆盖度标注必须以子代理的实际成功/失败数据为基础。
一句话总结: 每次综合都要包含逐主题覆盖度标注(well_supported/limited_data/unavailable)——这防止模型把搜索失败解读为”不存在证据”,将未识别的决策空白从 35% 降到 4%。