S5.3.1 Task 5.3

"AI 对表演艺术影响很小"——其实是搜索超时了

一份研究综合报告称”AI 对表演艺术领域影响很小”。审阅者发现,网络搜索子代理在所有表演艺术查询上都超时了——实际上没有收集到任何数据。综合模型把数据缺失解读成了影响缺失。如果没有覆盖度标注标记表演艺术为”unavailable — search timed out”,模型就无法区分”未找到证据”和”证据收集失败”。

三种覆盖度类别

类别含义标注
well_supported多来源,数据完整艺术(3 个来源)、音乐(4 个来源)
limited_data少量来源,部分覆盖舞蹈(1 个来源)
unavailable搜索失败,未收集到数据戏剧(超时 — 0 个来源)

每个类别告诉决策者不同的信息:

  • 充分支持: 基于这些发现放心行动
  • 有限数据: 谨慎对待,可能需要补充研究
  • 不可用: 不要得出结论——数据收集失败了,不是证据不存在

决策质量数据

指标无标注有标注
基于未识别空白做出的决策35%4%
决策修正率(发现空白后)22%3%
决策者对研究的信心65%89%

覆盖度标注减少 89% 的未识别数据空白。决策者对研究的信任更高而非更低——当他们能看到研究的完整度时。透明度建立信心;隐藏的空白在被发现后摧毁信心。

流水线:子代理元数据 → 聚合 → 输出

步骤 1:子代理报告覆盖度元数据。 每个子代理在结果旁边包含结构化元数据:哪些查询成功了,哪些失败了,哪些产生了部分结果。这是唯一可靠的来源——综合代理无法仅从数据量推断覆盖度。

步骤 2:综合聚合逐主题覆盖度。 综合代理根据子代理元数据对每个主题分类:well_supported、limited_data 或 unavailable。多个子代理成功 → well_supported。一个来源 → limited。全部超时 → unavailable。

步骤 3:最终输出中的覆盖度章节。 综合报告醒目地包含覆盖度评估。不是笼统的免责声明(“某些来源可能不可用”),而是具体的、逐主题的标注并说明每个空白的原因。

为什么静默省略比标注更糟

一位产品经理反对:“覆盖度标注让输出变得杂乱。直接省略数据有限的主题——更干净的输出能建立信任。”

对做投资决策的利益相关者来说,静默省略是欺骗性的。如果一个主题被研究了但数据不可用,省略它会让利益相关者以为从来没被考虑过。当他们发现这个空白时,对整份报告的信任就崩塌了——远比”杂乱”的诚实标注更糟。

不要推断覆盖度——要求显式报告

从数据量或一致性推断覆盖度是不可靠的。超时返回零结果和成功搜索没有找到任何东西看起来是一样的。只有子代理的显式报告(query_status: timeout vs query_status: success, results: 0)才能区分这两种情况。

训练综合模型来”生成适当的覆盖度章节”但不提供元数据,意味着它会编造覆盖度评估。覆盖度标注必须以子代理的实际成功/失败数据为基础。


一句话总结: 每次综合都要包含逐主题覆盖度标注(well_supported/limited_data/unavailable)——这防止模型把搜索失败解读为”不存在证据”,将未识别的决策空白从 35% 降到 4%。