"AI 对表演艺术影响很小"——其实是搜索超时了 | 上下文管理与可靠性

一份研究综合报告称”AI 对表演艺术领域影响很小”。审阅者发现，网络搜索子代理在所有表演艺术查询上都超时了——实际上没有收集到任何数据。综合模型把数据缺失解读成了影响缺失。如果没有覆盖度标注标记表演艺术为”unavailable — search timed out”，模型就无法区分”未找到证据”和”证据收集失败”。

三种覆盖度类别

类别	含义	标注
`well_supported`	多来源，数据完整	艺术（3 个来源）、音乐（4 个来源）
`limited_data`	少量来源，部分覆盖	舞蹈（1 个来源）
`unavailable`	搜索失败，未收集到数据	戏剧（超时 — 0 个来源）

每个类别告诉决策者不同的信息：

充分支持： 基于这些发现放心行动
有限数据： 谨慎对待，可能需要补充研究
不可用： 不要得出结论——数据收集失败了，不是证据不存在

决策质量数据

指标	无标注	有标注
基于未识别空白做出的决策	35%	4%
决策修正率（发现空白后）	22%	3%
决策者对研究的信心	65%	89%

覆盖度标注减少 89% 的未识别数据空白。决策者对研究的信任更高而非更低——当他们能看到研究的完整度时。透明度建立信心；隐藏的空白在被发现后摧毁信心。

流水线：子代理元数据 → 聚合 → 输出

步骤 1：子代理报告覆盖度元数据。 每个子代理在结果旁边包含结构化元数据：哪些查询成功了，哪些失败了，哪些产生了部分结果。这是唯一可靠的来源——综合代理无法仅从数据量推断覆盖度。

步骤 2：综合聚合逐主题覆盖度。 综合代理根据子代理元数据对每个主题分类：well_supported、limited_data 或 unavailable。多个子代理成功 → well_supported。一个来源 → limited。全部超时 → unavailable。

步骤 3：最终输出中的覆盖度章节。 综合报告醒目地包含覆盖度评估。不是笼统的免责声明（“某些来源可能不可用”），而是具体的、逐主题的标注并说明每个空白的原因。

为什么静默省略比标注更糟

一位产品经理反对：“覆盖度标注让输出变得杂乱。直接省略数据有限的主题——更干净的输出能建立信任。”

对做投资决策的利益相关者来说，静默省略是欺骗性的。如果一个主题被研究了但数据不可用，省略它会让利益相关者以为从来没被考虑过。当他们发现这个空白时，对整份报告的信任就崩塌了——远比”杂乱”的诚实标注更糟。

不要推断覆盖度——要求显式报告

从数据量或一致性推断覆盖度是不可靠的。超时返回零结果和成功搜索没有找到任何东西看起来是一样的。只有子代理的显式报告（query_status: timeout vs query_status: success, results: 0）才能区分这两种情况。

训练综合模型来”生成适当的覆盖度章节”但不提供元数据，意味着它会编造覆盖度评估。覆盖度标注必须以子代理的实际成功/失败数据为基础。

一句话总结： 每次综合都要包含逐主题覆盖度标注（well_supported/limited_data/unavailable）——这防止模型把搜索失败解读为”不存在证据”，将未识别的决策空白从 35% 降到 4%。