已确立 vs 有争议：按证据强度组织报告 | 上下文管理与可靠性

一份研究报告写道：“AI 将改变就业市场，创造的工作岗位多于消灭的。“两个子代理提供了发现。一个引用的来源预测净岗位增长。另一个引用的来源预测 15% 的净岗位减少。协调器选了第一个视角，丢掉了第二个。一个有争议的话题现在读起来像确立的事实。

把所有发现用同样的格式呈现——不管是被四个来源确认的还是来自一篇博客文章的——会误导读者对证据质量的判断。报告的结构应该传达证据强度，而不是隐藏它。

为什么扁平列表会误导

一个产品有两条声明：“重 2.5 磅”（4 个独立来源确认）和”电池续航 8-12 小时”（Source 1 说 8 小时，Source 2 说 12 小时，Source 3 说 10 小时）。扁平列表把两者用相同格式呈现。读者对有争议的电池声明和已验证的重量声明赋予同样的信任。

用户信任数据揭示了代价：

报告格式	总体信任度	意外率（把有争议的声明当事实依赖）
扁平（无证据标签）	72%	40%
分级（已确立 vs 有争议）	65%	8%

格式 B “更低”的信任度实际上是校准更好的信任度。用户适当质疑有争议的发现。格式 A “更高”的信任度建立在虚假信心之上——40% 的用户在发现他们依赖的”事实”其实有争议时感到意外。

把发现分成传达可靠性信号的章节：

多来源共识。读者可以放心据此行动。

来源意见不一。展示所有视角。

单一来源，未经证实。

这个结构直接对应读者的行动：已确立的发现用于做决策，有争议的发现需要讨论，初步发现需要验证。

对开发工具和代码质量报告，四级体系效果不错：

这比二元分类（推荐/不推荐）、原始来源计数（忽略来源质量——3 篇博客文章 ≠ 3 篇同行评审的基准测试）、或置信百分比（掩盖了证据的本质）都更有用。

常见错误：只要至少一个权威来源支持，就把声明分类为”已确立”。一个系统应用了这条规则，把 85% 的声明归为已确立。审计发现其中 30% 的”已确立”声明有冲突来源——几乎每 3 个中就有 1 个实际上是有争议的。

修复：已确立需要来源间的共识，不是任何单一来源的支持。被一个来源支持但被另一个来源反驳的声明，按定义就是有争议的。

一个 CI/CD 代理从静态分析、动态测试、安全扫描和代码评审历史中生成发现。目前所有发现都出现在一个扁平列表中。多数据库确认的 CVE 和单工具标记混在一起。

按证据强度分级：

开发团队现在可以按比例分配响应：已确认的 CVE 立即处理，单工具标记需要调查，有争议的发现需要团队评估。每个章节内严重性仍然重要，但证据强度决定了第一级分诊。

过滤掉单工具发现来”减少噪音”有漏掉真实漏洞的风险——只有特定工具才能检测到的漏洞。正确做法：用恰当的证据强度标签呈现它们，而不是压制它们。

一位产品经理提议：“删掉有争议的发现章节。利益相关者要的是确定的数字，不是争论。”

这会把不确定的预测转化为表面上的事实。Source A 说增长 $5M、Source B 说下降 $2M 的财务预测是真的不确定的。把任何一个预测当作已确立来呈现，都会让利益相关者暴露在未被认知的风险中。不确定性本身就是可操作的信息——它告诉决策者应该制定应急计划，而不是押注于单一预测。

把有争议的发现移到附录是一个半成品方案。财务预测中的关键不确定性应该被醒目展示，而不是埋在大多数利益相关者看不到的地方。

没有来自子代理的结构化元数据，协调器无法构建证据强度章节。一个子代理返回纯文本”AI market will reach $50B”，不能告诉协调器这条声明来自 10 个已访问来源中的哪一个，其他来源是否同意，或者数据是什么时候收集的。

结构化输出——{claim, source, date, confidence}——给协调器提供了分类证据强度的原材料。没有它，协调器只能猜测共识，而它的猜测会频繁出错，足以破坏整个分类体系。

归属必须源自访问了来源的代理。综合后归属（报告写完后再搜索可能的来源）是不可靠的，因为多个来源可能包含相似的声明，而只有子代理知道它具体读了哪份文档。

一句话总结： 把报告分成已确立、有争议和初步的章节，让读者知道哪些发现可以信任、哪些需要讨论、哪些需要验证——扁平列表把所有证据都当同等对待，但它们并不同等。