K5.6.4 Task 5.6

已确立 vs 有争议:按证据强度组织报告

一份研究报告写道:“AI 将改变就业市场,创造的工作岗位多于消灭的。“两个子代理提供了发现。一个引用的来源预测净岗位增长。另一个引用的来源预测 15% 的净岗位减少。协调器选了第一个视角,丢掉了第二个。一个有争议的话题现在读起来像确立的事实。

把所有发现用同样的格式呈现——不管是被四个来源确认的还是来自一篇博客文章的——会误导读者对证据质量的判断。报告的结构应该传达证据强度,而不是隐藏它。

为什么扁平列表会误导

一个产品有两条声明:“重 2.5 磅”(4 个独立来源确认)和”电池续航 8-12 小时”(Source 1 说 8 小时,Source 2 说 12 小时,Source 3 说 10 小时)。扁平列表把两者用相同格式呈现。读者对有争议的电池声明和已验证的重量声明赋予同样的信任。

用户信任数据揭示了代价:

报告格式总体信任度意外率(把有争议的声明当事实依赖)
扁平(无证据标签)72%40%
分级(已确立 vs 有争议)65%8%

格式 B “更低”的信任度实际上是校准更好的信任度。用户适当质疑有争议的发现。格式 A “更高”的信任度建立在虚假信心之上——40% 的用户在发现他们依赖的”事实”其实有争议时感到意外。

证据强度结构

把发现分成传达可靠性信号的章节:

已确立的发现

多来源共识。读者可以放心据此行动。

  • “产品重 2.5 磅”——制造商、两个测试实验室和零售列表确认

有争议的发现

来源意见不一。展示所有视角。

  • “电池续航:8 小时(测试实验室 A),10 小时(测试实验室 B),12 小时(制造商声明)“——不同测试条件可能解释了这个范围

初步发现

单一来源,未经证实。

  • “新固件提升充电速度 15%“——一个科技博客报道,等待独立验证

这个结构直接对应读者的行动:已确立的发现用于做决策,有争议的发现需要讨论,初步发现需要验证。

技术报告的四级分类

对开发工具和代码质量报告,四级体系效果不错:

级别标准读者行动
已确立多来源共识(2+ 个独立工具/来源一致)放心行动
有支持多数一致(大部分来源同意,少数异议)大致可靠,调查异常值
有争议来源不一致(无明确共识)需要团队讨论
初步仅单一来源(一个工具/博客/观察)行动前先验证

这比二元分类(推荐/不推荐)、原始来源计数(忽略来源质量——3 篇博客文章 ≠ 3 篇同行评审的基准测试)、或置信百分比(掩盖了证据的本质)都更有用。

分类必须要求共识

常见错误:只要至少一个权威来源支持,就把声明分类为”已确立”。一个系统应用了这条规则,把 85% 的声明归为已确立。审计发现其中 30% 的”已确立”声明有冲突来源——几乎每 3 个中就有 1 个实际上是有争议的。

修复:已确立需要来源间的共识,不是任何单一来源的支持。被一个来源支持但被另一个来源反驳的声明,按定义就是有争议的。

安全和代码质量:证据强度很重要

一个 CI/CD 代理从静态分析、动态测试、安全扫描和代码评审历史中生成发现。目前所有发现都出现在一个扁平列表中。多数据库确认的 CVE 和单工具标记混在一起。

按证据强度分级:

章节内容发现占比
已确认2+ 个独立工具一致60%
已标记单工具检测30%
有争议一个工具说有漏洞,另一个说安全10%

开发团队现在可以按比例分配响应:已确认的 CVE 立即处理,单工具标记需要调查,有争议的发现需要团队评估。每个章节内严重性仍然重要,但证据强度决定了第一级分诊。

过滤掉单工具发现来”减少噪音”有漏掉真实漏洞的风险——只有特定工具才能检测到的漏洞。正确做法:用恰当的证据强度标签呈现它们,而不是压制它们。

不要删除有争议章节

一位产品经理提议:“删掉有争议的发现章节。利益相关者要的是确定的数字,不是争论。”

这会把不确定的预测转化为表面上的事实。Source A 说增长 $5M、Source B 说下降 $2M 的财务预测是真的不确定的。把任何一个预测当作已确立来呈现,都会让利益相关者暴露在未被认知的风险中。不确定性本身就是可操作的信息——它告诉决策者应该制定应急计划,而不是押注于单一预测。

把有争议的发现移到附录是一个半成品方案。财务预测中的关键不确定性应该被醒目展示,而不是埋在大多数利益相关者看不到的地方。

子代理必须提供结构化输出

没有来自子代理的结构化元数据,协调器无法构建证据强度章节。一个子代理返回纯文本”AI market will reach $50B”,不能告诉协调器这条声明来自 10 个已访问来源中的哪一个,其他来源是否同意,或者数据是什么时候收集的。

结构化输出——{claim, source, date, confidence}——给协调器提供了分类证据强度的原材料。没有它,协调器只能猜测共识,而它的猜测会频繁出错,足以破坏整个分类体系。

归属必须源自访问了来源的代理。综合后归属(报告写完后再搜索可能的来源)是不可靠的,因为多个来源可能包含相似的声明,而只有子代理知道它具体读了哪份文档。


一句话总结: 把报告分成已确立、有争议和初步的章节,让读者知道哪些发现可以信任、哪些需要讨论、哪些需要验证——扁平列表把所有证据都当同等对待,但它们并不同等。