一份研究报告写道:“AI 将改变就业市场,创造的工作岗位多于消灭的。“两个子代理提供了发现。一个引用的来源预测净岗位增长。另一个引用的来源预测 15% 的净岗位减少。协调器选了第一个视角,丢掉了第二个。一个有争议的话题现在读起来像确立的事实。
把所有发现用同样的格式呈现——不管是被四个来源确认的还是来自一篇博客文章的——会误导读者对证据质量的判断。报告的结构应该传达证据强度,而不是隐藏它。
为什么扁平列表会误导
一个产品有两条声明:“重 2.5 磅”(4 个独立来源确认)和”电池续航 8-12 小时”(Source 1 说 8 小时,Source 2 说 12 小时,Source 3 说 10 小时)。扁平列表把两者用相同格式呈现。读者对有争议的电池声明和已验证的重量声明赋予同样的信任。
用户信任数据揭示了代价:
| 报告格式 | 总体信任度 | 意外率(把有争议的声明当事实依赖) |
|---|---|---|
| 扁平(无证据标签) | 72% | 40% |
| 分级(已确立 vs 有争议) | 65% | 8% |
格式 B “更低”的信任度实际上是校准更好的信任度。用户适当质疑有争议的发现。格式 A “更高”的信任度建立在虚假信心之上——40% 的用户在发现他们依赖的”事实”其实有争议时感到意外。
证据强度结构
把发现分成传达可靠性信号的章节:
已确立的发现
多来源共识。读者可以放心据此行动。
- “产品重 2.5 磅”——制造商、两个测试实验室和零售列表确认
有争议的发现
来源意见不一。展示所有视角。
- “电池续航:8 小时(测试实验室 A),10 小时(测试实验室 B),12 小时(制造商声明)“——不同测试条件可能解释了这个范围
初步发现
单一来源,未经证实。
- “新固件提升充电速度 15%“——一个科技博客报道,等待独立验证
这个结构直接对应读者的行动:已确立的发现用于做决策,有争议的发现需要讨论,初步发现需要验证。
技术报告的四级分类
对开发工具和代码质量报告,四级体系效果不错:
| 级别 | 标准 | 读者行动 |
|---|---|---|
| 已确立 | 多来源共识(2+ 个独立工具/来源一致) | 放心行动 |
| 有支持 | 多数一致(大部分来源同意,少数异议) | 大致可靠,调查异常值 |
| 有争议 | 来源不一致(无明确共识) | 需要团队讨论 |
| 初步 | 仅单一来源(一个工具/博客/观察) | 行动前先验证 |
这比二元分类(推荐/不推荐)、原始来源计数(忽略来源质量——3 篇博客文章 ≠ 3 篇同行评审的基准测试)、或置信百分比(掩盖了证据的本质)都更有用。
分类必须要求共识
常见错误:只要至少一个权威来源支持,就把声明分类为”已确立”。一个系统应用了这条规则,把 85% 的声明归为已确立。审计发现其中 30% 的”已确立”声明有冲突来源——几乎每 3 个中就有 1 个实际上是有争议的。
修复:已确立需要来源间的共识,不是任何单一来源的支持。被一个来源支持但被另一个来源反驳的声明,按定义就是有争议的。
安全和代码质量:证据强度很重要
一个 CI/CD 代理从静态分析、动态测试、安全扫描和代码评审历史中生成发现。目前所有发现都出现在一个扁平列表中。多数据库确认的 CVE 和单工具标记混在一起。
按证据强度分级:
| 章节 | 内容 | 发现占比 |
|---|---|---|
| 已确认 | 2+ 个独立工具一致 | 60% |
| 已标记 | 单工具检测 | 30% |
| 有争议 | 一个工具说有漏洞,另一个说安全 | 10% |
开发团队现在可以按比例分配响应:已确认的 CVE 立即处理,单工具标记需要调查,有争议的发现需要团队评估。每个章节内严重性仍然重要,但证据强度决定了第一级分诊。
过滤掉单工具发现来”减少噪音”有漏掉真实漏洞的风险——只有特定工具才能检测到的漏洞。正确做法:用恰当的证据强度标签呈现它们,而不是压制它们。
不要删除有争议章节
一位产品经理提议:“删掉有争议的发现章节。利益相关者要的是确定的数字,不是争论。”
这会把不确定的预测转化为表面上的事实。Source A 说增长 $5M、Source B 说下降 $2M 的财务预测是真的不确定的。把任何一个预测当作已确立来呈现,都会让利益相关者暴露在未被认知的风险中。不确定性本身就是可操作的信息——它告诉决策者应该制定应急计划,而不是押注于单一预测。
把有争议的发现移到附录是一个半成品方案。财务预测中的关键不确定性应该被醒目展示,而不是埋在大多数利益相关者看不到的地方。
子代理必须提供结构化输出
没有来自子代理的结构化元数据,协调器无法构建证据强度章节。一个子代理返回纯文本”AI market will reach $50B”,不能告诉协调器这条声明来自 10 个已访问来源中的哪一个,其他来源是否同意,或者数据是什么时候收集的。
结构化输出——{claim, source, date, confidence}——给协调器提供了分类证据强度的原材料。没有它,协调器只能猜测共识,而它的猜测会频繁出错,足以破坏整个分类体系。
归属必须源自访问了来源的代理。综合后归属(报告写完后再搜索可能的来源)是不可靠的,因为多个来源可能包含相似的声明,而只有子代理知道它具体读了哪份文档。
一句话总结: 把报告分成已确立、有争议和初步的章节,让读者知道哪些发现可以信任、哪些需要讨论、哪些需要验证——扁平列表把所有证据都当同等对待,但它们并不同等。