S1.3.3 Task 1.3

目标 + 标准胜过按步骤来:82 vs 68 质量分

协调者的 system prompt 决定了它怎么编排。按步骤的程序化提示产出可预测但僵化的行为。带质量标准的目标导向提示产出自适应行为,平均高 14 分——因为 45% 的研究查询能从策略调整中获益,而僵化的程序做不到。

数据:程序化 vs 目标导向

指标程序化提示目标导向提示
平均质量68/10082/100
适应率0%45%
质量方差低(均匀)更高(随复杂度缩放)

14 分的质量提升来自协调者在子代理结果揭示意外发现或缺口时的适应能力。目标导向输出更高的方差是健康的——简单查询产出简单报告,复杂查询产出复杂报告。强制均匀输出意味着在简单查询上过度投入或在复杂查询上投入不足。

A/B 测试:19 分差距,可修的边缘情况

500 查询 A/B 测试:

  • 程序化:100% 完成率,65/100 质量,35% 次优执行
  • 目标导向:95% 完成率,84/100 质量,40% 自适应策略调整

5% 的未完成是收敛问题,可以用迭代保护修复。19 分的质量差距是根本性的。程序化通过机械跟随步骤来”完成”——但 35% 的情况下那些步骤是错误的方案。一份完成但错误的报告比一份朝质量迭代的更差。

僵化程序陷阱:字面执行

协调者 prompt 说:“步骤 1:用搜索 agent 找 5 篇论文。“在一个量子计算查询中,搜索 agent 找到了 2 篇论文和 1 份关键政府报告。协调者忽略了政府报告——prompt 说的是”论文”,不是”报告”。

目标导向 prompt(“产出有多样来源的全面分析”)会包含那份有价值的报告。协调者的职责是追求研究目标,不是匹配来源类型的规定格式。

平衡做法:目标 + 可选提示

两个极端都不是最优:

  • 纯目标,无引导:协调者在不熟悉的任务上可能漫无目的
  • 纯程序,无目标:现实不符合计划时协调者无法适应

有效的中间路线:目标和质量标准作为主框架,配上可选的程序性提示给常见模式。“通常先广泛搜索再深入分析”是提示。“务必先广泛搜索”是命令。提示引导策略但不约束它。

复杂度自适应协调者

同一个协调者处理简单事实查询和复杂多领域分析。Prompt 应该让投入成比例:

“先评估查询复杂度。简单事实查询用一个 agent 单 pass 就够。复杂多领域查询用多个 agent 并迭代直到覆盖标准满足。”

这自然缩放:简单查询快速解决,复杂查询深入调查。一个协调者,自适应策略。

策略 vs 格式:分离关注点

CI 协调者需要两个看似矛盾的东西:自适应策略(纯文档 PR 跳过安全扫描)和可预测输出(审计人员需要一致的报告格式)。

修复:分开它们。

  • 策略(哪些 agent、多少 pass、什么深度)→ 目标导向、自适应 按 PR 调整
  • 格式(报告结构、严重度评级、文件引用)→ 结构化、可预测 始终一致

协调者调整审查的方式,同时始终产出审计人员期望的东西。适应性在调查过程中;可预测性在输出结构中。

协调者 prompt 应包含什么

  1. 研究目标:要达成什么,多广/多深
  2. 质量标准:什么算”好”(有引用的来源、具体的发现、覆盖完整性)
  3. 评估标准:什么时候迭代 vs 接受(覆盖有缺口?深度不够?)
  4. 可选提示:常见模式但不强制(“通常先……”)
  5. 输出格式要求:不管策略怎么适应,结构一致
  6. 协调元指令:“每轮后评估覆盖率”、“只传相关上下文给子代理”、“来源冲突时保留两个视角”

不应包含什么

  • 按步骤程序作为主结构(阻止适应)
  • 每种场景的决策树(不可维护,仍然漏边缘情况)
  • 不带质量标准的极简指令(没有自评的基础)
  • 固定 agent 顺序不带灵活性(“永远先跑安全,然后性能,然后风格”)

一句话总结: 目标导向 prompt 带质量标准得 82 分 vs 程序化 68 分,因为 45% 的查询从自适应策略获益——用目标定义要达成什么,可选提示给常见模式,自适应策略和可预测输出格式分开。