不经评估就接受第一轮结果是反模式。协调者的职责包括质量评估:所有主题都覆盖了吗?发现够具体吗?不同 agent 的严重度评级对齐了吗?如果没有,委派针对性的后续任务——不要重来,不要照收。
三步循环
- 评估:按质量标准(覆盖率、深度、一致性)检查子代理结果
- 识别缺口:哪些主题缺了?哪些发现太模糊?哪些评级矛盾?
- 填补缺口:对具体缺口委派针对性的后续查询,然后用扩展后的结果重新综合
这比重启整个流水线更高效(保留了有效的第一轮工作),也比接受不完整结果更彻底。
重要的质量标准
代码审查协调者的例子:
- 覆盖率:所有修改的文件都审查了吗?
- 深度:发现是具体的(行号、代码证据)还是含糊的?
- 一致性:跨文件的严重度评级用的是兼容的标尺吗?
按优先级(成本最低的先)评估。如果覆盖率通过但 3 个文件的深度不够,只重新审查那 3 个文件的深度——不要全部重来。
什么时候停止迭代
200 个查询的生产数据:
- 第 1 轮:65/100 质量
- 第 2 轮:82/100(+17)
- 第 3 轮:88/100(+6)
- 第 4 轮:89/100(+1)
收益递减很明显。停止条件:质量目标达标(≥85)或轮间改善低于阈值(<2 分)。这防止了过早停止(质量太低)和浪费的过度迭代(全成本换边际收益)。
收敛保护
某系统 2% 的查询进入了 10+ 轮循环,消耗了 40% 的算力预算。协调者不断发现小缺口并重新委派,永远不满意。
修复:收敛保护——最大迭代限制(比如 6 轮)加改善阈值。保护触发时,返回可用的最佳输出并带覆盖注解标注剩余缺口。这保护了预算,同时维持正常收敛的 98% 的质量。
定向后续,不是全面重来
发现缺口时,只填具体的缺口。全面重来浪费了所有有效的第一轮工作,花 2 倍成本,还可能引入新的不同缺口。定向后续保留好的工作、补上缺的。即使缺口很大(50%+ 缺失),定向后续也更高效——保留有效的 50%,只研究缺失的那一半。
第一步
如果你的协调者当前不经评估就接受第一轮结果,第一步是加上评估步骤本身。协调者要能迭代,得先有按标准评估质量的能力。这是整个迭代循环的基础。
一句话总结: 按质量标准评估第一轮结果,对具体缺口委派定向后续(不是全面重来),质量达标或改善趋平时停止——加收敛保护防止失控循环。