不要每个查询都跑所有 Agent | Agentic 架构与编排

协调者的智能应该用来匹配查询复杂度和委派范围。对每个请求都跑所有 agent 是固定流水线，不是智能编排者。动态选择——分析每个查询、只委派需要的 agent——减少延迟、降低成本，同时保留对复杂案例的彻底性。

固定流水线反模式

一个有 5 个子代理的研究协调者对每个查询都跑全部 5 个，即使”论文 X 是什么时候发表的？“——一个只需要搜索 agent 的问题（约 5 秒）。结果：简单的事实查询耗时 45 秒，跟复杂研究查询一样。用户抱怨简单问题响应太慢。

根因：协调者用固定流水线，不管查询复杂度。简单和复杂查询延迟相同是明确的信号。

一个月 500 查询的系统的生产数据：

协调者的分析步骤成本远低于调用不必要的子代理。它是一笔多倍回本的投资。

如果初始评估低估了复杂度怎么办？开发者让”检查一下我的工具函数”——看起来只需要风格检查，但函数里有并发 bug。

方案：两阶段委派。先用初始选定的 agent。如果第一阶段结果表明有额外关注点（风格 agent 标记了可疑模式），协调者通过调用额外 agent 来升级。这保留了快速路径的效率，同时捕获需要更深分析的案例。

实施动态选择后，某系统的数据：85% 正确，10% 选少了（回答不完整），5% 选多了（轻微浪费）。10% 的选少驱动了客户投诉。

修复：分析选少的案例，识别模式（比如看起来是单关注点但实际是多关注点的请求），在协调者的 prompt 中加 few-shot 例子，示范这些常被误判模式的正确选择。方法对 85%+ 的案例有效——校准边缘情况就好，不要放弃整个方法。

不需要单独的分类器模型来做 agent 选择。协调者已经在分析查询做任务分解了——动态 agent 选择是这个分析的自然延伸。加一个分类器是重复工作，需要训练数据，还引入了误分类风险。

一句话总结： 分析每个查询、只委派需要的 agent——动态选择节省 53%+ 成本，简单查询延迟从 45 秒降到约 10 秒，初始评估低估复杂度时可以用两阶段委派来自适应。