别把 Agent 当成「什么都能干」的万能体
我第一次刷 Domain 1 的时候几乎全错,因为我总是选「一个 Agent 加一堆工具」这个看起来最稳的答案。后来我改成先问「这段上下文应该由哪个 Agent 的 prompt 来承载」,编排题立刻就豁然开朗了。
agentfoxCCA 考生分享的架构智慧和考试策略。
我第一次刷 Domain 1 的时候几乎全错,因为我总是选「一个 Agent 加一堆工具」这个看起来最稳的答案。后来我改成先问「这段上下文应该由哪个 Agent 的 prompt 来承载」,编排题立刻就豁然开朗了。
agentfox之前我一直以代码是否分开来判断是不是 planner-executor 架构,其实考试关心的是上下文窗口有没有隔离。想通这点之后,原本纠结的两三道题一下就清楚了。
Jordan ParkDomain 1 里好几道题的关键就在于题干里那一句「循环终止条件」。如果你匆匆扫过,就很容易选上看起来最优雅、但不符合终止条件的答案。
mreyes复习时我不再画那种框框箭头的架构图,而是把每个场景的实际工具调用顺序写下来。这样特别容易看出在题目给的约束下,哪一步会先挂掉。
prompt_nomad我曾经一直把「子 Agent 返回给父 Agent」和「父 Agent 失去控制」混为一谈。后来花了一个晚上把 K1.2 的文章过了一遍,才意识到这是两种不同的失败模式,缓解方式也完全不一样。
kainoe第一次考试我 60% 左右,Domain 1 是最弱的一块。后来我没有再去补内容,而是反复刷场景题,直到我能在题目前两句话就猜出它想描述的是哪种失败模式。
Sasha Lindberg我以前把「做成无状态」当成万能选项。但是当题目明确说明用户会中途回来继续任务时,这个答案就会扣分。一定要读清楚用户交互是否跨 session。
devkai42在看选项之前,我会先问自己:这个场景里,到底是哪个组件在持有整个计划?仅凭这一个问题,我就能在几乎每道 Domain 1 的题里先排除两个错误答案。
runtime.rinDomain 2 特别爱问「同一个工具调用被触发两次会怎样」。如果你脑子里没有「幂等键」和「天然幂等」这两种思路,这几道题就白送给别人了。
tinytable我之前默认选「最灵活的那个 schema」,后来发现考试偏好的是能把模型约束到合法集合里的 schema。比起「任意字符串」,「五个 enum 之一」才是得分答案。
Priya Krishnan我 clone 了一个 MCP 示例,让它做一件很简单的事:换算汇率。亲手碰过 transport、schema 和错误路径之后,整个 Domain 2 突然就变得具体了。
jb.builds考试里至少有一道题的正确答案是「一个复合工具」,也至少有一道题的正确答案是「拆成几个小工具」。判断依据是:模型在两次调用之间是否需要做推理。
schema_samuraiHappy path 谁都会设计。我后来每刷一道题都先问「这个工具要怎么报告部分失败」,Domain 2 马上就变简单了。
Mei Takahashi有几道场景题的关键就是 transport。只要题目里出现「跨网络的托管环境」这类字眼,你就可以直接把所有含 stdio 的答案划掉。
r-ochoa我以前把 description 当作注释。错了,模型会读它。一半的「为什么模型不调用这个工具」类题目,答案都是「描述写得太含糊」。
toolsmith92比你想象中短。认真过一遍官方 spec 让我之前蒙的三道题直接变成送分题,尤其是初始化和 capability 协商那部分。
Lars Nordqvistpre-tool-use、post-tool-use、user-prompt-submit、session-start,这些事件名考试会直接考。如果你不能一眼说出哪个 hook 在工具调用前触发,送分题就没了。
hookmaster我之前把 CLAUDE.md 当作给人读的 README。错了,它是给 Agent 读的指令。「为什么 Claude Code 没有遵守 X 约定」这类题的答案,几乎都和 CLAUDE.md 写了什么或没写什么有关。
Rachel Wu有点套娃,但真的有用。我把这个站的知识文章丢给它,让它给我出题。之后 Domain 3 的题目对我来说不再是抽象概念。
ebenavidez前者是「可复用的 prompt 模板」,后者是「隔离的上下文」。想清楚什么时候用哪一个,Domain 3 会轻松很多。
claude.md.enjoyer我花了一周时间去真正配置一个 Claude Code 项目,而不是只看文章。settings、hook、subagent、permission,只要你自己被权限弹窗拦过一次,场景题的答案就写在脸上。
Ash Morgan题目里权限模式的措辞非常精确。不要看到「accept all」就当它是没有限制。对着准确的模式名去匹配具体行为才能拿分。
nia_rt用户级、项目级、本地覆盖,我总是记不清谁先谁后。考试里至少有一道题需要你推断 settings 的合并顺序。
cli_gremlin大概花了 20 分钟。之后好几道题对我来说都是送分题,因为我知道每个命令到底做什么,而不是对着名字猜。
Dimitri Volkov有一个常见的干扰项是「用 markdown 标题」。对 Claude 而言,官方推荐的就是 XML 标签。凡是涉及指令歧义的题目,正解多半是和 XML 标签相关的那个。
promptzen我在优化题上一直失分,因为我总是选「描述最详细」的那个答案。实际上在场景题里,简短、结构化的 prompt 几乎每次都胜过长段落。
Ayaka Tanaka我很长一段时间都以为缓存要整段 prompt 都一样。其实它是按前缀的。想通之后,那些「怎么降本」的题目全变成了送分题。
xtag_boss角色扮演式 prompt 有用但有上限。考试里至少有一道题的干扰项就是「加一个角色人设」,真正的正解往往是「加示例」或者「加结构」,而不是加人设。
lfranco不是死规则,但场景题问「应该放多少个示例」时,正解多半落在 3–5 之间。选项里那个「10 个以上」几乎总是陷阱。
Zuri OkaforDomain 4 里好几道题的关键是下游系统要怎么处理这段输出。如果是脚本要解析,JSON 或 XML 才是对的。不要因为「自然语言听起来友好」就选那个。
fewshot_fan我在自己的项目上用两个不同的 prompt 跑同一个任务,亲眼看着哪些改动真的改变了输出。原本抽象的「哪个更好」题就变成了「这个我见过」。
miguel-r知识文章里有一个结构:context、task、constraints、format、examples。我把自己生产里的每个 prompt 都按这个模板改了一遍。一周之后,Domain 4 对我来说就变简单了。
Olena Shevchenko至少会有一道题直接给你一堆数字,问你能不能塞进上下文窗口。别偷懒不算,只要你记得窗口大小,这就是纯送分。
tokenchef这题我栽过两次。问的是「最大响应长度」,我直接选了整个上下文窗口的大小。它们是两个不同的限制,都要记清楚。
Kenji Hara我写了一个非常简单的滑动窗口脚本,跑一段假的对话。只要你亲手思考过「我应该先丢掉哪一轮」,考试里的裁剪策略题就毫无悬念。
t_budget有的场景要抖动退避,有的要换 prompt 立即重试,有的根本不该重试。先看清楚题目描述的是哪种失败模式,再选答案。
nadia.dev上下文管理的题我之前一直在蒙。直到我把 K5.3 那篇裁剪策略文章从头到尾读了一遍。里面四种策略都很具体、很好记,我真应该一开始就读它。
Wren Callahan我以前逢题必选「全缓存」。但当场景描述的是「复用的前缀很短、变化的后缀很长」时,这个答案就会扣分。要知道缓存成本是不对称的。
pruner_peteDomain 5 里只要题目描述了一个线上事故,并问「什么东西能帮你定位这个问题」,答案几乎永远是「在工具调用边界打结构化日志」。
gm-tan我开了一个 Claude Code 的会话,就一直用下去,看着上下文压力警告一个个出现。「快满了」和「真的在裁剪」这两种状态的差异,没有任何文章能比亲眼看到更让人记得住。
Ingrid Sorensen当前分类暂无帖子。
"构建可持续的认知系统,始于理解推理循环与行动执行之间的隐式接口。"