考试权重 15%
31 文章 · 6 任务
上下文管理与可靠性
Task 5.1 Progressive Summarization (7)
K5.1.1
arrow_forward
"$127.50 退款"变成了"客户请求退款"——结果处理了 $50
渐进式摘要与 Case Facts
K5.1.2
arrow_forward
来源 1-2:96%。来源 5-6:52%。来源 9-10:94%。U 形注意力曲线。
Lost-in-the-middle 效应
K5.1.3
arrow_forward
返回 40 个字段,需要 5 个——4 次调用就把上下文撑满了,本该能撑 11 次
工具输出膨胀与过滤
K5.1.4
arrow_forward
API 不记得你的对话——你必须每次都发送完整历史
无状态 API 与历史管理
S5.1.1
arrow_forward
前 10 轮:96% 准确率。31 轮后:58%。因为没有持久化事实块。
Case Facts 与 Issue Tracker 模式
S5.1.2
arrow_forward
没有 Tracker 时 28% 的问题被遗漏。有 Tracker 后:3%。
多问题跟踪
S5.1.3
arrow_forward
2,800 Token 的推理链 → 280 Token 的结构化事实。同样的发现,1/10 的上下文。
子代理结构化输出效率
Task 5.2 Escalation Triggers (5)
K5.2.1
arrow_forward
基于情绪的升级:40% 的量,30% 需要人工。换掉它。
升级触发器设计
K5.2.2
arrow_forward
"我要找人"→ 先尝试解决 → CSAT 2.1。立即升级 → 3.8。
明确请求时立即升级
K5.2.3
arrow_forward
高置信度(0.9+):12% 出错。低置信度(<0.5):68% 正确。这个信号坏了。
置信度分数不可靠
K5.2.4
arrow_forward
自动选"最近活跃":27% 选错人。要求提供邮箱:2%。
多匹配消歧
S5.2.1
arrow_forward
政策没提竞品比价 → 代理自行决定 → 52% 批准,48% 拒绝。同一种请求。
政策空白检测与升级
Task 5.3 Structured Error Context (5)
K5.3.1
arrow_forward
通用的"失败"→ 18% 恢复率。结构化错误 → 71%。
用结构化错误上下文实现恢复
K5.3.2
arrow_forward
"数据库错误"——编排器重试了 5 次。数据库早就永久下线了。
通用错误状态反模式
K5.3.3
arrow_forward
两种反模式叠加:35% 的报告有隐藏缺口,25% 的查询被直接杀掉
静默吞没 + 终止反模式
K5.3.4
arrow_forward
"不存在同行评审研究"——实际上,停机结束后找到了 47 篇论文
访问失败 vs 有效的空结果
S5.3.1
arrow_forward
"AI 对表演艺术影响很小"——其实是搜索超时了
综合中的覆盖度标注
Task 5.4 Context Degradation (5)
K5.4.1
arrow_forward
第 0 分钟:"src/auth/jwt.ts:12 → verifyJWT()"。第 45 分钟:"典型的 JWT 验证模式"。
上下文随时间退化
K5.4.2
arrow_forward
Scratchpad:在上下文遗忘之前把发现写下来
用 Scratchpad 持久化发现
K5.4.3
arrow_forward
子代理委派:让别人来装数据
子代理委派实现上下文隔离
K5.4.4
arrow_forward
崩溃恢复:一个 Manifest 文件让你不用从头开始
用 Manifest 实现崩溃恢复
S5.4.1
arrow_forward
保存、压缩、恢复:/compact 的三步工作流
/compact 保存 → 压缩 → 恢复
Task 5.5 Monitoring & Accuracy (4)
Task 5.6 Provenance & Source Mapping (5)