基于情绪的升级：40% 的量，30% 需要人工。换掉它。 | 上下文管理与可靠性

一个客服代理升级了 45% 的案例。分析发现：60% 的升级是代理本可以自行解决的常规问题。根因：升级触发器是”客户情绪为负面时升级”。有简单退货问题的愤怒客户被不必要地升级了。客户情绪与案例复杂度或代理的解决能力不相关。

四个可靠的触发器

触发器	精度	问题
负面情绪	30%	情绪 ≠ 复杂度。有简单问题的愤怒客户 = 不必要的升级
低模型置信度	22%	LLM 置信度校准差（K5.2.3）。对错误答案也高置信度。

一个月的数据：负面情绪导致了 40% 的升级，但只有 30% 真正需要人工。低置信度导致了 15% 的升级，但只有 22% 需要人工。用显式的可观测条件触发器替换两者。

当客户说”我要马上跟真人说话”，代理立即升级。不要”让我先试着解决一下”。不要”您愿意让我尝试修复吗？“哪怕问题只是简单的账单更正。

对于已经尝试过自动帮助的重复来电者，这尤其重要。覆盖他们的明确请求表明代理没在听——这是信任建立的反面。

客户要求竞品价格匹配。政策覆盖了自家价格调整但对竞品匹配只字未提。代理不能：

必须升级。政策沉默意味着代理不知道答案。批准和拒绝都是未经授权的政策决定。

5% 的升级率听起来不错。但复杂案例的客户满意度急剧下降。代理拒绝了需要政策例外的请求，对模糊政策做出了不正确的承诺，对人工本可批准的场景告诉客户”这不可能”。

触发器太窄（只有明确请求）会漏掉：政策空白、无法推进、需要政策例外。这些类别在代理没有权限的情况下处理，会产生差的客户结果。

超过 $500 的退款需要经理批准。Prompt 写了”超过 $500 时升级”。8% 的 >$500 退款仍然没有升级就被处理了。更强的 prompt 措辞（“你必须升级”）减少但无法消除故障。

对于合规要求：编程式 hook（PreToolUse）拦截退款工具调用，在金额超过 $500 时阻止执行。这提供了 prompt 指令无法保证的 100% 执行率。

一句话总结： 用四个显式条件——客户请求、政策空白、无进展、需要政策例外——替换情绪和置信度触发器，因为基于情绪的升级把 70% 不需要的案例送给人工，同时漏掉真正需要帮助的。