K5.2.1 Task 5.2

基于情绪的升级:40% 的量,30% 需要人工。换掉它。

一个客服代理升级了 45% 的案例。分析发现:60% 的升级是代理本可以自行解决的常规问题。根因:升级触发器是”客户情绪为负面时升级”。有简单退货问题的愤怒客户被不必要地升级了。客户情绪与案例复杂度或代理的解决能力不相关。

四个可靠的触发器

触发器精度触发条件
客户明确要求人工95%“我要跟真人说话”
检测到政策空白88%政策中没有竞品价格匹配的规定
2 次尝试后无进展代理试了两次,没有解决
需要政策例外请求需要代理没有的权限

两个不可靠的触发器

触发器精度问题
负面情绪30%情绪 ≠ 复杂度。有简单问题的愤怒客户 = 不必要的升级
低模型置信度22%LLM 置信度校准差(K5.2.3)。对错误答案也高置信度。

一个月的数据:负面情绪导致了 40% 的升级,但只有 30% 真正需要人工。低置信度导致了 15% 的升级,但只有 22% 需要人工。用显式的可观测条件触发器替换两者。

明确要求时立即升级

当客户说”我要马上跟真人说话”,代理立即升级。不要”让我先试着解决一下”。不要”您愿意让我尝试修复吗?“哪怕问题只是简单的账单更正。

对于已经尝试过自动帮助的重复来电者,这尤其重要。覆盖他们的明确请求表明代理没在听——这是信任建立的反面。

政策空白需要升级,不是猜测

客户要求竞品价格匹配。政策覆盖了自家价格调整但对竞品匹配只字未提。代理不能:

  • 批准(没有权限制定政策)
  • 拒绝(没有权限制定政策)

必须升级。政策沉默意味着代理不知道答案。批准和拒绝都是未经授权的政策决定。

升级不足比升级过度更糟

5% 的升级率听起来不错。但复杂案例的客户满意度急剧下降。代理拒绝了需要政策例外的请求,对模糊政策做出了不正确的承诺,对人工本可批准的场景告诉客户”这不可能”。

触发器太窄(只有明确请求)会漏掉:政策空白、无法推进、需要政策例外。这些类别在代理没有权限的情况下处理,会产生差的客户结果。

金融合规:用编程而非 Prompt

超过 $500 的退款需要经理批准。Prompt 写了”超过 $500 时升级”。8% 的 >$500 退款仍然没有升级就被处理了。更强的 prompt 措辞(“你必须升级”)减少但无法消除故障。

对于合规要求:编程式 hook(PreToolUse)拦截退款工具调用,在金额超过 $500 时阻止执行。这提供了 prompt 指令无法保证的 100% 执行率。

无效的触发器

  • 客户情绪 — 与案例复杂度不相关
  • 客户价值层级 — 有简单问题的高价值客户更适合快速自动解决
  • 首次交互 — 大多数首次联系是常规查询
  • 模型置信度 — 校准差,不可靠的信号

一句话总结: 用四个显式条件——客户请求、政策空白、无进展、需要政策例外——替换情绪和置信度触发器,因为基于情绪的升级把 70% 不需要的案例送给人工,同时漏掉真正需要帮助的。