K4.5.5 Task 4.5

不同错误需要不同修复——别重新提交整个 Batch

错误分布模式

典型的 batch 失败分布:

  • 60% 上下文超限 → 对文档分块
  • 25% 格式错误的输入 → 修正请求数据
  • 15% 瞬态/过期 → 原样重试

不分类地对待所有错误(盲目重试)会复现那 60% 的上下文错误和 25% 的格式错误。只有 15% 的瞬态故障能从不修改的重试中受益。

取消能省钱

如果 batch 的早期结果暴露出系统性的 prompt 错误(比如用了错误的提取 schema),在整个 batch 跑完之前取消。用一个已知有问题的 prompt 处理剩余 90% 的请求,浪费的是全部成本。

恢复时间预算

30 小时 SLA 下:

  • Batch 处理:最多 24 小时(最差情况)
  • 恢复窗口:6 小时
  • 策略:每 4-6 小时提交一次 batch,在 SLA 内留出一整轮恢复的时间

全量提交前先抽样测试

在提交数千份文档前,先在 20-50 份多样化的文档样本上测试 prompt。一个团队的对比:

  • 不做抽样测试:18% 失败率,总成本 $740
  • 做了抽样测试:3% 失败率,总成本 $519(省 30%)

每月 $8 的抽样投入省了每月 $300 的重处理费用——37 倍 ROI。


一句话总结: 先在 20-50 份文档样本上测试(37 倍 ROI),尽早取消有系统性错误的 batch,按错误类型分别修复,在 SLA 内为一轮恢复留出时间预算。