错误分布模式
典型的 batch 失败分布:
- 60% 上下文超限 → 对文档分块
- 25% 格式错误的输入 → 修正请求数据
- 15% 瞬态/过期 → 原样重试
不分类地对待所有错误(盲目重试)会复现那 60% 的上下文错误和 25% 的格式错误。只有 15% 的瞬态故障能从不修改的重试中受益。
取消能省钱
如果 batch 的早期结果暴露出系统性的 prompt 错误(比如用了错误的提取 schema),在整个 batch 跑完之前取消。用一个已知有问题的 prompt 处理剩余 90% 的请求,浪费的是全部成本。
恢复时间预算
30 小时 SLA 下:
- Batch 处理:最多 24 小时(最差情况)
- 恢复窗口:6 小时
- 策略:每 4-6 小时提交一次 batch,在 SLA 内留出一整轮恢复的时间
全量提交前先抽样测试
在提交数千份文档前,先在 20-50 份多样化的文档样本上测试 prompt。一个团队的对比:
- 不做抽样测试:18% 失败率,总成本 $740
- 做了抽样测试:3% 失败率,总成本 $519(省 30%)
每月 $8 的抽样投入省了每月 $300 的重处理费用——37 倍 ROI。
一句话总结: 先在 20-50 份文档样本上测试(37 倍 ROI),尽早取消有系统性错误的 batch,按错误类型分别修复,在 SLA 内为一轮恢复留出时间预算。