S4.5.1 Task 4.5

全量提交前永远先抽样测试——18% 失败 vs 3%

抽样测试模式

在向 Batch API 提交数千份文档之前,先在 20-50 份多样化的文档样本上测试 prompt。迭代到成功率超过目标(比如 95%+)。然后提交全量 batch。

方法失败率总成本
不做抽样测试18%$740
先抽样测试3%$519

省 30% 成本。每月 $8 的抽样投入在 6 个月内省了每月 $300 的重处理费用——37 倍 ROI。

样本选择很重要

选择覆盖边缘情况的多样化样本:长文档、短文档、缺失字段的文档、不同格式的文档。样本里只用简单/短文档会漏掉导致 batch 失败的边缘情况。

每个 Batch 都要测,即使 Prompt 已验证过

新的文档集可能包含以前没见过的格式变体。一个在供应商 A 的发票上完美运行的 prompt 可能在供应商 B 的发票上失败。每个 batch 都抽样测试,不只是新 prompt。

工作流

  1. 选取 batch 中的 20-50 份多样化文档
  2. 测试claude -p(同步,即时反馈)
  3. 迭代 修复失败——改 prompt,重新测试样本
  4. 提交 只在样本成功率达标后提交全量 batch
  5. 监控 batch 结果,把新的失败模式反馈回 prompt

一句话总结: 每个 batch 全量提交前都在 20-50 份多样化文档上抽样测试——$8 的投入避免了 $300 的重处理失败,37 倍回报。