抽样测试模式
在向 Batch API 提交数千份文档之前,先在 20-50 份多样化的文档样本上测试 prompt。迭代到成功率超过目标(比如 95%+)。然后提交全量 batch。
| 方法 | 失败率 | 总成本 |
|---|---|---|
| 不做抽样测试 | 18% | $740 |
| 先抽样测试 | 3% | $519 |
省 30% 成本。每月 $8 的抽样投入在 6 个月内省了每月 $300 的重处理费用——37 倍 ROI。
样本选择很重要
选择覆盖边缘情况的多样化样本:长文档、短文档、缺失字段的文档、不同格式的文档。样本里只用简单/短文档会漏掉导致 batch 失败的边缘情况。
每个 Batch 都要测,即使 Prompt 已验证过
新的文档集可能包含以前没见过的格式变体。一个在供应商 A 的发票上完美运行的 prompt 可能在供应商 B 的发票上失败。每个 batch 都抽样测试,不只是新 prompt。
工作流
- 选取 batch 中的 20-50 份多样化文档
- 测试 用
claude -p(同步,即时反馈) - 迭代 修复失败——改 prompt,重新测试样本
- 提交 只在样本成功率达标后提交全量 batch
- 监控 batch 结果,把新的失败模式反馈回 prompt
一句话总结: 每个 batch 全量提交前都在 20-50 份多样化文档上抽样测试——$8 的投入避免了 $300 的重处理失败,37 倍回报。