全量提交前永远先抽样测试——18% 失败 vs 3% | 提示工程与优化

抽样测试模式

在向 Batch API 提交数千份文档之前，先在 20-50 份多样化的文档样本上测试 prompt。迭代到成功率超过目标（比如 95%+）。然后提交全量 batch。

方法	失败率	总成本
不做抽样测试	18%	$740
先抽样测试	3%	$519

省 30% 成本。每月 $8 的抽样投入在 6 个月内省了每月 $300 的重处理费用——37 倍 ROI。

选择覆盖边缘情况的多样化样本：长文档、短文档、缺失字段的文档、不同格式的文档。样本里只用简单/短文档会漏掉导致 batch 失败的边缘情况。

新的文档集可能包含以前没见过的格式变体。一个在供应商 A 的发票上完美运行的 prompt 可能在供应商 B 的发票上失败。每个 batch 都抽样测试，不只是新 prompt。

一句话总结： 每个 batch 全量提交前都在 20-50 份多样化文档上抽样测试——$8 的投入避免了 $300 的重处理失败，37 倍回报。