K5.6.5 Task 5.6

内容类型与格式匹配:数字用表格,分析用散文

一份季度研究报告把 10 家公司的收入数据写成连续散文:“Company A 收入 $4.2M,Company B 收入 $3.8M,Company C……”利益相关者抱怨”数字很难读,也很难比较”。数据是对的。格式是错的。

同样的数据放进表格就能一扫而过。收入数字在列中对齐。公司在行中排列。之前需要几分钟心算的比较变成了视觉直读。

这就是内容类型与格式匹配:用最大化可读性的格式呈现每种类型的内容。

映射关系

内容类型最佳格式原因
财务对比表格行列对齐让跨实体比较一目了然
统计分类表格分类百分比需要对齐呈现
定性分析散文细微差别、论证结构和修辞需要段落
专家观点散文碎片化到表格单元格或列表项会丢失深度和上下文
事件时间线有序列表带日期的条目显示时间顺序和间隔
有争议的发现对比块多视角配逐来源归属

这个映射可以作为综合 prompt 中的一条简单指令来实现:“把财务对比渲染为表格,定性分析渲染为散文,时间线渲染为有序列表。“不需要 ML 模型,不需要每种格式配单独的代理。一个综合代理加上清晰的格式指导就够了。

为什么统一格式会失败

反模式:对所有内容类型使用相同格式。每种统一格式方案都有它处理不好的内容。

全用散文。 10 家公司 4 个季度的财务数据被埋在段落里。读者必须在阅读时心算出一张比较表。这是最常见的反模式,因为语言模型在没有明确格式指导时默认输出散文。

全用表格。 像”AI 与医疗的融合引发了复杂的伦理问题,需要在创新速度和患者安全之间审慎权衡”这样的专家观点,在表格单元格中失去了修辞结构。定性分析是论证性的——它通过连贯推理构建论点,表格会把这种推理切碎。

全用列表。 列表对某些内容有效,但对数字比较(丢失表格对齐)和叙事分析(丢失流畅性和思路衔接)都有损害。

全用 JSON。 机器可读但人不可读。报告是给人看的,不是给解析器的。

可读性影响

对照实验,同样的内容,不同的格式:

指标全用散文自适应格式
可读性评分3.2 / 54.6 / 5
”数据难以比较”投诉45%5%
提取关键发现的时间12 分钟4 分钟
内容/数据质量变化

没有改变任何内容。没有增删数据。可读性提升 44%、比较投诉减少 89%、洞察提取加速 67%,全部来自把格式匹配到内容类型。

混合内容报告

大多数研究报告包含多种内容类型。一份医疗 AI 综合报告可能包含:

  1. 临床试验结果,跨 8 项研究 → 表格(研究 × 指标)
  2. 专家访谈,关于伦理影响 → 散文(保留细微差别)
  3. 监管审批时间线有序列表(带日期的条目)
  4. 市场规模预测表格(年份 × 金额)

把四个都写成散文段落(没有明确指导时的默认做法)会把试验结果和市场数字埋在文本中,使快速比较变得不可能。

自适应方案为每个章节渲染最佳格式。报告在格式之间自然过渡——数据用表格,分析用散文,序列用列表。

实现:Prompt 级映射

自适应内容渲染不需要基础设施。综合 prompt 中的内容类型-格式映射就是最简单有效的方案:

渲染最终报告时:
- 财务对比和统计数据 → 表格
- 定性分析和专家观点 → 散文段落
- 时间事件 → 带日期的有序列表
- 有争议的发现 → 带逐来源归属的对比块

没有这个指导,模型默认输出散文。有了它,模型在综合时应用映射,为每种内容类型生成恰当格式的章节。

构建单独的 ML 内容分类器或为每种格式创建单独的综合代理是过度工程——明确的 prompt 指令就能解决的问题。一个综合代理加上清晰的格式映射指导就能高效处理所有内容类型。


一句话总结: 让每种内容类型匹配其自然格式——数字比较用表格,定性分析用散文,时间线用有序列表——因为同样的数据放在错误的格式中就变得不可读。