2025年5月25日

值得注意的内容：
- 数据年龄问题，表面上越新越好，训练数据比评估数据旧就会导致性能下降。
  - 但是，评估的内容是具有时间标签的，理所应当当然需要更新的模型来理解。
  - 时间退化概念，本文之前就有人提出，2022年。
- 领域覆盖：多样性很重要。
- 质量和毒性的影响：质量和毒性是两个维度，质量过滤很必要，毒性过滤不一定。
  - 质量是一个很复杂的概念，模型的毒性生成和毒性识别能力需要平衡。
附录里有很多很详细的内容，看不过来了。

论文基本信息

标题：A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity
标题中文翻译：预训练器的数据指南：衡量数据年龄、领域覆盖、质量和毒性的影响
作者：Shayne Longpre¹, Gregory Yauney², Emily Reif³, Katherine Lee²,³, Adam Roberts³, Barret Zoph⁴, Denny Zhou³, Jason Wei⁴, Kevin Robinson³, David Mimno², Daphne Ippolito³,⁵
发表时间：2024年6月16日-21日
发表地址：2024年北美计算语言学协会会议（NAACL），会议地点未明确。2024.naacl-long.179.pdf
互联网能查到的资料：论文发表于《2024年北美计算语言学协会会议：人类语言技术论文集（第1卷：长论文）》，会议论文集由计算语言学协会（ACL）出版，论文编号为2024.naacl-long.179。论文主要研究了预训练数据设计对模型性能的影响，包括数据的时效性、领域覆盖、质量和毒性等方面。
摘要中文翻译：预训练数据设计缺乏充分的记录，通常基于未经实证支持的直觉。我们对不同收集时间、不同毒性和质量过滤器以及不同领域组成的预训练模型进行了研究。首先，我们发现评估数据和预训练数据之间的时间差异会导致性能下降，这种下降无法通过微调来克服。其次，我们衡量了质量和毒性过滤器的效果，发现它们在标准基准测试和毒性生成风险之间存在权衡。我们还发现，不同类型过滤器的效果无法从文本领域特征中预测。第三，我们实证验证了异质性数据源（如书籍和网络）是有益的，并且值得更多优先考虑。迄今为止，这些实验是关于预训练数据影响的最大规模公开记录的实证研究，涵盖了28个独特的15亿参数模型，从头开始预训练。这些发现验证、量化并揭示了许多关于文本预训练的未记录直觉，最终支持在模型开发中做出更明智的数据中心决策。
- “不同过滤器的效果无法从文本领域特征中预测”，不是很明白这句话意思。
- 28个1.5B模型从头训练，使用小模型进行评测的结果能否应用到大模型上，这是个问题。
- 数据年龄、质量和毒性的权衡、异质性数据源，本文要点。

论文速读报告

研究背景与动机

背景：现代语言模型（LMs）的性能依赖于在大规模文本数据集上的自监督预训练。然而，预训练数据设计的决策过程往往缺乏充分记录，通常基于未经验证的直觉。这种“文档债务”使得从业者在数据选择和过滤上缺乏明确的指导。
动机：研究者希望通过系统地测试预训练数据的时间、领域、质量和毒性等因素对模型性能的影响，填补这一知识空白，并为未来的模型开发提供更科学的数据选择依据。

研究方法

实验设计：研究者选择了两个常见的预训练数据集——C4和The Pile，并基于以下三个维度进行实验：
1. 数据年龄：使用不同年份的Common Crawl快照创建C4的四个版本（2013年、2016年、2019年和2022年）。
2. 领域组成：将The Pile的22个数据源划分为9个部分（如Common Crawl、OpenWebText、书籍、维基百科等），逐一移除每个领域并评估对下游任务的影响。
3. 毒性和质量过滤器：使用基于文档级别的分类器过滤器，分别对毒性和质量进行过滤，并调整置信度阈值以展示不同强度的过滤效果。
模型与评估：使用1.5B参数的解码器仅Transformer语言模型（LM-XL），并在多个下游任务上评估模型性能，包括毒性识别、毒性生成、问答任务等。
- （这里可能存在问题，1.5B的模型是否太小以至于不能代表更大模型的预训练数据制备）

实验结果与关键结论

数据年龄的影响：预训练数据与评估数据之间的时间不匹配会导致性能下降，这种下降无法通过微调来完全克服。具体表现为：
- 时间退化（TD） ：预训练时间与评估时间之间的差异会导致性能下降，平均TD值为0.4，表明一年的时间差异会导致约4%的性能下降。
  
  （时间的概念：前朝剑不斩本朝官。但是要看评估数据的性质是否为“时变”（时效性）的。）
- 不对称性：当评估数据晚于预训练数据时，性能下降更为显著，表明模型和评估数据都会随着时间变得陈旧。
- 模型规模的影响：较大的模型（如LM-XL）比小模型（如LM-SMALL）更容易受到时间不匹配的影响，这可能是因为大模型对时间信息更敏感。
  
  （为什么大模型对时间更敏感？）
毒性和质量过滤器的影响：
- 质量过滤器：质量过滤器通过移除“低质量”文本，显著提高了模型在下游任务上的性能（如问答任务），尽管这减少了训练数据量。然而，质量过滤器也意外地增加了模型生成有毒内容的倾向。
  
  （为什么过滤低质量会增加生成有毒内容的倾向？是过滤效果不好吗？）
- 毒性过滤器：毒性过滤器通过移除“有毒”数据，减少了模型生成有毒内容的风险，但同时降低了模型在其他任务上的泛化性能。逆毒性过滤器（移除最不有毒的内容）在某些情况下表现出针对性的优势。
  
  （毒性内容也是世界一部分，危）
领域组成的影响：
- 最佳领域组合：包含高质量（书籍）和异质性（网络）数据的领域组合表现最佳。这些领域虽然包含更多有毒内容，但训练收益通常大于针对特定领域的数据收集。
  
  （专业和综合，两条腿走路）
- 数据多样性的价值：即使在1.5B参数的模型规模下，包含所有数据源的模型仍然表现最佳。这表明数据的多样性和质量是预训练的关键因素，即使某些数据源与下游任务的相关性较低。
  
  （与下游任务低相关性的数据也有必要，说明认识的完整性和直接性的对立统一）

研究意义与局限性

研究意义：这项研究是迄今为止关于预训练数据影响的最大规模公开记录的实证研究，涵盖了28个独特的15亿参数模型。其结果为预训练数据设计提供了实证支持，挑战了一些未经验证的假设，并为未来的模型开发提供了更明智的数据选择依据。

（实证、经验，再结合一点伦理和价值观讨论，大模型可以当文科来学了）
局限性：
- 数据集限制：研究仅限于两个英语预训练数据集（C4和The Pile），对于多语言和非英语模型的数据选择影响尚未探讨。
- 计算成本：预训练和评估的计算成本高昂，限制了实验的重复性和多样性。
- 过滤器的局限性：使用的毒性和质量过滤器基于分类器，可能存在偏差和不一致性。
  
  （质量分类其的不一致性是指什么？在不同数据源还是不同样本之间的不一致性，都有可能）
- 模型规模：研究仅涉及1.5B参数的模型，对于更大或更小模型的影响尚未充分探讨。
  
  （目前对于更大模型会采用退火实验评估数据，真正的大模型评估不现实，只有曲线形式实现，总结随模型规模变化的规律。）

1 引言

现代语言模型（LMs）的强大性能（Chowdhery 等人，2022；Nostalgebraist，2022；OpenAI，2023；Google，2023）和新兴能力（Wei 等人，2022）依赖于在大规模文本数据集上的自监督预训练。所有模型开发者都会隐式或显式地决定这些数据集的组成：包括哪些数据源、是否过滤质量或毒性等属性，以及何时收集新文档。尽管许多最突出的模型没有记录他们的策展程序（OpenAI，2023；Google，2023），或者只记录了他们使用了哪些程序（Brown 等人，2020；Nostalgebraist，2022；Scao 等人，2022；Touvron 等人，2023），他们很少记录为什么选择这些协议或这些选择产生了什么影响。这种文档债务让从业者被直觉和先例所引导，这些都没有经过彻底评估（Bandy 和 Vincent，2021；Sambasivam 等人，2021）。鉴于预训练数据在现代LMs中的过大且基础性的作用，我们认为这种做法已经从负责任的数据使用和阻碍了有效的模型开发（Rogers，2021；Gebru 等人，2021；Bender 和 Friedman，2018）中减损。在少数几个主导社区使用和讨论的通用LMs中，主要关注点一直是预训练数据的规模和优化步骤的数量（Brown 等人，2020；Nostalgebraist，2022；Google，2023）。在这项工作中，我们选择了三个常见的数据设计决策，并系统地测试它们如何影响模型性能——具体来说，我们选择收集时间、内容过滤策略（毒性/质量）和领域组成。我们通过两种方式研究影响。首先，我们展示现有质量和毒性过滤方法影响的观察性测量（第3节）。我们记录了这些过滤器如何影响两个主要预训练数据集C4（Raffel 等人，2020）和The Pile（Gao 等人，2020）的一系列特征。其次，我们通过评估每个在时间、毒性、质量或领域组成上修改的数据集上预训练的解码器仅自回归15B参数LMs，严格评估这些数据集决策对下游任务的影响。我们将我们的发现和建议总结给模型开发者如下：

数据集年龄（第4节）

当评估数据的年龄与预训练数据不匹配时，性能会下降，无论评估数据是更新还是更旧。这种现象即使通过大量的微调也无法消除，并且在更大的模型中更加明显。这种影响可能会显著复杂化新旧模型之间的比较：例如，冻结的基准数据集为在旧数据上预训练的模型提供了微妙的优势。

（那么，MMLU这个通用的评测集是什么时间的数据。测试模型数学能力总不需要考虑新旧吧？）

质量和毒性过滤器（第5节）

尽管定义文档质量和毒性很困难，大多数语言模型使用启发式方法来过滤质量和/毒性（见附录，表4）。我们评估了实践中最常用的内容过滤启发式，发现质量和毒性过滤对模型行为有显著但相反的影响。质量过滤，移除“低质量”文本，显著增加了我们测试的任务中的有毒生成和下游性能，尽管减少了训练数据量。相比之下，移除“有毒”数据以减少有毒生成为代价换取了泛化性能的降低。逆向毒性过滤器，移除预测毒性最低的内容，展示了针对性的好处。从数据集中移除低质量文本并不一定改善结果，尤其是在具有高质量文本的数据集上。质量过滤主要显示积极效果，但好处无法从文本特征中预测。这些发现表明，一个过滤器并不适合所有情况。实践者应该为他们的任务开发更有针对性的质量或逆向毒性过滤器。

领域组成（第6节）

表现最佳的领域包括高质量（书籍）和异质性（网络）数据，这证实了Brown 等人（2020）；Chowdhery 等人（2022）；Xie 等人（2023a）。然而，这些文本来源对有毒生成贡献最大。尽管如此，我们发现在这些数据源上训练的好处通常大于为特定领域收集数据，因此建议实践者将未来的收集重点放在多样化、经过良好编辑的数据上。此外，我们表现最佳的模型仍然使用所有数据源（即使在相对较小的15B参数规模下）；因此，我们建议实践者包括广泛的数据源，即使这些数据源与他们的下游任务的相关性较小（Madaan 等人，2022）。由于大多数社区已经采用了一组模型进行大多数研究和应用（BERT、T5、GPT-2、GPT-3），预训练数据策展决策具有长期影响。我们的发现通过实证量化、验证，并偶尔挑战一组根深植的未经检验的预训练假设。我们希望这些结果能更好地为训练下一代LMs的模型开发者提供信息，并为更多探索预训练决策树立先例。据我们所知，这些构成了关于预训练数据策展的最大规模公开记录的LM数据策展研究，涵盖了28个15B参数模型。虽然这些模型的计算成本很高（第8节），但我们认为不公开评估预训练决策的成本更大。

（数据收集应当多样化、经过良好编辑，这没有问题。高质量和异质性数据对有毒生成贡献最大，是说这些数据教会了模型生成有毒内容？这里的有毒内容是指哪些？成人、宗教、违禁品、暴力，还是都有？很可能有毒内容的判断是有问题的。）

2 方法论

2.1 预训练数据集

我们使用了两个常见的公开可用的预训练数据集：C4（Raffel 等人，2020）和The Pile（Gao 等人，2020）。这两个数据集都从启发式过滤开始，针对英语语言和内容质量；我们还进行了去重（Lee 等人，2022）。表4显示这两个数据集被广泛使用。许多其他的预训练实验仅限于使用这两个数据集中的一个（Dodge 等人，2021；Biderman 等人，2023；Webb 等人，2021；Xu 等人，2021）。

（待查：引用的去重方法是什么？）

2.2 预训练数据变化

我们基于三类干预评估预训练数据的变化：（1）为了测试预训练数据集年龄的影响，我们使用不同年份的Common Crawl快照创建了四个版本的C4：2013年、2016年、2019年和2022年。（2）为了检查预训练数据集的来源组成，我们将The Pile的22个不同来源划分为9个部分：Common Crawl、OpenWebText、书籍、维基百科、法律、社交、生物医学、学术和代码（见附录，表5）。然后我们逐一从The Pile中移除每个来源，并测量在各种QA任务中的性能变化。（3）为了检查毒性和质量过滤器的影响，现在预训练中的一个基本步骤（附录，表4），我们使用两个文档级别的基于分类器的过滤器，并改变置信度阈值以显示不同的过滤器强度。

质量过滤器 我们采用了PaLM和GLaM使用的专有质量过滤器，该过滤器为每个文档分配一个从0（高质量）到1（低质量）的分数。我们移除高于四个质量阈值的低质量文档：0.975、0.95、0.9、0.7。我们分别反转此过滤器，以移除低于阈值的最高质量文档。

（这个质量过滤器是什么原理构建的？）

毒性过滤器 我们使用Jigsaw的Perspective API²，该API在在线论坛的评论上进行了训练，并根据注释者是否发现评论包含亵渎/淫秽、基于身份的负面、侮辱或威胁来分配毒性分数。我们的实验包括五个不同的毒性阈值0.95、0.9、0.7、0.5和0.3，以及一个逆向过滤器，该过滤器移除预测毒性最低的文档。除了基于分类器的过滤器外，我们还实验了Raffel等人（2020）在C4数据集的原始版本中使用的基于n-gram的过滤器。此过滤器移除所有包含“肮脏、淘气、淫秽或其它不良词汇”列表中任何单词的文档。

2.3 评估

为了衡量时间、领域、质量和毒性的影响，我们评估了预训练模型在英语语言任务上的表现，包括毒性识别、毒性生成、来自不同领域的数十个问答（QA）任务，以及几个具有时间注释的任务（表1）。这些评估被选择是为了广泛理解数据集变化的影响。

为了评估领域泛化，我们结合了两个问答基准测试：机器阅读理解问答（MRQA）（Fisch 等人，2019）和UnifiedQA（Khashabi 等人，2020），它们共同包括27个独特的QA数据集，我们将这些数据集划分为领域类别（见附录，表9）。为了评估时间变化，Luu 等人（2022）发布了几个数据集，其中微调和评估时间之间的时间距离增加会降低测试性能。我们从不同领域中选择了这5个数据集，以评估预训练和评估时间之间是否存在类似现象：PubCLS、NewSum、PoliAff、TwiERC和AIC。

（用于评估数据年龄的几个评估数据集是什么内容？和时间有关吧？）

为了评估毒性生成倾向，我们使用RealToxicityPrompts基准测试（Gehman 等人，2020）和在Chowdhery 等人（2022）中使用的代表性偏见基准。为了评估模型识别有毒内容的能力，这在内容审核应用中至关重要（NYT，2020；Singh，2019），我们使用社会偏见框架（SBF，Sap 等人，2020）、DynaHate（DH，Vidgen 等人，2021）和Toxigen（Hartvigsen 等人，2022）。

3 数据策展对数据特征的影响

我们首先展示了关于预训练数据集本身的观察性统计数据。我们发现策展选择之间存在显著的相互作用。有关这些特征的更多细节，请参见附录E。

毒性与质量 图2显示，毒性和质量彼此之间出人意料地并不一致。在被分类为低质量与高质量内容之间，对于亵渎、毒性和色情内容的特征测量几乎没有明显差异。高毒性文档比低毒性文档具有更高的文本质量。这可以通过The Pile中的书籍子集具有更多的亵渎、有毒和色情内容，但同时也具有更高的预测质量来解释（见附录，图7）。虽然我们可能期望书籍在通常包含有意义、编辑良好的句子的意义上是高质量的，但它们也包含强烈的语言和色情主题。这可能也解释了为什么在C4和The Pile中被分类为高毒性的文档要长得多（分别是数据集平均值的2.5倍和3.5倍），更亵渎（5倍和4.4倍）、色情（4.6倍和4.2倍）和有毒（3.6倍和3.5倍）。

（可以理解，质量和毒性毕竟是两个维度，但是分类器的影响也不能忽略。）

The Pile中的领域 附录中的图7显示，OpenWeb提供了最多的词汇和语言多样性，具有最高的非ASCII字符和类型-标记比率。维基百科展示了最高质量的文本，其次是书籍和OpenWeb。技术领域如PubMed、代码和学术在预测质量上得分较低，表明对网络文档过于特定的正面定义过滤器可能会移除大量潜在有用的专业文本。

4 数据集年龄对预训练模型的影响

尽管模型经常且廉价地通过新的微调数据更新，但预训练的昂贵意味着自然语言处理社区依赖于相对较少的静态预训练模型，这些模型很少更新或交换。BERT、RoBERTa、GPT-2和T5变体，所有这些模型都在2020年之前预训练，构成了大多数（截至2023年4月16日估计约为58%）在Hugging Face上下载的模型。先前的研究表明，语言使用随时间变化（Altmann 等人，2009；Labov，2011），并且微调数据集和评估数据集之间的时间错配与性能下降相关，这种性能下降在不同设置和领域中都可见（Luu 等人，2022；Lazaridou 等人，2021；Agarwal 和 Nenkova，2022；Jang 等人，2022）。相比之下，我们研究了预训练数据和评估之间的时间错配的影响。在评估预训练时间对不同数据领域的影响时，我们可以广泛量化这一设计选择对自然语言处理的影响。

我们在C4的四个版本（2013年、2016年、2019年和2022年）上预训练了四个自回归语言模型，从Common Crawl数据开始，并移除所有在截止年份之后抓取的数据。遵循Luu 等人（2022），我们通过使用按年份分割的训练和测试集的评估任务来衡量时间错配的影响。预训练后，我们分别在每个数据集的训练年份分割上微调每个模型，然后在每个测试年份分割上评估。完整的细节和结果分别在附录D.2和附录F.1中。我们估计了预训练和评估之间时间错配的影响（附录，图9）。由于所有模型都在评估任务的训练集上进行了微调，我们展示了即使在时间相关的微调数据上，预训练期间的时间错配仍然存在。

性能下降与预训练错配强烈相关，其影响是显著的。Luu 等人（2022）形式化了时间退化（TD）的定义，该定义测量了微调年份和评估年份之间一年差异所观察到的性能变化。我们推广TD来也测量预训练时间和评估时间之间一年差异的影响，如附录D.2中所述。此外，我们量化了性能差异和时间差异之间关系强度，使用皮尔逊相关系数。在表2中，我们发现微调的时间退化最高（平均为2.8），这是预期的，但预训练一年的时间退化也相当高（0.4）——特别是对于新闻领域。平均皮尔逊相关系数为0.61，表明预训练时间错配和性能降低之间存在强相关性。所有五个任务都通过了单边Wald检验，p < 0.05，验证了这种影响是显著的。

（关于数据年龄的评估使用的数据也是带有时间标签的数据，评估需要先在训练集上微调然后测试。但是这个评估内容是什么？不得不看附录了）

预训练错配无法通过显著微调克服。 由于预训练导致的时间退化表明，预训练数据与目标评估时间框架相同的模型将比在更旧或更新数据上训练的模型具有优势。值得注意的是，即使在时间相关的训练集上进行了大量微调，这种影响仍然存在。这表明，即使是大量的微调也无法克服预训练数据的时间错配。

预训练错配的影响是不对称的，并对自然语言处理评估有影响。 图3总结了时间结果，每个结果都与一个评估数据集相关联，一个预训练年份，一个微调年份和一个评估年份。每个结果都与该数据集评估年份的最低性能（跨任何预训练和微调年份组合）的百分比改进进行比较。y轴上的零表示最低性能，点根据其相对于相应基线的改进百分比进行绘制。我们观察到，无论预训练数据是在评估数据之前还是之后收集，性能都会下降。虽然我们不会期望2019年的模型在COVID相关问题上表现良好，但我们也发现2022年的模型在奥巴马时代评估上的表现不如早期模型。

图3还显示，性能下降是不对称的：当评估年份在预训练年份之后时（蓝条），性能下降更陡峭，而不是反过来（红条）。这一发现表明，模型和评估都会随着时间变得陈旧：旧模型在新评估上的表现不如新模型，新模型在旧评估上的表现也会较差。可能的原因有很多；可能是因为训练数据集中来自与时间依赖任务相关年份的比例较低，或者可能是因为预训练数据中的事实发生了变化。无论原因如何，这种现象对比较不同时间预训练的模型的自然语言处理实验都有影响。例如，新的评估集可能在应用于已建立但较旧的模型时显得困难得多。同样，旧的评估可能低估了新模型的能力。

时间退化在更大模型中更为显著。 我们发现，对于具有1.5B参数的LM-XL模型，相比于具有20M参数的LM-SMALL模型，存在更多的时间退化。如表2所示，我们发现LM-SMALL模型的预训练并没有表现出与LM-XL模型相同的时间退化效应。这表明较大的模型可能对时间信息更敏感，而较小的模型可能根本没有能力利用这些微妙的时间特征。完整的LM-SMALL实验结果见附录F.1。

（20M参数的模型是不是太小了，能说明问题吗？本身1.5B模型就已经是小模型了）

5 质量和毒性过滤器对预训练模型的影响

大多数现代大型语言模型在它们的预训练数据集上使用某种形式的质量和/或毒性过滤（附录，表4）。为了减少毒性，T5使用n-gram过滤器；Gopher和Chinchilla使用SafeSearch过滤器；LaMDA使用“安全鉴别器”。质量启发式普遍应用于网络抓取的数据，更新的模型如LLaMA、GPT系列和PaLM系列都依赖于质量分类器。为了比较和量化这两种过滤器类型的效果，我们在第2节中描述的不同阈值上实施质量和毒性过滤器，以在预训练模型时在The Pile和C4上变化有毒和低质量文本的存在。

质量过滤器显著提高几乎所有任务的性能。尽管减少了训练数据的数量和多样性，质量过滤器仍然显著提高了几乎所有下游任务的性能：毒性识别提高了2%（图4，底部），大多数QA任务类别提高了1-6%（表3）。这些改进是在移除超过10%的训练数据的情况下实现的，尽管我们发现移除数据通常会导致性能下降（第6节）。虽然平均性能在T = 0.975时达到峰值，但更大的质量过滤仍然在平均上优于未过滤的基线。QA任务的性能在T = 0.975时达到峰值，更大的质量过滤仍然优于未过滤的基线。毒性识别的性能在T = 0.7之后仍在改善，其中55%的数据集已被过滤掉。

质量过滤器的效果因数据集而异。 在第3节中，书籍、维基百科和网络数据被分类为最高质量。表3显示，质量过滤对这些类别中的QA任务提供的益处最小，甚至损害了书籍的性能。学术和生物医学数据的初始估计质量较低，它们的QA任务从质量过滤中受益最大。当我们移除最高估计质量的文档时，维基百科和网络QA任务受到的影响最大，这表明这些领域不像最高质量数据的存在那样受到最低质量数据缺失的影响。出乎意料的是，质量和逆向质量过滤器都导致模型具有更高的毒性生成倾向（图4，底部）。不同数据段在这个分类器的质量谱上可以对不同领域产生强烈但不同的影响。“质量”是一个复杂的情况概念，对于一个度量来说可能不足以捕捉更广泛的人类价值观或实际目标。

毒性过滤导致毒性识别和毒性生成目标之间的权衡。 我们发现使用毒性分类器进行过滤会导致权衡：从大量过滤的预训练数据集中训练的模型具有最少的毒性生成，但也具有最差的毒性识别（图4，顶部）。同样，表3显示与毒性无关的QA任务的性能受到毒性过滤的影响，尽管这可能是由于训练数据总量减少。最终，毒性识别在每个数据集上的最佳性能来自逆向毒性过滤器。优化毒性领域的性能的实践者应有意应用逆向过滤器。

（可以理解，知己知彼，能生成毒性内容才能识别毒性内容。）

6 领域组成对预训练模型的影响

如附录表4所示，预训练数据集结合了多种数据源以广泛泛化。源领域的选择如何影响下游性能？我们通过逐一从The Pile中移除预训练来源，并测量在27个不同的问答任务中的性能变化来实证回答这个问题。

如第2节所述，我们将The Pile数据源划分为9个概念领域（见附录，表5），并将问答数据集划分为7个领域（见附录，表9）。我们选择保持源领域的大小差异，因为这反映了现实：策划的维基百科内容是有限的，而网络和书籍则更为丰富。预训练每个模型后，我们对自然问题进行微调以准备模型进行问答任务，然后在所有问答数据集上进行评估。详细信息见附录D.3。

Common Crawl、OpenWeb和书籍对下游性能有最强烈的正面影响。图5显示，当我们移除像CC、书籍和OpenWeb这样的基于网络的领域时，平均下游性能下降最多，这与Xie等人（2023a）的最新发现一致。这些来源在具有挑战性的常识和对比集任务上提高了性能。虽然CC是The Pile中最大的文本块，但书籍和OpenWeb更小但更多样化且质量更高（见第3节）。这些结果表明，异质性和质量的结合比原始数据集大小更具影响力。

领域异质性通常比目标数据更有益，即使对于目标评估也是如此。 当我们移除与预训练和下游数据源紧密对齐的领域时，性能会下降：移除PubMed会影响生物医学问答评估，移除维基百科会影响维基百科基准测试，移除网络内容会影响网络评估。然而，移除大型异质领域可能比目标领域有更大的影响。例如，从预训练中移除CC会更大程度地降低下游学术问答任务的性能，而不是移除学术领域。我们推测CC、OpenWeb和书籍涵盖了许多主题，因此移除学术特定类别的来源并不会移除所有相关的学术信息。

表现最佳的模型在所有数据源上进行预训练。 尽管数据异质性很重要，但最佳平均性能仍然来自在几乎所有可用数据上训练的模型。例外是移除目标源领域，如The Pile的代码或学术（高级科学和数学期刊）领域。这些领域都很大，但可能与问答评估集不太匹配，因为这些不需要超出维基百科和基于网络来源中找到的编码技能或科学严谨性。这一发现表明，开源数据的数量和多样性仍然是当前预训练方法的瓶颈。

（这里的异质性判断并不明晰，比如CC数据理论上包含了各种内容类型，维基百科也包含了各种领域，作者也没提到对这些数据做领域分类，只是根据数据源在做消融实验。当然多样性的重要性是显然的。）

网络和书籍领域在毒性识别和生成之间造成最大的权衡。 第5节确定了一种权衡：通过毒性分类器进行过滤会导致权衡：从大量过滤的预训练数据集中训练的模型具有最少的毒性生成，但也具有最差的毒性识别。附录表17显示，毒性生成和识别的最大减少是由于移除CC（数据的26.9%）、OpenWeb（6.9%）和书籍（6.9%）。这与我们观察到网络和书籍数据具有最多预测为有毒的文本一致。

7 数据源组成

我们发现，语料库应该尽可能多样化，但我们认识到这需要时间投入，并需要广泛的领域专业知识来确保质量。我们的结果显示，如果泛化是目标，并且未来的工作应该集中在收集更多多样化、高质量的网络和书籍内容，那么实践者不应省略任何数据源，因为这些内容带来了最大的好处。

过滤毒性和质量 Common Crawl包含大量有毒和低质量文本（如垃圾邮件、重复、非人类可读等）。许多最先进的语言模型在训练前过滤这些文本，使用不良词汇列表（Raffel 等人，2020）、启发式方法（Du 等人，2022）或分类器（Brown 等人，2020；Chowdhery 等人，2022）。决定过滤多少以及过滤哪种文本需要非平凡的规范性决策，这会影响其数据集的偏见，从而影响其模型。

在我们的实验中，我们揭示了模型泛化能力和生成毒性内容倾向之间的隐含权衡，由内容过滤器调节。事实上，过度采样更多有毒文档在毒性识别方面表现最佳。这一观察，结合最近使用事后方法减少不需要的毒性生成（例如指令调整（Chung 等人，2022）或可控解码器（Dathathri 等人，2020；Welbl 等人，2021））的证据，表明预训练应该针对毒性识别而不是减少毒性生成。

我们发现，我们的质量过滤器（与PaLM相同的过滤器，训练以保持内容类似于维基百科和书籍）显著提高了跨领域的性能，尽管移除了大部分训练数据。但令人惊讶的是，观察到的数据质量特征不足以预测哪些领域将从质量过滤中获益最多。我们的分析表明，任务/领域的性能不仅受到移除多少低质量数据（即不像维基百科/书籍的数据）的影响，还受到质量的其他方面的影响，例如在这个特定测量维度上最高或中等质量数据的代表性。

结论我们通过实证研究显示，预训练数据策展决策对数据集年龄、组成和内容过滤对下游性能有系统性影响。尽管我们选择了这些策展轴来分析当前广泛实践，但预训练数据的规模和多样性如此之大，以至于没有一篇论文可以涵盖所有可能的变化。我们希望本文为进一步将预训练数据属性与模型属性联系起来的工作提供了基础。

8 局限性

英语与多语言数据 我们的分析仅限于两个英语预训练数据集。值得注意的是，对于多语言和非英语模型，训练组成是一个更为关键的问题，其中在不同语言之间最优平衡语料库并找到足够大的高质量语料可能非常具有挑战性（Chung 等人，2023）。

尽管如此，我们的实验是公开可用的最全面的实验之一。预训练极其昂贵，我们评估了多个因素的交互作用，这些因素经过仔细选择，因为它们研究不足，我们缺乏对其影响的经验证据。每个因素都有多个选项，与其他特征在实验设计中的交互可能会对成本和运行时间产生指数级影响。先前的工作通常只研究Pile/C4中的一个（Dodge 等人，2021；Biderman 等人，2023；Webb 等人，2021；Xu 等人，2021）。我们希望未来的工作能研究额外的预训练数据集。

计算成本与单次实验 据我们所知，这是最大的公开记录的LM预训练数据消融研究，涵盖了28个1.5B参数模型——从零开始训练更多模型，比GLaM（Du 等人，2022）、miniBertas（Warstadt 等人，2020）、MultiBerts（Sellam 等人，2022）和Pythia（Biderman 等人，2023），后者专注于保留数据组成和顺序。重要的是要承认这些预训练，连同它们的相应微调和评估，在计算和环境成本上都很高。考虑到这一点，我们仔细决定进行哪些实验，缩小我们的实验列表：语料库的年龄、质量过滤器、毒性过滤器和源领域的选择。我们仔细策划了实验选择，没有多轮反思和重复的奢侈，这在许多NLP实验设置中很常见。因此，我们在计算成本和可重复性之间尽可能地取得了平衡。

质量与毒性过滤器 在整个论文中，我们将文档的“质量”和“毒性”纯粹作为分类器所做的决定，如先前工作（Brown 等人，2020；Chowdhery 等人，2022；Du 等人，2022；Touvron 等人，2023）中所用。然而，必须承认这些分类器是不完美的（Friedl，2023；Gargee 等人，2022；Lees 等人，2022），质量与毒性的基本定义在人类评判者中显示出高度差异（Cortes 和 Lawrence，2021）。尽管使用这些有限的定义可能会强化它们，但我们和其他人工作的明确结论是，单一测量每个指标不足以捕捉更广泛的人类价值观或实际目标。

黑盒API 我们的另一个限制是使用Perspective的API来评估生成的毒性。虽然我们的大多数毒性过滤器和评估都在压缩时间段内进行，Pozzobon 等人（2023）已经证明黑盒API的不可重复性，这可能会随着时间的推移而改变实现。我们还认为，尽管这是流行毒性生成基准测试如RealToxicityPrompts的标准程序，但依赖API和狭窄的评估设置可能对实际应用中的毒性生成有有限的影响。目前，这些是我们拥有的最佳代理。

可重复性 由于组织限制，我们无法在这些实验中发布训练的模型或代码。作为这项工作的核心目标是为文档不足的实践带来更大的共享知识和经验分析，我们当然觉得这种限制是不幸的和次优的。尽管如此，我们已经仔细记录了预训练、微调和评估中的所有超参数，并使用了（几乎完全）公开可用的数据和评估。我们希望这种仔细的文档可以提高这些实验的可重复性，并会捍卫其作为在提高对文档不足预训练实践的可见性和理解方面的重大贡献。

与零次和少次提示设置的相关性 我们的实验侧重于微调设置，而不是零次或少次提示。这一选择的动机是微调对于1.5B参数模型更适用，并且在许多应用设置中。

（这里说的是评估过程使用微调完成吧，测得不是零样本能力。）

新的和当代数据 在我们工作的同时，新的预训练数据集已经发布：MPT（Team，2023）、RefinedWeb（Penedo等人，2023）、RedPajama（Computer，2023）和Dolma（Soldaini等人，2024）。我们期望我们的发现能够推广，因为这些数据集包含了与C4和The Pile大致相同的成分。

六狼博客

【202406】预训练器的数据指南：衡量数据年龄、领域覆盖、质量和毒性的影响