The Pile是一个由EleutherAI提供的825 GiB大小的多样化、开源语言建模数据集,它由22个较小的、高质量的数据集组合而成。这些子集包括书籍、新闻、维基百科、GitHub代码、科学论文和对话记录等,每个子集都具有其独特性。