AI开源项目 AI开源项目 AI数据集 数据集 自然语言处理
Common Crawl数据集

Common Crawl 是一个大型的非营利性网络爬虫项目,旨在抓取互联网上的网页数据并提供开源下载。这个数据集覆盖了广泛的领域,包括新闻、法律、维基百科和通用网络文档等。

标签:
广告也精彩
广告也精彩

Common Crawl 是一个大型的非营利性网络爬虫项目,旨在抓取互联网上的网页数据并提供开源下载。这个数据集覆盖了广泛的领域,包括新闻、法律、维基百科和通用网络文档等。

Common Crawl 的数据存储在Amazon Web Services上,并且可以通过其官方网站(https://commoncrawl.org/ )获取。该数据集包含大量的网页数据,但其质量参差不齐,因此在使用时需要进行仔细的处理。例如,在训练大型语言模型如GPT-3时,Common Crawl 数据经过过滤后仅保留了570GB的数据。

Common Crawl 数据集还衍生出了多个子数据集,如C4数据集,它是从Common Crawl中提取并经过预处理的纯英文版数据集。此外,Common Crawl 数据集也被用于生成高质量的地理空间数据集,如CC-GPX,这些数据集结合了用户生成的GPS文件和文本描述,用于研究户外活动模式。

尽管Common Crawl 数据集规模庞大且用途广泛,但也存在一些问题。例如,它包含大量不适当的内容,因此,研究人员和开发者在使用Common Crawl 数据时需要特别注意数据的质量和过滤问题。

Common Crawl数据集

 

来源:www.aiug.cn

相关导航