Common Crawl - 是一个大型的非营利性网络爬虫项目

AI开源项目 AI开源项目 AI数据集数据集自然语言处理

Common Crawl数据集

Common Crawl 是一个大型的非营利性网络爬虫项目，旨在抓取互联网上的网页数据并提供开源下载。这个数据集覆盖了广泛的领域，包括新闻、法律、维基百科和通用网络文档等。

链接直达手机查看

Common Crawl 的数据存储在Amazon Web Services上，并且可以通过其官方网站（https://commoncrawl.org/ ）获取。该数据集包含大量的网页数据，但其质量参差不齐，因此在使用时需要进行仔细的处理。例如，在训练大型语言模型如GPT-3时，Common Crawl 数据经过过滤后仅保留了570GB的数据。

Common Crawl 数据集还衍生出了多个子数据集，如C4数据集，它是从Common Crawl中提取并经过预处理的纯英文版数据集。此外，Common Crawl 数据集也被用于生成高质量的地理空间数据集，如CC-GPX，这些数据集结合了用户生成的GPS文件和文本描述，用于研究户外活动模式。

尽管Common Crawl 数据集规模庞大且用途广泛，但也存在一些问题。例如，它包含大量不适当的内容，因此，研究人员和开发者在使用Common Crawl 数据时需要特别注意数据的质量和过滤问题。

相关导航

CVonline: Image Databases

CVonline: Image Databases是一个专门整理的图像和视频数据库，旨在为视觉研究和算法评估提供支持。该数据库涵盖了多个领域的数据集，包括但不限于动作数据库、农业、属性识别、自主驾驶、生物医学以及相机等方面

LightRAG

LightRAG是由中国香港大学研究团队推出的一种检索增强生成（Retrieval-Augmented Generation, RAG）系统，旨在提升大型语言模型（LLM）的准确性和上下文相关性。该系统通过图结构集成和双层知识检索，优化了信息检索的全面性和效率。

Emilia数据集

Emilia数据集是一个大规模、多语言和多样化的语音生成数据集，旨在支持大规模语音生成研究。

XAgent

XAgent是一个开源的基于大型语言模型（LLM）的自主智能体，可以自动解决各种任务。它被设计为一个通用的智能体，可以应用于各种任务。作为一个开源实验性大型语言模型（LLM）驱动的自主代理，其核心是利用先进的自然语言处理和机器学习技术，使其能够理解和生成人类语言，从而自动解决各种任务。

Moonshine

Moonshine是一款由Useful Sensors推出的开源语音识别模型，旨在为资源受限的设备提供高效、快速且准确的语音转文本服务。

MEAD

MEAD数据集是一个专注于情感谈话头部视频的大规模、高质量视听数据集。它包含了带有情绪类别和强度注释的高质量谈话头部视频，