数据质量评估工具Dingo介绍

Dingo是一款专门用于数据质量评估的工具,旨在自动检测数据集中的质量问题。它提供了多种内置检测规则和模型方法,并支持用户自定义检测方法,以满足不同场景的需求。

Dingo兼容多种数据集类型,包括自然语言处理NLP)数据集和多模态数据集,如预训练数据集、微调数据集和评估数据集。此外,Dingo还支持多种接口方式,包括本地CLI、SDK和RESTful API,使其能够方便地集成到各种评估平台中,例如OpenCompass和simple-evaluators。

在架构上,Dingo分为本地模式和Spark模式。在本地模式下,用户可以通过SDK调用或命令行工具(CLI)执行数据质量评估。而在Spark模式下,则需要创建SparkExecutor对象,设置SparkSession和DataFrame实例,然后执行规则并转换列表,最后总结并获取结果数据。

评估结果以summary.json文件的形式呈现,包含整体信息和详细信息。这些信息有助于用户全面了解数据质量状况,并采取相应的改进措施。

数据质量评估工具Dingo相关链接:

https://github.com/DataEval/dingo

来源:www.aiug.cn
声明:文章来源于网络,如有侵权请联系删除!