FlagEval - 是由北京智源人工智能研究院推出的大模型评测体系及开放平台

AI社区

FlagEval

FlagEval是由北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法和工具集，协助研究人员全方位评估基础模型及训练算法的性能。

标签：FlagEval 大模型评测体系大模型评测平台

链接直达手机查看

什么是FlagEval

FlagEval地址：https://flageval.baai.ac.cn/#/home

FlagEval平台的主要功能和特点如下：

多领域支持：FlagEval涵盖了广泛的AI任务，支持多个领域的评测。
标准化评测方法：通过“能力-任务-指标”三维评测框架，从多个维度全面评估大模型的认知能力，确保评测过程的公平性和一致性。
详细的性能报告和可视化工具：提供详细的性能报告和可视化工具，帮助用户深入理解模型的表现。
科学评测框架：采用大量的数据和技术手段来保证模型评测的科学性和公正性，减少主观评测的影响。
丰富的评测数据集：包含6大评测任务，20多个评测数据集，80k+评测题目，覆盖了包括HellaSwag、MMLU、C-Eval等知名公开数据集以及智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC) 。
鲁棒性评测：新增了大模型鲁棒性评测方案，针对当前主流模型进行初步评测，评估模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时的稳定性和高效性。
透明的评测过程：统一评测“起跑线”，力求过程公平、结果公正，是FlagEval一贯的“金标准”。

FlagEval通过其科学、全面和公正的评测体系，为大模型的评测提供了强有力的支持和保障。