
FlagEval
一个全面、科学、公正的大模型评测体系及开放平台,旨在通过提供多维度评测工具和方法,帮助研究人员全方位评估基础模型及训练算法的性能。
SuperCLUE评测体系是一个专注于中文大模型评测的开源工具,旨在通过多维度、多视角的评测体系真实反映大模型的通用能力。
SuperCLUE评测体系由清华大学、面壁智能、知乎等机构在OpenBMB开源社区共同构建。其前身可以追溯到第三方中文语言理解评估基准CLUE(The Chinese Language Understanding Evaluation),自2019年成立以来,CLUE基准一直致力于提供科学、客观、中立的语言模型评测。
SuperCLUE的评测数据集包括2194题,涵盖计算、逻辑推理、代码、工具使用、知识百科、语言理解、长文本、角色扮演、生成与创作、安全十大基础任务。例如,在2024年4月的评测中,云知声山海大模型取得了总分69.51的优异成绩,跻身国内大模型Top10。在具有产业落地意义的长文本能力上,山海大模型取得了68.2分的优异成绩,位列全球大模型第四、国内大模型第三。
SuperCLUE评测体系为大模型的技术进步和应用提供了重要指导。通过对比不同模型在SuperCLUE评测体系中的表现,研究人员和开发者可以更加清晰地了解模型的优点和不足,进而针对性地进行优化和改进。同时,SuperCLUE评测体系也为大模型在产业落地提供了重要参考,有助于推动大模型技术的实际应用和产业化发展。
总之,SuperCLUE评测体系是一个全面、客观、公正的中文大模型评测工具,为大模型技术的研究和应用提供了有力支持。