SuperCLUE评测体系是一个专注于中文大模型评测的开源工具,旨在通过多维度、多视角的评测体系真实反映大模型的通用能力。
发起机构与背景
SuperCLUE评测体系由清华大学、面壁智能、知乎等机构在OpenBMB开源社区共同构建。其前身可以追溯到第三方中文语言理解评估基准CLUE(The Chinese Language Understanding Evaluation),自2019年成立以来,CLUE基准一直致力于提供科学、客观、中立的语言模型评测。
评测特点
- 多维度综合性测评:SuperCLUE评测体系通过多个维度进行综合性测评,包括基础能力、专业能力和中文特性能力等。基础能力涵盖了语义理解、对话、逻辑推理等10项能力;专业能力包括中学、大学与专业考试,涵盖了数学、物理、地理到社会科学等50多项能力;中文特性能力则针对有中文特点的任务,如中文成语、诗歌等。
- 自动化评测技术:作为一个完全独立的第三方评测机构,SuperCLUE采用自动化评测技术,有效消除人为因素带来的不确定性,确保提供无偏倚的客观评测结果。
- 开放主观问题测评:为确保与真实用户体验一致,SuperCLUE纳入了开放主观问题的测评,通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型应用场景,真实有效考察模型生成能力。
- 多轮对话场景评测:SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。
评测数据集与任务
SuperCLUE的评测数据集包括2194题,涵盖计算、逻辑推理、代码、工具使用、知识百科、语言理解、长文本、角色扮演、生成与创作、安全十大基础任务。例如,在2024年4月的评测中,云知声山海大模型取得了总分69.51的优异成绩,跻身国内大模型Top10。在具有产业落地意义的长文本能力上,山海大模型取得了68.2分的优异成绩,位列全球大模型第四、国内大模型第三。
影响与意义
SuperCLUE评测体系为大模型的技术进步和应用提供了重要指导。通过对比不同模型在SuperCLUE评测体系中的表现,研究人员和开发者可以更加清晰地了解模型的优点和不足,进而针对性地进行优化和改进。同时,SuperCLUE评测体系也为大模型在产业落地提供了重要参考,有助于推动大模型技术的实际应用和产业化发展。
总之,SuperCLUE评测体系是一个全面、客观、公正的中文大模型评测工具,为大模型技术的研究和应用提供了有力支持。
数据统计
数据评估
关于SuperCLUE特别声明
本站智趣AI甄选提供的SuperCLUE都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由智趣AI甄选实际控制,在2024 年 6 月 30 日 下午7:10收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,智趣AI甄选不承担任何责任。
相关导航
一个开源的大模型能力评测体系,旨在全面量化评估大模型在知识、语言、理解、推理等方面的能力,并推动模型的迭代优化。
HELM
由斯坦福大学发起的,旨在通过多个维度和场景全面评估大语言模型能力,以推动技术进步和模型优化的评测基准。
FlagEval
一个全面、科学、公正的大模型评测体系及开放平台,旨在通过提供多维度评测工具和方法,帮助研究人员全方位评估基础模型及训练算法的性能。
MMBench
多模态基准测试框架,旨在全面评估和理解不同场景下多模态模型的性能,通过精心设计的评估流程和标注数据集,提供稳健和可靠的评测结果。
暂无评论...