SuperCLUE

10个月前发布 1,283 0 0

一个针对中文大模型的综合性评测工具,通过多维度、多视角的评测体系真实反映大模型的通用能力,助力技术进步和产业化发展。

所在地:
中国
语言:
zh
收录时间:
2024-06-30
SuperCLUESuperCLUE

SuperCLUE评测体系是一个专注于中文大模型评测的开源工具,旨在通过多维度、多视角的评测体系真实反映大模型的通用能力。

发起机构与背景

SuperCLUE评测体系由清华大学、面壁智能、知乎等机构在OpenBMB开源社区共同构建。其前身可以追溯到第三方中文语言理解评估基准CLUE(The Chinese Language Understanding Evaluation),自2019年成立以来,CLUE基准一直致力于提供科学、客观、中立的语言模型评测。

评测特点

  1. 多维度综合性测评:SuperCLUE评测体系通过多个维度进行综合性测评,包括基础能力、专业能力和中文特性能力等。基础能力涵盖了语义理解、对话、逻辑推理等10项能力;专业能力包括中学、大学与专业考试,涵盖了数学、物理、地理到社会科学等50多项能力;中文特性能力则针对有中文特点的任务,如中文成语、诗歌等。
  2. 自动化评测技术:作为一个完全独立的第三方评测机构,SuperCLUE采用自动化评测技术,有效消除人为因素带来的不确定性,确保提供无偏倚的客观评测结果。
  3. 开放主观问题测评:为确保与真实用户体验一致,SuperCLUE纳入了开放主观问题的测评,通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型应用场景,真实有效考察模型生成能力。
  4. 多轮对话场景评测:SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。

评测数据集与任务

SuperCLUE的评测数据集包括2194题,涵盖计算、逻辑推理、代码、工具使用、知识百科、语言理解、长文本、角色扮演、生成与创作、安全十大基础任务。例如,在2024年4月的评测中,云知声山海大模型取得了总分69.51的优异成绩,跻身国内大模型Top10。在具有产业落地意义的长文本能力上,山海大模型取得了68.2分的优异成绩,位列全球大模型第四、国内大模型第三。

影响与意义

SuperCLUE评测体系为大模型的技术进步和应用提供了重要指导。通过对比不同模型在SuperCLUE评测体系中的表现,研究人员和开发者可以更加清晰地了解模型的优点和不足,进而针对性地进行优化和改进。同时,SuperCLUE评测体系也为大模型在产业落地提供了重要参考,有助于推动大模型技术的实际应用和产业化发展。

总之,SuperCLUE评测体系是一个全面、客观、公正的中文大模型评测工具,为大模型技术的研究和应用提供了有力支持。

数据统计

相关导航

暂无评论

none
暂无评论...