SuperCLUE

10个月前发布 1,283 0 0

一个针对中文大模型的综合性评测工具，通过多维度、多视角的评测体系真实反映大模型的通用能力，助力技术进步和产业化发展。

所在地：

中国

语言：

收录时间：

2024-06-30

打开网站手机查看

能力评测 # 大模型评测

SuperCLUE

打开网站

SuperCLUE评测体系是一个专注于中文大模型评测的开源工具，旨在通过多维度、多视角的评测体系真实反映大模型的通用能力。

发起机构与背景

SuperCLUE评测体系由清华大学、面壁智能、知乎等机构在OpenBMB开源社区共同构建。其前身可以追溯到第三方中文语言理解评估基准CLUE（The Chinese Language Understanding Evaluation），自2019年成立以来，CLUE基准一直致力于提供科学、客观、中立的语言模型评测。

评测特点

多维度综合性测评：SuperCLUE评测体系通过多个维度进行综合性测评，包括基础能力、专业能力和中文特性能力等。基础能力涵盖了语义理解、对话、逻辑推理等10项能力；专业能力包括中学、大学与专业考试，涵盖了数学、物理、地理到社会科学等50多项能力；中文特性能力则针对有中文特点的任务，如中文成语、诗歌等。
自动化评测技术：作为一个完全独立的第三方评测机构，SuperCLUE采用自动化评测技术，有效消除人为因素带来的不确定性，确保提供无偏倚的客观评测结果。
开放主观问题测评：为确保与真实用户体验一致，SuperCLUE纳入了开放主观问题的测评，通过多维度多视角多层次的评测体系以及对话的形式，真实模拟大模型应用场景，真实有效考察模型生成能力。
多轮对话场景评测：SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果，对大模型的上下文、记忆、对话能力全方位评测。

评测数据集与任务

SuperCLUE的评测数据集包括2194题，涵盖计算、逻辑推理、代码、工具使用、知识百科、语言理解、长文本、角色扮演、生成与创作、安全十大基础任务。例如，在2024年4月的评测中，云知声山海大模型取得了总分69.51的优异成绩，跻身国内大模型Top10。在具有产业落地意义的长文本能力上，山海大模型取得了68.2分的优异成绩，位列全球大模型第四、国内大模型第三。

影响与意义

SuperCLUE评测体系为大模型的技术进步和应用提供了重要指导。通过对比不同模型在SuperCLUE评测体系中的表现，研究人员和开发者可以更加清晰地了解模型的优点和不足，进而针对性地进行优化和改进。同时，SuperCLUE评测体系也为大模型在产业落地提供了重要参考，有助于推动大模型技术的实际应用和产业化发展。

总之，SuperCLUE评测体系是一个全面、客观、公正的中文大模型评测工具，为大模型技术的研究和应用提供了有力支持。

数据统计

暂无评论

暂无评论...

SuperCLUE

发起机构与背景

评测特点

评测数据集与任务

影响与意义

数据统计

相关导航

FlagEval

HELM

C-Eval

AGI-Eval评测社区

MMBench

OpenCompass

暂无评论

最新文章

热门网址

SuperCLUE

发起机构与背景

评测特点

评测数据集与任务

影响与意义

数据统计

相关导航

FlagEval

HELM

C-Eval

AGI-Eval评测社区

MMBench

OpenCompass

暂无评论

最新文章

热门网址

标签云