发布背景与目的
C-Eval是一个全面的中文基础模型评估套件,由上海交通大学、清华大学和爱丁堡大学的研究人员在2023年5月联合推出。其发布的目的在于提供一个标准化的评测基准,帮助中文社区的大模型研发者不断打磨和迭代大模型。与国外的评测基准MMLU类似,C-Eval同样采用客观题评测方式,旨在衡量大模型在中文理解和推理方面的能力。
数据集构成
C-Eval数据集包含了13948个多项选择题,这些题目涵盖了52个不同的学科领域,并分为四个难度级别:初中、高中、大学和职业考试。这些学科领域包括STEM(科学、技术、工程和数学教育)、Social Science(社会科学)、Humanity(人文科学)以及其他学科(如环境、消防、税务、体育、医学等)。
每个学科领域的题目都拆分为三个数据集:dev、validation和test。其中,dev数据集包含五个示范实例以及为chain of thought格式提供的解释;validation数据集主要用于超参数评估,并给出了问题的答案;而test数据集则用于模型评估,其答案不公开,需要用户提交结果到官方网站才能获取测试结果。
评测方式与标准
C-Eval的评测方式主要基于两种提交模板:answer-only和chain-of-thought。Answer-only模板要求模型直接给出答案,而chain-of-thought模板则要求模型展示其推理过程并最终给出答案。这两种模板都支持zero-shot和few-shot两种模式。
在评测过程中,模型需要在给定的上下文范围内(如2048个字符的上下文)对题目进行理解和推理,并给出答案。评测结果将根据模型的答题正确率进行排名和打分。
特点与优势
- 全面性和多样性:C-Eval数据集涵盖了广泛的学科领域和难度级别,能够全面评估大模型在中文理解和推理方面的能力。
- 标准化和客观性:C-Eval采用客观题评测方式,避免了主观判断的影响,使得评测结果更加客观和可靠。
- 促进模型迭代:C-Eval的发布为中文社区的大模型研发者提供了一个标准化的评测基准,有助于他们不断打磨和迭代大模型,提高模型的性能和准确性。
- 防止过拟合:C-Eval在构造题目时尽可能选择非公开来源的试题,并避免使用真题,以减少模型过拟合的风险。
应用场景与影响
C-Eval的应用场景主要包括大模型的评测与迭代、学术研究以及教育领域的应用等。通过C-Eval的评测,可以客观地评估大模型在中文理解和推理方面的能力,并为模型的迭代和优化提供指导。同时,C-Eval也为学术研究提供了一个标准化的评测基准,有助于推动相关领域的研究进展。在教育领域,C-Eval可以作为一个辅助工具,帮助教师评估学生的学习情况和理解能力。
数据统计
数据评估
关于C-Eval特别声明
本站智趣AI甄选提供的C-Eval都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由智趣AI甄选实际控制,在2024 年 12 月 27 日 下午10:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,智趣AI甄选不承担任何责任。
相关导航
专注于评估大模型在人类认知与问题解决任务中通用能力的综合性评测平台,由知名高校与机构联合打造,提供多元化评测方式与权威排名,助力AI技术发展与应用。
SuperCLUE
一个针对中文大模型的综合性评测工具,通过多维度、多视角的评测体系真实反映大模型的通用能力,助力技术进步和产业化发展。
MMBench
多模态基准测试框架,旨在全面评估和理解不同场景下多模态模型的性能,通过精心设计的评估流程和标注数据集,提供稳健和可靠的评测结果。
FlagEval
一个全面、科学、公正的大模型评测体系及开放平台,旨在通过提供多维度评测工具和方法,帮助研究人员全方位评估基础模型及训练算法的性能。
OpenCompass
一个开源的大模型能力评测体系,旨在全面量化评估大模型在知识、语言、理解、推理等方面的能力,并推动模型的迭代优化。
HELM
由斯坦福大学发起的,旨在通过多个维度和场景全面评估大语言模型能力,以推动技术进步和模型优化的评测基准。
暂无评论...