C-Eval

4周前更新 38 0 0

由上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件,涵盖多领域、多难度级别的客观题评测,旨在衡量大模型在中文理解和推理方面的能力。

所在地:
中国
语言:
zh
收录时间:
2024-12-27
C-EvalC-Eval
C-Eval

发布背景与目的

C-Eval是一个全面的中文基础模型评估套件,由上海交通大学、清华大学和爱丁堡大学的研究人员在2023年5月联合推出。其发布的目的在于提供一个标准化的评测基准,帮助中文社区的大模型研发者不断打磨和迭代大模型。与国外的评测基准MMLU类似,C-Eval同样采用客观题评测方式,旨在衡量大模型在中文理解和推理方面的能力。

数据集构成

C-Eval数据集包含了13948个多项选择题,这些题目涵盖了52个不同的学科领域,并分为四个难度级别:初中、高中、大学和职业考试。这些学科领域包括STEM(科学、技术、工程和数学教育)、Social Science(社会科学)、Humanity(人文科学)以及其他学科(如环境、消防、税务、体育、医学等)。

每个学科领域的题目都拆分为三个数据集:dev、validation和test。其中,dev数据集包含五个示范实例以及为chain of thought格式提供的解释;validation数据集主要用于超参数评估,并给出了问题的答案;而test数据集则用于模型评估,其答案不公开,需要用户提交结果到官方网站才能获取测试结果。

评测方式与标准

C-Eval的评测方式主要基于两种提交模板:answer-only和chain-of-thought。Answer-only模板要求模型直接给出答案,而chain-of-thought模板则要求模型展示其推理过程并最终给出答案。这两种模板都支持zero-shot和few-shot两种模式。

在评测过程中,模型需要在给定的上下文范围内(如2048个字符的上下文)对题目进行理解和推理,并给出答案。评测结果将根据模型的答题正确率进行排名和打分。

特点与优势

  1. 全面性和多样性:C-Eval数据集涵盖了广泛的学科领域和难度级别,能够全面评估大模型在中文理解和推理方面的能力。
  2. 标准化和客观性:C-Eval采用客观题评测方式,避免了主观判断的影响,使得评测结果更加客观和可靠。
  3. 促进模型迭代:C-Eval的发布为中文社区的大模型研发者提供了一个标准化的评测基准,有助于他们不断打磨和迭代大模型,提高模型的性能和准确性。
  4. 防止过拟合:C-Eval在构造题目时尽可能选择非公开来源的试题,并避免使用真题,以减少模型过拟合的风险。

应用场景与影响

C-Eval的应用场景主要包括大模型的评测与迭代、学术研究以及教育领域的应用等。通过C-Eval的评测,可以客观地评估大模型在中文理解和推理方面的能力,并为模型的迭代和优化提供指导。同时,C-Eval也为学术研究提供了一个标准化的评测基准,有助于推动相关领域的研究进展。在教育领域,C-Eval可以作为一个辅助工具,帮助教师评估学生的学习情况和理解能力。

数据统计

数据评估

C-Eval浏览人数已经达到38,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:C-Eval的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找C-Eval的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于C-Eval特别声明

本站智趣AI甄选提供的C-Eval都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由智趣AI甄选实际控制,在2024 年 12 月 27 日 下午10:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,智趣AI甄选不承担任何责任。

相关导航

暂无评论

none
暂无评论...