行业观察
快讯
商业
人物
报告
科普
全球智库
产业融合
行业新锐
福布斯AI50强
福布斯中国AI50强
大模型备案查询
大模型测评榜单
CompassRank榜单
FlagEval榜单
HELM榜单
SuperCLUE榜单
排行榜
全网热点
行业观察
全部
快讯
商业
人物
报告
科普
最新收录
产品精选
热门产品
国内精选
国外精选
分类推荐
AI办公
AI聊天
AI图像
AI设计
AI视频
AI音频
AI写作
AI翻译
AI编程
AI数字人
AI助手
AI法律
产业融合
智能制造
智慧农业
智能汽车
智能医疗
智慧金融
智慧安防
智能终端
智慧金融
智慧能源
智能建筑
智慧教育
智能服务
AI公司甄选
行业新锐
福布斯AI50强(2024)
福布斯中国AI50强(2024)
大模型
能力评测
书籍推荐
热门APP
课程学习
开源项目
能力评测
共 5 篇网址
热门产品
国内精选
国外精选
分类推荐
产业融合
课程学习
开源项目
大模型
能力评测
AI公司甄选
最新收录
排序
发布
更新
浏览
点赞
MMBench
多模态基准测试框架,旨在全面评估和理解不同场景下多模态模型的性能,通过精心设计的评估流程和标注数据集,提供稳健和可靠的评测结果。
0
20
0
能力评测
# 多模态评估
# 测试框架
HELM
由斯坦福大学发起的,旨在通过多个维度和场景全面评估大语言模型能力,以推动技术进步和模型优化的评测基准。
0
66
0
能力评测
# 大模型评测
OpenCompass
一个开源的大模型能力评测体系,旨在全面量化评估大模型在知识、语言、理解、推理等方面的能力,并推动模型的迭代优化。
0
103
0
能力评测
# 大模型评测
SuperCLUE
一个针对中文大模型的综合性评测工具,通过多维度、多视角的评测体系真实反映大模型的通用能力,助力技术进步和产业化发展。
0
78
0
能力评测
# 大模型评测
FlagEval
一个全面、科学、公正的大模型评测体系及开放平台,旨在通过提供多维度评测工具和方法,帮助研究人员全方位评估基础模型及训练算法的性能。
0
65
0
能力评测
# 大模型评测
没有了
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章
软件
书籍