AGI-Eval

上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区

AGI-Eval

简介

AGI-Eval:人工智能认知能力的权威测评平台

作为国内领先的大模型评估社区,AGI-Eval由上海交通大学、同济大学等知名高校与DataWhale联合打造。我们致力于构建开放、透明的人工智能评估体系,通过专业化的测评方案推动AI技术的健康发展,让智能技术真正成为人类的得力助手。

核心评测体系

多维能力评估榜单

我们建立了行业公认的大语言模型能力评价标准,定期发布权威排名榜单。不仅提供综合性能评分,还细分为各项能力指标,让您清晰了解各模型的优势与不足。数据完全公开透明,更新及时,助您选择最适合的AI解决方案。

创新的人机协同评测

首创"人机协作"测评模式,汇聚专业评测者与AI系统的智慧。通过这种创新的评估方式,既保证评测结果的科学性,又能促进AI技术的持续优化。

丰富的测评资源库

  • 学术测评集:整合行业公开学术测评数据,开放下载使用
  • 官方测评集:覆盖多领域的专业测评数据库
  • 用户共建社区:支持用户上传个人测评集,打造开放的测评生态
  • 高校数据托管:提供顶尖学术机构的私有数据集管理服务

数据服务中心

专业的数据服务

  • 活跃用户社区:拥有3万+专业评测人员,确保数据质量
  • 多样化数据:涵盖多领域、多维度的高价值数据
  • 灵活采集方式:支持单条数据、扩写数据等多种采集模式
  • 严格质量把控:采用机器审核+人工审核的双重保障机制

应用价值

模型性能优化

提供完整的数据集、基线系统评估和详细测评方法,是优化AI模型性能的必备工具。

语言能力评估

整合中英文双语任务,全面评估AI模型的语言理解和生成能力。

算法研发支持

为NLP开发者提供可靠的测试平台,助力提升文本生成质量。

科研实验平台

成为学术界评估新方法性能的标准工具,推动人工智能领域的技术突破。