简介
AGI-Eval:人工智能认知能力的权威测评平台
作为国内领先的大模型评估社区,AGI-Eval由上海交通大学、同济大学等知名高校与DataWhale联合打造。我们致力于构建开放、透明的人工智能评估体系,通过专业化的测评方案推动AI技术的健康发展,让智能技术真正成为人类的得力助手。
核心评测体系
多维能力评估榜单
我们建立了行业公认的大语言模型能力评价标准,定期发布权威排名榜单。不仅提供综合性能评分,还细分为各项能力指标,让您清晰了解各模型的优势与不足。数据完全公开透明,更新及时,助您选择最适合的AI解决方案。
创新的人机协同评测
首创"人机协作"测评模式,汇聚专业评测者与AI系统的智慧。通过这种创新的评估方式,既保证评测结果的科学性,又能促进AI技术的持续优化。
丰富的测评资源库
- 学术测评集:整合行业公开学术测评数据,开放下载使用
- 官方测评集:覆盖多领域的专业测评数据库
- 用户共建社区:支持用户上传个人测评集,打造开放的测评生态
- 高校数据托管:提供顶尖学术机构的私有数据集管理服务
数据服务中心
专业的数据服务
- 活跃用户社区:拥有3万+专业评测人员,确保数据质量
- 多样化数据:涵盖多领域、多维度的高价值数据
- 灵活采集方式:支持单条数据、扩写数据等多种采集模式
- 严格质量把控:采用机器审核+人工审核的双重保障机制
应用价值
模型性能优化
提供完整的数据集、基线系统评估和详细测评方法,是优化AI模型性能的必备工具。
语言能力评估
整合中英文双语任务,全面评估AI模型的语言理解和生成能力。
算法研发支持
为NLP开发者提供可靠的测试平台,助力提升文本生成质量。
科研实验平台
成为学术界评估新方法性能的标准工具,推动人工智能领域的技术突破。


