Eval

约 311 字大约 1 分钟

2025-10-13

MMLU

大规模多任务语言理解基准

CMMLU

中文大规模多任务语言理解评估基准

C-Eval

中文语言模型综合评估基准

Open LLM Leaderboard

Hugging Face开源大语言模型排行榜

FlagEval

大模型开源评测体系

AI Ping

AI模型进展追踪平台

SuperCLUE

中文通用大模型综合性评测基准

AGI-Eval

通用人工智能评估基准

OpenCompass

大模型开源评测平台

MMBench

多模态基准测试

HELM

语言模型整体评估框架

LMArena

语言模型竞技场

LLMEval3

第三代大语言模型评估框架

H2O EvalGPT

自动化大模型评估工具

PubMedQA

生物医学问答评估数据集