Skip to content
我的代码温柔如风
搜索文档
K
Main Navigation
首页
博客
标签
归档
笔记
AI Coding
Python
Go
Java
C/C++
AI
App
Agent
MCP
Model
Infra
Eval
家庭实验室
架构设计
部署指南
友链
关于
外观
Menu
此页内容
首页
AI
Eval
Eval
约 311 字
大约 1 分钟
2025-10-13
MMLU
大规模多任务语言理解基准
CMMLU
中文大规模多任务语言理解评估基准
C-Eval
中文语言模型综合评估基准
Open LLM Leaderboard
Hugging Face开源大语言模型排行榜
FlagEval
大模型开源评测体系
AI Ping
AI模型进展追踪平台
SuperCLUE
中文通用大模型综合性评测基准
AGI-Eval
通用人工智能评估基准
OpenCompass
大模型开源评测平台
MMBench
多模态基准测试
HELM
语言模型整体评估框架
LMArena
语言模型竞技场
LLMEval3
第三代大语言模型评估框架
H2O EvalGPT
自动化大模型评估工具
PubMedQA
生物医学问答评估数据集
0%