基于7篇重点论文和210篇相关研究的系统分析 (2017-2025),论文来自OpenCompass司南 - 评测集社区以及机智流热门论文
从简单语言理解测试到极限学术挑战的八年演进
GLUE基准包含9个自然语言理解任务,奠定了大语言模型评测的基础,此后的几年,各种评测基准陆续发布,但数量有限。
MMLU测试模型在57个学科的知识,标志着评测向多领域知识方向扩展,模型能力的提升促使更复杂评测的出现。
随着GPT-4等大模型的出现,评测基准数量呈爆发式增长,更多专业化、细分化评测基准被提出,涵盖多样化能力维度。
Humanity's Last Exam由近1000名学科专家创建,涵盖13种学科,设定极高门槛,目前最佳模型仅达14%准确率,为模型能力评估提供了新的极限挑战。
2017-2019
以GLUE和SQuAD为代表,关注基础语言理解和简单问答能力,基准数量少且范围有限。
2020-2022
随着模型能力提升,出现了SuperGLUE和MMLU等更复杂的基准,开始测试多样化的能力。
2023-2024
随着GPT-4等大模型突破,评测基准呈爆发式增长,2024年单年发布100个基准,显著高于历史水平。
2025
以Humanity's Last Exam为代表,开始探索模型能力的极限边界,提供更具挑战性的评测。
从210篇论文数据分析发现,推理能力和多模态理解是最主要的评测方向,知识评测和数学能力也占据重要位置。
评测重点从通用能力逐渐转向专业领域细分,趋势更加多元化和专业化。
早期评测集如MMLU、BIG-Bench主要关注LLM在多领域的通用理解能力,通过多选题、完形填空等任务形式进行测试,逐渐转向更具挑战性的专项能力评测。
推理能力评测从数学推理(GSM8K, MATH)到逻辑推理,再到最近的PROCESSBENCH和Humanity's Last Exam,专注于评估模型的推理过程和深度分析能力。
代码生成评测已从简单功能测试(HumanEval)发展至竞赛级别的综合评估,如CODEELO创新性地将模型与人类程序员在相同条件下的表现进行对比。
多模态评测已从简单图像描述转向复杂的视频理解,如MotionBench专注评估视觉语言模型(VLM)对细粒度视频动作的理解能力。
领域专业知识评测从通用专业知识扩展到更深入的学科细分,如SuperGPQA涵盖285个研究生学科的专业知识测试。
长上下文理解能力评测关注模型处理长文本的效果,如FailSafe Long Context QA for Finance通过金融长文本问答评估LLM的鲁棒性和上下文理解能力。
评测方法从单一的人工评测发展为多元化评估体系,指标也从简单准确率扩展为多维度指标框架
代表案例: Humanity's Last Exam采用严格的两阶段评审流程,由具备研究生及以上学位的专家团队评估
代表案例: SuperGPQA主要通过准确率评估模型回答研究生学科问题的能力
代表案例: FailSafe使用Qwen2.5-72B-Instruct作为评判者进行细粒度评分
代表案例: Humanity's Last Exam先由模型筛选难题,再由专家团队进行人工评审
代表案例: CODEELO通过自动提交代码至CodeForces平台评测,获取平台反馈
传统指标如准确率、F1分数等用于衡量任务完成的基本能力,如CODEELO使用通过率和Elo评分、SuperGPQA使用准确率评估学科知识掌握水平。
鲁棒性指标评估模型处理非理想输入的能力,如FailSafe引入Robustness指标测试模型在各种扰动下的一致性表现。
校准性指标评估模型置信度与实际准确率的一致性,如Humanity's Last Exam评估模型的校准误差,发现多数模型在错误答案上仍显示高置信度。
创新的综合评测指标框架,如FailSafe提出LLM Compliance指标,平衡模型的鲁棒性和上下文理解能力。
论文名称 | 研究重点 | 创新点 | 主要发现 | 操作 |
---|---|---|---|---|
Humanity's Last Exam | 极限学术知识挑战 | 两阶段筛选机制确保评测问题质量 | 最佳模型仅达到14%准确率,校准误差超过80% | |
PROCESSBENCH | 数学推理过程错误识别 | 流程奖励模型(PRM)评估推理步骤正确性 | o1-mini在数学推理批评能力方面表现最佳 | |
CODEELO | 代码生成能力评测 | Elo评级系统实现与人类编程能力对标 | o1-mini达到1578 Elo分,显著领先其他模型 | |
FailSafe | 金融长上下文鲁棒性 | 系统构造故障情境测试模型表现 | 发现鲁棒性与上下文理解能力呈明显负相关 | |
MLGym | AI研究能力评测 | 提供完整研究环境与文件系统交互 | 模型可改进已知方法但很少产生原创性突破 | |
MotionBench | 视频动作理解能力 | 细粒度视频动作理解任务 | 所有模型在细粒度动作理解上准确率不足60% | |
SuperGPQA | 研究生学科知识 | 涵盖285个研究生学科的专业知识测试 | o1-mini和QwQ在研究生知识方面表现突出 |
FailSafe评测专注于金融领域长上下文问答的鲁棒性研究,通过系统构造故障情境来评估模型表现。
模型的鲁棒性与上下文理解能力呈现明显的负相关
最鲁棒的模型在41%的测试案例中产生幻觉
最合规的模型在17%的情况下未能保持鲁棒表现
文本生成任务的幻觉率(52%)显著高于问答任务(35%)
HLE是一个极具挑战性的学术基准测试,涵盖13个学科领域,由近1000名专家创建,经过严格的多阶段筛选流程。
70,000个原始问题由学科专家提出
筛选至13,000个具挑战性问题
进一步筛选至6,000个候选问题
最终仅2,700个问题(3.9%)纳入数据集
* 标准化百分比表示各模型在每项指标上相对于最高分的表现比例
数据分析显示主流评测基准已接近饱和,难以区分顶尖模型能力:
在高难度学术问题上,所有模型表现均较差(Humanity's Last Exam)
在细粒度视频动作理解上普遍准确率不足60%(MotionBench)
模型可以改进已知方法但很少产生原创性突破(MLGym)
特定领域训练的模型表现优于通用模型(PROCESSBENCH)
在代码生成领域,顶级模型已达到人类参赛者水平(CODEELO)
模型在简单实现类问题上表现好于复杂算法问题(CODEELO)
高自信错误普遍,校准误差超过80%(Humanity's Last Exam)
最鲁棒模型在41%案例中仍产生幻觉(FailSafe)
最合规模型在17%情况下未能保持鲁棒表现(FailSafe)
对OCR错误和跨领域查询特别敏感(FailSafe)
上下文缺失时更易产生幻觉,特别是文本生成任务(FailSafe)
在代码生成领域,QwQ-32B-Preview与商业模型差距明显缩小(CODEELO)
在数学推理批评能力上,开源模型与商业模型差距缩小(PROCESSBENCH)
但在高难度跨领域问题上,仍存在显著差距(Humanity's Last Exam)
开发能同时兼顾鲁棒性和上下文理解的新架构或训练方法,破解当前权衡关系
提高模型对自身预测准确性的认知,减少高自信错误,提升不确定性表达
增强模型在未见过领域的推理能力,提高对跨领域概念的理解与应用
开发成本更低、更可扩展的评测方法,平衡自动化与专业评估的优势
继续探索模型在高难度学术问题上的极限,推动模型向人类专家水平迈进
开发更具挑战性的多模态评测,考验模型跨模态理解和推理能力
书同文Suwin:大语言模型评测基准集发展史 © 2025