大语言模型评测基准

从基础语言理解到极限学术挑战的评测演进

公众号二维码

基于7篇重点论文和210篇相关研究的系统分析 (2017-2025),论文来自OpenCompass司南 - 评测集社区以及机智流热门论文

7篇
重点论文
查看详情
210+
相关研究
2017
起始年份
2025
最新数据

大语言模型评测基准的历史演进

从简单语言理解测试到极限学术挑战的八年演进

2017

GLUE基准发布

GLUE基准包含9个自然语言理解任务,奠定了大语言模型评测的基础,此后的几年,各种评测基准陆续发布,但数量有限。

2018

SQuAD 2.0发布

2019

SuperGLUE基准发布

2020

MMLU基准发布

MMLU测试模型在57个学科的知识,标志着评测向多领域知识方向扩展,模型能力的提升促使更复杂评测的出现。

2021

HumanEval和GSM8K基准发布

2022

HELM和BIG-Bench基准发布

2023

评测基准爆发式增长,单年50+基准发布

随着GPT-4等大模型的出现,评测基准数量呈爆发式增长,更多专业化、细分化评测基准被提出,涵盖多样化能力维度。

2024

评测基准高速发展,单年100+基准发布

2025

Humanity's Last Exam发布,极限挑战基准

Humanity's Last Exam由近1000名学科专家创建,涵盖13种学科,设定极高门槛,目前最佳模型仅达14%准确率,为模型能力评估提供了新的极限挑战。

评测基准的发展阶段

基础阶段

2017-2019

以GLUE和SQuAD为代表,关注基础语言理解和简单问答能力,基准数量少且范围有限。

📚 这一阶段奠定了大语言模型评测的基础框架,强调基本语言理解能力。

扩展阶段

2020-2022

随着模型能力提升,出现了SuperGLUE和MMLU等更复杂的基准,开始测试多样化的能力。

🔍 评测基准开始关注更复杂的推理能力和多样化任务,如常识推理与跨领域知识。

爆发阶段

2023-2024

随着GPT-4等大模型突破,评测基准呈爆发式增长,2024年单年发布100个基准,显著高于历史水平。

🚀 评测领域呈现出多元化发展,包括推理能力、多模态理解、代码生成等专业化方向。

极限挑战阶段

2025

以Humanity's Last Exam为代表,开始探索模型能力的极限边界,提供更具挑战性的评测。

🔬 当前最佳模型在HLE上仅达到14%准确率,为模型进步提供了清晰的衡量空间。

评测类别与领域分布

评测基准类别分布

从210篇论文数据分析发现,推理能力和多模态理解是最主要的评测方向,知识评测和数学能力也占据重要位置。

评测领域演变趋势

评测重点从通用能力逐渐转向专业领域细分,趋势更加多元化和专业化。

评测任务类型分类

通用理解与生成能力

早期评测集如MMLU、BIG-Bench主要关注LLM在多领域的通用理解能力,通过多选题、完形填空等任务形式进行测试,逐渐转向更具挑战性的专项能力评测。

推理能力评测

推理能力评测从数学推理(GSM8K, MATH)到逻辑推理,再到最近的PROCESSBENCH和Humanity's Last Exam,专注于评估模型的推理过程和深度分析能力。

代码能力评测

代码生成评测已从简单功能测试(HumanEval)发展至竞赛级别的综合评估,如CODEELO创新性地将模型与人类程序员在相同条件下的表现进行对比。

多模态理解能力

多模态评测已从简单图像描述转向复杂的视频理解,如MotionBench专注评估视觉语言模型(VLM)对细粒度视频动作的理解能力。

领域专业知识评测

领域专业知识评测从通用专业知识扩展到更深入的学科细分,如SuperGPQA涵盖285个研究生学科的专业知识测试。

长上下文能力评测

长上下文理解能力评测关注模型处理长文本的效果,如FailSafe Long Context QA for Finance通过金融长文本问答评估LLM的鲁棒性和上下文理解能力。

评测方法学与指标分析

评测方法从单一的人工评测发展为多元化评估体系,指标也从简单准确率扩展为多维度指标框架

评测方法类型分布

评测指标趋势变化

评测方法详解

人类评测

优势: 专业性强,评价全面局限: 成本高昂,难以规模化

代表案例: Humanity's Last Exam采用严格的两阶段评审流程,由具备研究生及以上学位的专家团队评估

自动化指标

优势: 低成本,易于规模化局限: 难以捕捉回答的全部质量维度

代表案例: SuperGPQA主要通过准确率评估模型回答研究生学科问题的能力

LLM-as-Judge

优势: 成本低于人类评测且更灵活局限: 评估模型本身存在偏见问题

代表案例: FailSafe使用Qwen2.5-72B-Instruct作为评判者进行细粒度评分

混合评测

优势: 结合多种方法优势局限: 协调复杂,标准一致性挑战

代表案例: Humanity's Last Exam先由模型筛选难题,再由专家团队进行人工评审

竞赛式评测

优势: 与人类能力直接对比局限: 仅适用于特定任务类型

代表案例: CODEELO通过自动提交代码至CodeForces平台评测,获取平台反馈

评测指标体系

任务完成度指标

传统指标如准确率、F1分数等用于衡量任务完成的基本能力,如CODEELO使用通过率和Elo评分、SuperGPQA使用准确率评估学科知识掌握水平。

鲁棒性指标

鲁棒性指标评估模型处理非理想输入的能力,如FailSafe引入Robustness指标测试模型在各种扰动下的一致性表现。

校准性指标

校准性指标评估模型置信度与实际准确率的一致性,如Humanity's Last Exam评估模型的校准误差,发现多数模型在错误答案上仍显示高置信度。

综合评测指标

创新的综合评测指标框架,如FailSafe提出LLM Compliance指标,平衡模型的鲁棒性和上下文理解能力。

7篇重点论文分析

论文名称研究重点创新点主要发现操作
Humanity's Last Exam极限学术知识挑战两阶段筛选机制确保评测问题质量最佳模型仅达到14%准确率,校准误差超过80%
PROCESSBENCH数学推理过程错误识别流程奖励模型(PRM)评估推理步骤正确性o1-mini在数学推理批评能力方面表现最佳
CODEELO代码生成能力评测Elo评级系统实现与人类编程能力对标o1-mini达到1578 Elo分,显著领先其他模型
FailSafe金融长上下文鲁棒性系统构造故障情境测试模型表现发现鲁棒性与上下文理解能力呈明显负相关
MLGymAI研究能力评测提供完整研究环境与文件系统交互模型可改进已知方法但很少产生原创性突破
MotionBench视频动作理解能力细粒度视频动作理解任务所有模型在细粒度动作理解上准确率不足60%
SuperGPQA研究生学科知识涵盖285个研究生学科的专业知识测试o1-mini和QwQ在研究生知识方面表现突出

论文聚焦: FailSafe金融长上下文问答

研究亮点

FailSafe评测专注于金融领域长上下文问答的鲁棒性研究,通过系统构造故障情境来评估模型表现。

关键发现

1

模型的鲁棒性与上下文理解能力呈现明显的负相关

2

最鲁棒的模型在41%的测试案例中产生幻觉

3

最合规的模型在17%的情况下未能保持鲁棒表现

4

文本生成任务的幻觉率(52%)显著高于问答任务(35%)

扰动类型影响(从高到低)

OCR错误
-51%
跨领域查询
-47%
无关上下文
-44%
缺失上下文
-40%
不完整查询
-27%
拼写错误
-21%

论文聚焦: Humanity's Last Exam

研究概述

HLE是一个极具挑战性的学术基准测试,涵盖13个学科领域,由近1000名专家创建,经过严格的多阶段筛选流程。

筛选过程

1
初始问题集

70,000个原始问题由学科专家提出

2
LLM难度测试

筛选至13,000个具挑战性问题

3
专家评审

进一步筛选至6,000个候选问题

4
最终筛选

最终仅2,700个问题(3.9%)纳入数据集

模型表现分析

关键发现

  • • 所有模型准确率均低于15%,远低于其他基准测试
  • • 所有模型校准误差均超过80%,表明自身不确定性认知不足
  • • 数学领域O3-mini表现最佳(18.8%),其他学科表现均较差
  • • 推理模型需生成大量标记(token)来处理问题,成本高昂

模型表现分析

顶尖模型能力对比

数据显示:

* 标准化百分比表示各模型在每项指标上相对于最高分的表现比例

关键能力差异

  • 推理模型优势: o1和o3-mini在Humanity's Last Exam和推理任务上表现突出
  • 模型专长差异: 同一模型在不同任务上表现差异巨大
  • 开源模型进展: 如QwQ-32B-Preview在特定任务上已接近闭源模型表现

评测基准饱和分析

基准饱和问题

数据分析显示主流评测基准已接近饱和,难以区分顶尖模型能力:

  • • MMLU:从2021年的43%到2025年的92%
  • • GSM8K:从2021年的15%到2025年的95%
  • • HumanEval:从2021年的30%到2025年的91%
  • • 相比之下,HLE在2025年的最佳模型表现仅为14%,为模型进步提供了清晰的衡量空间

领域特定评测分析

金融领域

代表论文: FailSafe, Fino1
主要发现: 发现模型鲁棒性与上下文理解能力存在明显权衡,OCR错误和跨领域查询对模型影响最大
应用建议: 金融应用最佳选择为Palmyra-Fin-128k-Instruct,提供最平衡的表现

医学领域

代表论文: 多项专业评测
主要发现: 模型在医学知识准确性和临床决策支持能力方面有明显提升,但仍需进一步改进
应用建议: 医学应用中建议结合专家监督,确保决策安全

法律领域

代表论文: 多项专业评测
主要发现: 法律推理能力、法规理解和案例分析能力是主要评测焦点
应用建议: 法律应用中需特别关注模型在特定法律体系下的表现

教育领域

代表论文: SuperGPQA等
主要发现: 覆盖285个研究生学科,评估LLM在高等教育中的潜力
应用建议: 教育应用中需考虑模型在不同学科领域的差异化表现

模型错误分析

典型错误模式

  • 过度推理: DeepSeek-R1等推理增强模型倾向于提供过多细节而非直接回答
  • 专业领域敏感性不足: 推理模型对金融等专业概念理解不充分
  • 校准问题: 模型对自身预测错误的问题仍给出高置信度

特定情境表现

  • OCR错误: 对模型性能影响最大(-51%)
  • 文本生成vs问答: 生成任务幻觉率(52%)显著高于问答任务(35%)
  • 上下文长度: 随上下文增长,所有模型性能呈线性下降

主要研究发现与未来方向

能力极限

在高难度学术问题上,所有模型表现均较差(Humanity's Last Exam)

在细粒度视频动作理解上普遍准确率不足60%(MotionBench)

模型可以改进已知方法但很少产生原创性突破(MLGym)

专业能力差异

特定领域训练的模型表现优于通用模型(PROCESSBENCH)

在代码生成领域,顶级模型已达到人类参赛者水平(CODEELO)

模型在简单实现类问题上表现好于复杂算法问题(CODEELO)

可靠性问题

高自信错误普遍,校准误差超过80%(Humanity's Last Exam)

最鲁棒模型在41%案例中仍产生幻觉(FailSafe)

最合规模型在17%情况下未能保持鲁棒表现(FailSafe)

扰动敏感性

对OCR错误和跨领域查询特别敏感(FailSafe)

上下文缺失时更易产生幻觉,特别是文本生成任务(FailSafe)

开源与商业模型

在代码生成领域,QwQ-32B-Preview与商业模型差距明显缩小(CODEELO)

在数学推理批评能力上,开源模型与商业模型差距缩小(PROCESSBENCH)

但在高难度跨领域问题上,仍存在显著差距(Humanity's Last Exam)

未来研究与评测方向

1

平衡鲁棒性与上下文理解

开发能同时兼顾鲁棒性和上下文理解的新架构或训练方法,破解当前权衡关系

2

改进校准能力

提高模型对自身预测准确性的认知,减少高自信错误,提升不确定性表达

3

跨域泛化能力

增强模型在未见过领域的推理能力,提高对跨领域概念的理解与应用

4

更有效的评测方法

开发成本更低、更可扩展的评测方法,平衡自动化与专业评估的优势

5

极限能力探索

继续探索模型在高难度学术问题上的极限,推动模型向人类专家水平迈进

6

多模态评测创新

开发更具挑战性的多模态评测,考验模型跨模态理解和推理能力

书同文Suwin:大语言模型评测基准集发展史 © 2025