2025年AI模型评估（Evals）趋势摘要

核心理念转变

我们应该致力于构建“运行良好”的模型，而不是追求“智能”的模型。衡量成功的更好标准是构建对人类有用且高效的工具，而不是创造一个替代我们解决问题的“通用智能”。目前，LLM最常见的用例是编码、行政支持等助理类工作。

优秀AI助理的关键能力

一个好的AI助理需要具备多种能力的组合：处理模糊指令、制定分步计划、识别必要资源、执行计划、调用工具、适应意外事件，并且不捏造信息。这要求模型具备逐步“推理”、长上下文记忆管理、适应性、低幻觉率，以及数学、代码和工具调用等综合能力。

第一层：评估特定能力 (AI软件工程基础)

测试模型的单一维度能力，在训练或比较基础模型时非常有用。

知识 (Knowledge)

传统基准 MMLU 已饱和并被发现存在问题。目前社区主要使用 MMLU-Pro (2024) 作为替代品。高质量数据集还包括博士级别的 GPQA (2023) 和尚未被破解的 Humanity's Last Exam (2024)。未来趋势将从“闭卷考试”（依赖模型的内在知识）转向“开卷考试”（评估模型利用工具如网络搜索进行推理的能力）。

数学 (Math)

数学能力是推理和逻辑的代理指标。传统基准 GSM8K 和 MATH 已饱和。当前社区关注 MATH-500（代表性子集）、AIME（每年更新的奥林匹克竞赛题，可有效检测污染）和 Math-Arena（最新的竞赛题汇编）。

代码 (Code)

代码能力对工具交互和推理至关重要。历史基准包括 MBPP 和 HumanEval。现在推荐关注 LiveCodeBench (2024)（通过问题创建日期来避免污染）、AiderBench（测试代码编辑和重构）和 SWE-Bench（测试解决真实GitHub问题的能力，涉及跨文件逻辑和长上下文推理）。

长上下文 (Long Context)

Needle in a Haystack (NIAH) 测试在长文本中检索信息，在2025年已接近解决。更复杂的基准包括 RULER (2024)、InfinityBench (2024) 和 HELMET (2024)。更有趣的评估是 Novel Challenge (2024)（要求理解整本小说来回答问题）和 Kalamang Translation (2024)（通过阅读语法书来翻译一种几乎没有在线资源的语言）。

指令遵循 (Instruction Following)

IFEval (2023) 及其扩展 IFBench (2025) 是近年来最聪明的评估思想之一，因为它要求模型遵循精确的格式化指令（如关键词、标点符号），可以通过特定的解析测试进行严格评分，而无需依赖模型裁判 (LLM judge)。

工具调用 (Tool-calling)

这是将LLM推向智能体（Agentic）领域的核心功能。重要基准包括：

ToolBench (2023) / StableToolBench (2025): 稳定且可复现的API调用测试。
BFCL (2025): 测试单轮、多轮对话和智能体场景下的工具调用。
MCP-Universe (2025): 设计精巧，它不依赖模型裁判，而是使用基于任务的执行评估框架自动从源头获取最新答案进行比较，更可靠。

第二层：评估综合能力 (真实世界助理任务)

助理任务是下一代评估的主要方式，因为它们需要多种能力的结合，并且能更好地被公众理解。

通用信息检索

GAIA (2023) 开创了现代智能体评估，要求模型结合工具、推理和检索来解决现实生活中的问题。

科学与数据分析 (AI软件工程应用)

SciCode (2024): 测试模型通过编写科学代码来解决真实的科学问题。
PaperBench (2025): 要求模型根据高质量的机器学习论文重建匹配的代码库。
DABStep (2025): 一个优秀的评估，因为它使用真实、未公开的业务数据分析工作负载，问题难度高且有标准答案，评估无偏见。

第三层：评估动态适应性 (游戏评估)

游戏基准非常有趣，它们评估模型在变化环境中的适应性、长程规划和推理能力，并且有明确的成功/失败标准。

ARC-AGI (2019, 2025): 类似于逻辑智商测试的抽象推理谜题，最新版本包含需要探索和复杂规划的全新游戏。
冒险/生存游戏: 如 TextQuests (2025) 或 Minecraft 类的 Crafter (2021)，需要长远的规划、记忆和回溯能力。
策略/欺骗游戏: 如 Poker 或 Town of Salem (2025)，用于测试逻辑、推理和欺骗能力，这对于安全评估很有价值。

结论与2025年9月推荐

评估领域正从测试孤立技能转向衡量能力的协同作用，以构建能真正解决问题的“运行良好”的系统。作者希望该领域能更重视功能性测试（有标准答案）而非模型裁判。

核心能力 (模型构建者): 训练时用旧基准，训练后用 MATH500/AIME24, GPQA, IFEval, SWE-Bench, HELMET, BFCL。
核心能力 (模型使用者/比较): IFBench, HLE, MathArena, AiderBench, LiveCodeBench, MCP-Universe。
长周期任务 (真实世界性能): GAIA, DABStep, SciCode 或特定领域的评估。
游戏 (鲁棒性与适应性): ARC-AGI3, TextQuests, Town of Salem (用于安全)。