我们应该致力于构建“运行良好”的模型,而不是追求“智能”的模型。 衡量成功的更好标准是构建对人类有用且高效的工具,而不是创造一个替代我们解决问题的“通用智能”。目前,LLM最常见的用例是编码、行政支持等助理类工作。
我们应该致力于构建“运行良好”的模型,而不是追求“智能”的模型。 衡量成功的更好标准是构建对人类有用且高效的工具,而不是创造一个替代我们解决问题的“通用智能”。目前,LLM最常见的用例是编码、行政支持等助理类工作。
一个好的AI助理需要具备多种能力的组合:处理模糊指令、制定分步计划、识别必要资源、执行计划、调用工具、适应意外事件,并且不捏造信息。这要求模型具备逐步“推理”、长上下文记忆管理、适应性、低幻觉率,以及数学、代码和工具调用等综合能力。
测试模型的单一维度能力,在训练或比较基础模型时非常有用。
传统基准 MMLU 已饱和并被发现存在问题。目前社区主要使用 MMLU-Pro (2024) 作为替代品。高质量数据集还包括博士级别的 GPQA (2023) 和尚未被破解的 Humanity's Last Exam (2024)。未来趋势将从“闭卷考试”(依赖模型的内在知识)转向“开卷考试”(评估模型利用工具如网络搜索进行推理的能力)。
数学能力是推理和逻辑的代理指标。传统基准 GSM8K 和 MATH 已饱和。 当前社区关注 MATH-500(代表性子集)、AIME(每年更新的奥林匹克竞赛题,可有效检测污染)和 Math-Arena(最新的竞赛题汇编)。
代码能力对工具交互和推理至关重要。历史基准包括 MBPP 和 HumanEval。 现在推荐关注 LiveCodeBench (2024)(通过问题创建日期来避免污染)、AiderBench(测试代码编辑和重构)和 SWE-Bench(测试解决真实GitHub问题的能力,涉及跨文件逻辑和长上下文推理)。
Needle in a Haystack (NIAH) 测试在长文本中检索信息,在2025年已接近解决。更复杂的基准包括 RULER (2024)、InfinityBench (2024) 和 HELMET (2024)。 更有趣的评估是 Novel Challenge (2024)(要求理解整本小说来回答问题)和 Kalamang Translation (2024)(通过阅读语法书来翻译一种几乎没有在线资源的语言)。
IFEval (2023) 及其扩展 IFBench (2025) 是近年来最聪明的评估思想之一,因为它要求模型遵循精确的格式化指令(如关键词、标点符号),可以通过特定的解析测试进行严格评分,而无需依赖模型裁判 (LLM judge)。
这是将LLM推向智能体(Agentic)领域的核心功能。重要基准包括:
助理任务是下一代评估的主要方式,因为它们需要多种能力的结合,并且能更好地被公众理解。
GAIA (2023) 开创了现代智能体评估,要求模型结合工具、推理和检索来解决现实生活中的问题。
游戏基准非常有趣,它们评估模型在变化环境中的适应性、长程规划和推理能力,并且有明确的成功/失败标准。
评估领域正从测试孤立技能转向衡量能力的协同作用,以构建能真正解决问题的“运行良好”的系统。 作者希望该领域能更重视功能性测试(有标准答案)而非模型裁判。