论文摘要:语言模型为何会产生幻觉

一篇关于大型语言模型 (LLM) 产生看似合理却错误陈述的统计学根源和社会技术因素的分析。

核心论点:问题的本质
核心观点 语言模型之所以会产生幻觉,是因为其训练和评估机制系统性地奖励“猜测”行为,而不是在不确定时承认“不知道”。这并非一个神秘的技术缺陷,而是统计压力和评估体系错位共同导致的结果。
  • 预训练阶段:幻觉源于模型在学习区分事实与错误时的统计性失败,类似于二元分类问题中的错误。
  • 后训练阶段:现有的主流评测基准(Leaderboards)大多采用“非对即错”的评分模式,这激励模型即使在不确定时也要去猜测答案,以最大化预期得分,从而使幻觉问题持续存在。
第一部分:幻觉的起源 (预训练)

论文认为,即使训练数据完全正确,预训练的目标也会自然地导致模型产生错误和幻觉。

关键洞察:生成问题 ⟺ 分类问题 论文创新性地将“生成有效文本”这一无监督学习问题,归约(reduce)为“判断一个句子是否有效”的二元分类问题 (Is-It-Valid, IIV)。

如果一个模型无法准确地判断一个陈述的真伪(分类),那么它在生成文本时也必然会犯错(生成)。论文给出了一个数学关系式:
(生成错误率) ≳ 2 × (IIV 分类错误率)
导致分类错误的统计因素
  • 知识缺失/任意事实:当事实之间没有可学习的模式时(如个人生日),模型难以泛化。论文指出,对于那些在训练数据中仅出现过一次的事实(“孤例”),模型产生幻觉的概率至少与这些“孤例”在数据中的占比相当。
  • 模型能力不足 (Poor Models):模型结构或参数可能不足以捕捉某些概念。
    :早期的N-gram模型无法处理长距离依赖,导致语法错误。现代模型因其Tokenization(分词)方式,在简单的字符计数任务(如"DEEPSEEK"中有几个'D')上表现不佳。
  • 分布偏移:当模型遇到的提示(prompt)与其训练数据的分布显著不同时,更容易出错。
  • 垃圾进,垃圾出 (GIGO):训练数据中本身就包含大量错误信息,模型会学习并复现这些错误。
第二部分:幻觉的持续 (后训练)

后训练(如 RLHF)旨在减少幻觉,但论文认为,当前的评估生态系统反而阻碍了这一目标的实现。

核心观点:“考生困境” 语言模型就像一个总是在参加考试的学生。大多数基准测试采用二元(0-1)评分,答对得1分,不答或回答“我不知道”(IDK) 得0分。在这种机制下,猜测是最大化分数的理性策略

这导致模型被优化成一个“优秀的应试者”,而不是一个“诚实的知识传达者”。
事实:对主流评测基准的分析 论文分析了多个行业内极具影响力的评测基准(如 GPQA, MMLU-Pro, IFEval, SWE-bench 等),发现:
  • 绝大多数采用二元评分:它们的最终指标是准确率(Accuracy)或通过率(Pass Rate)。
  • 对不确定性的惩罚:回答“我不知道”或任何形式的回避,都会被判为0分,与一个完全错误的胡乱猜测得分相同。
  • 结果:一个从不产生幻 giác 但会在不确定时拒绝回答的“诚实模型A”,其在这些主流榜单上的排名会低于一个总是大胆猜测的“幻觉模型B”。这形成了一种“惩罚不确定性”的流行病。
第三部分:解决方案 (社会技术协同)

论文主张,与其开发更多专门的幻觉评测,不如直接修改那些主导着行业方向的主流评测基准,从根本上改变激励机制。

核心提议:引入“置信度目标” 建议在评测的指令中明确告知模型评分规则,特别是对错误答案的惩罚。

例如,可以向提示中添加如下说明:

“请只在你有超过 90% 把握时回答。因为正确答案得1分,错误答案将扣除9分,回答‘我不知道’得0分。”

  • 明确阈值:这为模型提供了一个清晰的“置信度阈值”(如90%),当其内部判断的正确概率低于此阈值时,选择回答“我不知道”将是更优策略。
  • 改变激励:通过引入负分,改变了“猜测”的风险收益比,鼓励模型进行更诚实的自我评估。
  • 推动“行为校准”:促使模型不仅仅是输出一个概率值,而是根据这个概率值采取最合适的行动(回答、拒绝或提供有限信息)。

原文

源链接

附件

中文PDF (3.2M)

下载

中文epub (128.1K)

下载