论文摘要：语言模型为何会产生幻觉

一篇关于大型语言模型 (LLM) 产生看似合理却错误陈述的统计学根源和社会技术因素的分析。

核心论点：问题的本质

                    核心观点
                    语言模型之所以会产生幻觉，是因为其训练和评估机制系统性地奖励“猜测”行为，而不是在不确定时承认“不知道”。这并非一个神秘的技术缺陷，而是统计压力和评估体系错位共同导致的结果。
                

预训练阶段：幻觉源于模型在学习区分事实与错误时的统计性失败，类似于二元分类问题中的错误。
后训练阶段：现有的主流评测基准（Leaderboards）大多采用“非对即错”的评分模式，这激励模型即使在不确定时也要去猜测答案，以最大化预期得分，从而使幻觉问题持续存在。

第一部分：幻觉的起源 (预训练)

论文认为，即使训练数据完全正确，预训练的目标也会自然地导致模型产生错误和幻觉。

                    关键洞察：生成问题 ⟺ 分类问题
                    论文创新性地将“生成有效文本”这一无监督学习问题，归约（reduce）为“判断一个句子是否有效”的二元分类问题 (Is-It-Valid, IIV)。
                    
                    如果一个模型无法准确地判断一个陈述的真伪（分类），那么它在生成文本时也必然会犯错（生成）。论文给出了一个数学关系式：
                    
                    (生成错误率) ≳ 2 × (IIV 分类错误率)

                    导致分类错误的统计因素
                    知识缺失/任意事实：当事实之间没有可学习的模式时（如个人生日），模型难以泛化。论文指出，对于那些在训练数据中仅出现过一次的事实（“孤例”），模型产生幻觉的概率至少与这些“孤例”在数据中的占比相当。
模型能力不足 (Poor Models)：模型结构或参数可能不足以捕捉某些概念。
                            
例：早期的N-gram模型无法处理长距离依赖，导致语法错误。现代模型因其Tokenization（分词）方式，在简单的字符计数任务（如"DEEPSEEK"中有几个'D'）上表现不佳。
分布偏移：当模型遇到的提示（prompt）与其训练数据的分布显著不同时，更容易出错。
垃圾进，垃圾出 (GIGO)：训练数据中本身就包含大量错误信息，模型会学习并复现这些错误。

                

第二部分：幻觉的持续 (后训练)

后训练（如 RLHF）旨在减少幻觉，但论文认为，当前的评估生态系统反而阻碍了这一目标的实现。

                    核心观点：“考生困境”
                    语言模型就像一个总是在参加考试的学生。大多数基准测试采用二元（0-1）评分，答对得1分，不答或回答“我不知道”(IDK) 得0分。在这种机制下，猜测是最大化分数的理性策略。
                    
                    这导致模型被优化成一个“优秀的应试者”，而不是一个“诚实的知识传达者”。

                    事实：对主流评测基准的分析
                    论文分析了多个行业内极具影响力的评测基准（如 GPQA, MMLU-Pro, IFEval, SWE-bench 等），发现：
                    绝大多数采用二元评分：它们的最终指标是准确率（Accuracy）或通过率（Pass Rate）。
对不确定性的惩罚：回答“我不知道”或任何形式的回避，都会被判为0分，与一个完全错误的胡乱猜测得分相同。
结果：一个从不产生幻 giác 但会在不确定时拒绝回答的“诚实模型A”，其在这些主流榜单上的排名会低于一个总是大胆猜测的“幻觉模型B”。这形成了一种“惩罚不确定性”的流行病。

                

第三部分：解决方案 (社会技术协同)

论文主张，与其开发更多专门的幻觉评测，不如直接修改那些主导着行业方向的主流评测基准，从根本上改变激励机制。

核心提议：引入“置信度目标” 建议在评测的指令中明确告知模型评分规则，特别是对错误答案的惩罚。

例如，可以向提示中添加如下说明：

“请只在你有超过 90% 把握时回答。因为正确答案得1分，错误答案将扣除9分，回答‘我不知道’得0分。”

明确阈值：这为模型提供了一个清晰的“置信度阈值”（如90%），当其内部判断的正确概率低于此阈值时，选择回答“我不知道”将是更优策略。
改变激励：通过引入负分，改变了“猜测”的风险收益比，鼓励模型进行更诚实的自我评估。
推动“行为校准”：促使模型不仅仅是输出一个概率值，而是根据这个概率值采取最合适的行动（回答、拒绝或提供有限信息）。

论文摘要：语言模型为何会产生幻觉

原文

附件

中文PDF (3.2M)

中文epub (128.1K)