核心观点
语言模型之所以会产生幻觉,是因为其训练和评估机制系统性地奖励“猜测”行为,而不是在不确定时承认“不知道”。这并非一个神秘的技术缺陷,而是统计压力和评估体系错位共同导致的结果。
- 预训练阶段:幻觉源于模型在学习区分事实与错误时的统计性失败,类似于二元分类问题中的错误。
- 后训练阶段:现有的主流评测基准(Leaderboards)大多采用“非对即错”的评分模式,这激励模型即使在不确定时也要去猜测答案,以最大化预期得分,从而使幻觉问题持续存在。