本文展示了一种新方法,通过纯粹的强化学习(RL)来激发大语言模型(LLM)的推理能力,完全摆脱了对人类标注推理过程的依赖。研究团队通过这种方法,让模型自主地涌现出如自我反思、验证和动态策略调整等高级推理模式。
1. DeepSeek-R1-Zero: 纯粹RL的探索者
这是整个研究的起点,旨在验证一个核心假设:能否仅通过结果正确与否的奖励信号,让模型自己学会如何推理?
- 训练方法: 基于DeepSeek-V3 Base模型,跳过传统的监督微调(SFT)阶段,直接使用GRPO强化学习算法进行训练。奖励信号仅来源于最终答案是否正确。
- 惊人发现:涌现的高级行为
- 更长的“思考”时间: 模型自发地生成更长、更详细的思维链(CoT)来解决问题。
- 自我进化: 模型表现出反思、验证和探索不同解法的行为。
问题: If a > 1, then the sum of the real solutions of ... is equal to ...
模型响应:
To solve the equation ..., let's start by squaring both ...
... (一系列复杂的数学推导) ...
Wait, wait. Wait. That’s an aha moment I can flag here.
Let’s reevaluate this step by step to identify whether the correct sum can be ...
... (模型开始重新评估和修正自己的推理路径) ...
- 存在的问题: 虽然推理能力强大,但可读性差,常出现中英文混合,且在写作等通用任务上表现不佳。
2. DeepSeek-R1: 兼顾推理与通用的集大成者
为了解决R1-Zero的问题,研究团队设计了一个多阶段的训练流程,旨在继承其强大的推理能力,同时提升通用性和对齐人类偏好。
- 目标: 打造一个既是推理高手,又是通用助手的全能模型。
- 训练方法: 采用一个包含拒绝采样、多轮强化学习和监督微调的复杂流程。(详情见下一章节)
DeepSeek-R1的诞生过程是一个精妙的多阶段优化流程,每一步都旨在解决特定问题并增强模型能力。点击下方节点查看各阶段详情。
起点: R1-Zero
Dev1: 对齐
Dev2: 推理增强
Dev3: 通用增强
Final R1: 最终对齐
起点 (R1-Zero): 纯粹推理能力的基石
方法: 纯强化学习,奖励只看最终答案对错。
结果: 获得了强大的推理能力,但存在可读性差、语言混用等问题。
第一阶段 (Dev1): 提升可读性与指令遵循
方法: 收集少量高质量、符合人类思维习惯的CoT数据进行监督微调(SFT)。
结果: 可读性和指令遵循能力大幅提升 (IF-Eval分数从46.6 -> 71.7),但由于数据量有限,推理能力有所下降 (AIME分数从77.9 -> 59.0)。
第二阶段 (Dev2): 重获并超越推理能力
方法: 在Dev1的基础上,进行第一轮针对推理任务的强化学习。
结果: 推理能力显著恢复并增强,在编码、数学和STEM基准上表现优异 (AIME分数回升至74.0)。
第三阶段 (Dev3): 融合通用能力
方法: 将推理和非推理(通用)数据混合,进行新一轮SFT。
结果: 在保持推理能力的同时,通用语言生成能力得到提升 (AlpacaEval 2.0分数从55.8 -> 62.1)。
最终阶段 (Final R1): 全面对齐人类偏好
方法: 在Dev3基础上,进行第二轮综合强化学习,使用混合奖励模型(规则奖励+偏好奖励)。
结果: 推理能力稳中有升,同时在指令遵循和用户偏好方面取得巨大进步,成为最终的全能模型 (Arena-Hard分数从75.6 -> 92.3)。
尽管DeepSeek-R1取得了突破性进展,但研究团队也坦诚地指出了其当前存在的局限和未来的改进方向。
- 软件工程任务: 由于评估时间长,RL在软件工程领域的应用受限,导致这方面能力提升不大。
- 结构化输出与工具使用: 模型目前无法很好地利用计算器、搜索引擎等外部工具来辅助回答。
- Token效率: 有时对于简单问题会“过度思考”,产生不必要的冗长推理,影响效率。
- 语言混合: 主要针对中英文优化,处理其他语言时可能仍会出现语言混用的问题。
- 提示工程敏感性: 模型对提示词敏感,零样本(Zero-shot)直接提问的效果优于少样本(Few-shot)。
该论文在顶级期刊发表前经过了多轮严格的同行评议。以下是评议过程中最核心的赞扬、质疑以及作者的回应,展现了科学研究的严谨过程。