2025 大语言模型年度回顾

2025 年对于大语言模型 (LLMs) 来说是充满进展和变化的一年。本文记录了几个重要的"范式转变"——那些在概念层面改变了行业格局、让我感到意外的发展方向。

1. 可验证奖励强化学习 (RLVR)

这是训练生产级 LLM 的稳定配方。2025 年,Reinforcement Learning from Verifiable Rewards (RLVR) 成为实际上的新阶段。通过在多个环境中针对自动可验证的奖励训练 LLM (比如数学/代码谜题),LLM 自发地发展出了看起来像"推理"的策略——它们学会将问题分解为中间计算步骤,学会各种来回尝试的问题解决策略 (参见 DeepSeek R1 论文的例子)。这些策略在之前的范式中很难实现,因为不清楚对 LLM 来说最优的推理轨迹和恢复方式是什么——它必须通过针对奖励的优化自己找到有效方法。

RLVR 的特点

与 SFT 和 RLHF 阶段不同 (它们在计算上都是相对轻量的微调),RLVR 针对客观的(不可被利用的)奖励函数训练,允许更长时间的优化。运行 RLVR 提供了高性价比,吞噬了原本用于预训练的计算资源。

因此,2025 年大部分能力进展都是由 LLM 实验室消化这个新阶段的积压定义的,我们看到的是规模相近的 LLM 但 RL 运行时间长得多。这个新阶段还带来了一个全新的旋钮(及相应的缩放定律),通过生成更长的推理轨迹和增加"思考时间"来控制测试时计算的能力函数。

里程碑: OpenAI o1 (2024 年末) 是 RLVR 模型的首次展示,但 o3 发布 (2025 年初) 是明显的拐点,你可以直观地感受到差异。

2. 幽灵 vs. 动物 / 锯齿状智能

2025 年是我(我认为整个行业也是)开始以更直观的方式内化 LLM 智能"形态"的一年。我们不是在"进化/培养动物",而是在"召唤幽灵"。LLM 技术栈的一切都不同(神经架构、训练数据、训练算法,尤其是优化压力),所以我们在智能空间得到非常不同的实体并不令人意外,用动物视角思考它们是不合适的。

从监督角度看,人类神经网络是为丛林中部落的生存而优化的,但 LLM 神经网络是为模仿人类文本、在数学谜题中获得奖励、在 LM Arena 上获得人类点赞而优化的。随着可验证领域允许 RLVR,LLM 在这些领域附近能力"飙升",总体显示出有趣的锯齿状性能特征——它们同时是天才博学者和困惑的认知受限小学生,随时可能被越狱攻击诱骗泄露你的数据。

基准测试的困境

与此相关的是我在 2025 年对基准测试的普遍冷漠和不信任。核心问题是基准测试几乎在构建时就是可验证环境,因此立即容易受到 RLVR 及其通过合成数据生成的较弱形式的影响。在典型的基准优化过程中,LLM 实验室的团队不可避免地构建与基准占据的嵌入空间小口袋相邻的环境,并生长出锯齿来覆盖它们。在测试集上训练是一种新艺术形式。

粉碎所有基准但仍未获得 AGI 会是什么样子?

3. Cursor / LLM 应用的新层次

Cursor 最值得注意的地方(除了今年的爆发式增长)是它令人信服地揭示了"LLM 应用"的新层次——人们开始谈论"X 的 Cursor"。正如我在今年 Y Combinator 演讲中强调的,像 Cursor 这样的 LLM 应用为特定垂直领域打包和编排 LLM 调用:

2025 年很多讨论花在这个新应用层有多"厚"上。LLM 实验室会捕获所有应用,还是 LLM 应用会有绿色牧场?我个人认为 LLM 实验室会趋向于培养能力全面的大学生,但 LLM 应用会通过提供私有数据、传感器和执行器以及反馈循环,将它们组织、微调并实际动员成特定垂直领域的专业人员团队。

4. Claude Code / 生活在你电脑上的 AI

Claude Code (CC) 成为 LLM Agent 的首个令人信服的展示——以循环方式将工具使用和推理串在一起进行扩展问题解决。此外,CC 值得注意的是它在你的计算机上运行,使用你的私有环境、数据和上下文。

我认为 OpenAI 搞错了方向,因为他们将早期的 codex / agent 努力集中在从 ChatGPT 编排的云容器部署上,而不是简单的 localhost。虽然在云中运行的 agent 群感觉像"AGI 终局",但我们生活在一个具有锯齿状能力的中间且缓慢起飞的世界,直接在开发者的计算机上运行 agent 更有意义。

关键洞察: 重要的主要区别不在于"AI 操作"恰好在哪里运行(云中、本地或其他),而在于其他一切——已经存在并启动的计算机、其安装、上下文、数据、秘密、配置以及低延迟交互。

Anthropic 正确理解了这个优先级顺序,将 CC 打包成令人愉悦的最小 CLI 形式,改变了 AI 的样子——它不只是你访问的网站(如 Google),而是"生活"在你计算机上的小精灵/幽灵。这是与 AI 交互的新的独特范式。

5. Vibe Coding (氛围编程)

2025 年是 AI 跨越能力阈值的一年,可以简单地通过英语构建各种令人印象深刻的程序,忘记代码的存在。有趣的是,我在一条思绪涌动的推文中创造了术语"vibe coding",完全没意识到它会走多远。通过 vibe coding,编程不再严格保留给高度训练的专业人士,而是任何人都可以做的事情。

在这方面,它是我在 Power to the people 中写的另一个例子:LLM 如何翻转技术扩散脚本——普通人从 LLM 获得的收益远大于专业人士、企业和政府(与迄今为止所有其他技术形成鲜明对比)。但 vibe coding 不仅赋能普通人接近编程,还赋能训练有素的专业人士编写更多原本永远不会被编写的(vibe coded)软件。

实践案例

在 nanochat 中,我用 Rust vibe coded 了我自己的自定义高效 BPE tokenizer,而不必采用现有库或学习那个级别的 Rust。我今年 vibe coded 了许多项目作为我想要存在的东西的快速应用演示。

我甚至 vibe coded 整个临时应用只是为了找到一个 bug,因为为什么不呢——代码突然变得免费、短暂、可塑、单次使用后可丢弃。

6. Nano Banana / LLM GUI

Google Gemini Nano banana 是 2025 年最不可思议、范式转变的模型之一。在我的世界观中,LLM 是下一个主要计算范式,类似于 1970 年代、80 年代等的计算机。因此,我们将看到出于根本相似原因的类似创新。我们将看到个人计算的等价物、微控制器(认知核心)或(agent 的)互联网等。

特别是在 UI/UX 方面,与 LLM "聊天"有点像在 1980 年代向计算机控制台发出命令。文本是计算机(和 LLM)的原始/偏好数据表示,但它不是人们偏好的格式,尤其是在输入时。人们实际上不喜欢阅读文本——它缓慢且费力。相反,人们喜欢在视觉上和空间上消费信息,这就是为什么在传统计算中发明了 GUI。

LLM GUI 的未来

同样,LLM 应该以我们偏好的格式与我们交流——图像、信息图、幻灯片、白板、动画/视频、web 应用等。早期和现在的版本当然是表情符号和 Markdown,它们是用标题、粗体、斜体、列表、表格等"装饰"和布局文本以便于视觉消费的方式。

但谁将真正构建 LLM GUI?在这个世界观中,nano banana 是其可能样子的首个早期提示。重要的是,它的一个显著方面不仅仅是图像生成本身,而是来自文本生成、图像生成和世界知识的联合能力,全都纠缠在模型权重中。

小结

2025 年是 LLM 令人兴奋且略微意外的一年。LLM 正在成为一种新型智能,同时比我预期的聪明得多,也比我预期的愚蠢得多。无论如何它们极其有用,我认为即使以目前的能力,行业也没有意识到其潜力的近 10%。

同时,有太多想法可以尝试,从概念上讲这个领域感觉完全开放。正如我今年早些时候在 Dwarkesh 播客上提到的,我同时(表面上矛盾地)相信我们将看到快速和持续的进展,但仍有很多工作要做。