Sholto Douglas
Anthropic AI 研究员。在加入 Anthropic 之前,曾是 Google Gemini 项目的关键成员,专注于推理、研究基础设施和性能优化。他是AI领域的前沿思考者,尤其在模型能力扩展和实际应用方面有深入研究。
Anthropic AI 研究员 Sholto Douglas | 深入探讨 AI 进展、战略聚焦与 AGI 的未来
Anthropic AI 研究员。在加入 Anthropic 之前,曾是 Google Gemini 项目的关键成员,专注于推理、研究基础设施和性能优化。他是AI领域的前沿思考者,尤其在模型能力扩展和实际应用方面有深入研究。
Claude 3.5 Sonnet 于2025年2月发布,仅仅几个月后,4.5 Sonnet 就已问世。这种高频率发布反映了AI领域的快速迭代。
新发布的 Claude 4.5 Sonnet(中端模型)在很多方面比之前的旗舰模型 Opus 更强大。这是因为在更小、训练成本更低的模型上进行研发迭代速度更快,技术进步的成果能迅速体现在新模型上。
Sholto 指出,与 DeepMind 广泛的科学探索不同,Anthropic 是一个“专注的赌注”(focused bet)。公司将资源高度集中在两个核心领域:
为了保持专注,Anthropic “不情愿地牺牲了”(reluctantly sacrificed)对 数学推理(Mathematical Reasoning) 的重点投入。这与其他顶级实验室(如 OpenAI 和 DeepMind)形成鲜明对比,后者因其对科学进步的巨大潜力而大力投资于数学领域。
这一战略选择基于以下考量:
SWE-bench 是一个衡量模型解决真实世界 GitHub 代码问题的基准。Claude 4.5 Sonnet 的分数从约 72% 提升到了 78%,这是一个巨大的进步,也使其成为目前该基准上表现最好的模型。一年前,整个领域的水平还不到20%。
在一个内部测试中,模型被要求构建一个类似 Slack 的聊天应用。它自主工作了 **30个小时**,期间不断编写代码、运行测试、进行调试,并最终成功交付了一个功能完善的应用。这标志着AI Agent的长期连贯性和自主性达到了新的高度。
AI Agent 的核心突破在于从只能执行几分钟的短任务,演进到能够维持数小时甚至数十小时的长期目标。这得益于更强的自我纠正能力和记忆机制(如使用Markdown文件做待办事项列表)。
“品味”是一种在信息不完美的情况下,判断何种研究方向、架构或数据组合最有潜力扩展并取得成功的直觉和能力。它要求研究者对底层机制有深刻理解,并倾向于选择更简单、更具普适性的方法,而非复杂的“奇技淫巧”。
由 Richard Sutton 提出的理论,核心思想是:长期来看,利用大规模计算的通用方法(如搜索和学习)总是会胜过依赖人类知识和复杂设计的特定方法。模型的规模和计算能力最终会抹平那些精巧的“先验知识”带来的优势。
引用了 AI 巨擘 Noam Shazeer 的例子,他认为自己可能只有10%的想法是成功的。这说明AI研究充满了不确定性,需要鼓励在安全的环境中进行大量实验和探索。
Sholto 个人认为,当前以大规模语言模型 + 强化学习(LLMs + RL)为核心的范式是足够(sufficient)通向 AGI 的。这里的 AGI 定义为“在大多数面向计算机的任务上超越大多数人类”。
他强烈反对“AI发展已达平台期”的说法。他认为,过去几年每个月都有人这么说,但事实证明进展是持续且巨大的。目前的AI模型生产流程还非常“原始”,像是“用胶带和蛮力拼凑起来的”,在数据、算法、算力优化的每个环节都还有巨大的改进空间。
无论是编程能力(SWE-bench)、多领域任务处理能力(GDP eval),还是长期任务执行时长的能力(Meta-evals),只要一个能力被定义并被量化为基准,模型在该基准上的表现就会以惊人的速度提升。
基于当前的进展速度和巨大的优化潜力,他认为AI行业很有可能在未来2-3年内创造出达到上述 AGI 定义的系统。
最直接的影响是,个人将获得前所未有的“杠杆”。未来,一个人或许能管理一个由AI Agent组成的、24/7工作的“团队”,从而在数字世界中完成以前需要庞大组织才能完成的工作。“赌在指数增长上(Bet on the exponential)”是给创业者和所有人的核心建议。
尽管机器人手部精细操作仍是挑战(莫拉维克悖论),但Sholto认为这主要是数据和反馈信号的问题,而非不可逾越的障碍。机器人运动(locomotion)已经基本被RL解决。随着更智能的语言模型可以作为机器人的“规划大脑”和“行为裁判”,机器人技术正处在快速发展的轨道上,未来将把AI的能力从数字世界延伸到物理世界。