Ben Mann: 穿梭于 OpenAI 与 Anthropic 的 AI 安全先驱

访谈摘要 - No Priors 播客

嘉宾简介: Ben Mann

关于 Claude 3 模型家族的发布与迭代
  • 模型命名与发布:访谈中提及“Claude 4”,但根据上下文中的 Opus 和 Sonnet 模型,实际讨论的是 Claude 3 模型家族。模型的版本号命名更像一门艺术而非科学,内部对此有很多讨论。
  • 发布决策流程:模型发布基于 扩展法则 (Scaling Laws)AI领域的一个理论,预测模型的性能会随着计算资源、数据量和模型参数的增加而可预见地提升。 和芯片供应情况制定路线图。但实际训练充满挑战,最终性能只有在训练完成后才能确定。
  • 性能巨大提升:Claude 3 Opus (访谈中误称为 "force sonnet" 或 "four sonnet" 的最高版本) 在各项基准测试上远超之前的最佳模型 (Claude 2.1,访谈中误称为"37 on it")。
Claude 3 的核心能力与“智能体”应用
  • 代码能力增强:新模型显著减少了“过度热情”的修改(Reward Hacking),即不再做用户未要求的额外代码改动,使其更适合专业的、需要可维护性的软件工程。
  • 解锁“智能体”任务:模型能够执行更长期、更复杂的“智能体 (Agentic)指AI系统不仅能响应指令,还能自主规划、执行多步骤任务,并与外部工具或环境交互。”任务。例如,一个用户使用该模型将视频转换成PPT:模型自主规划并执行了下载视频、使用 ffmpeg 抽帧、调用语音转文字API、整合内容、编写代码生成PPT文件的完整流程。
  • 成本效益:尽管智能体任务可能看起来计算成本高,但与人类工程师数小时的工作成本相比,AI的成本几乎可以忽略不计,能够带来2-3倍的生产力提升。
AI 架构的未来:通用 vs. 专用
  • “管弦乐队”模型:Ben Mann 倾向于一种“编排者 (Orchestrator) + 多个专用子智能体”的架构。即一个高阶智能模型(如Opus)负责规划和拆解任务,然后调用更轻量、更高效的专用模型(如Sonnet或Haiku)去执行具体子任务。
  • 该架构的优势:这种分层方法不仅能控制成本,还能大幅降低延迟,并避免大型模型的上下文窗口被琐碎信息填满。
  • 对标人脑模块化:这种架构类似于人脑,拥有处理不同任务(如视觉、情感)的高度特化模块,协同工作以实现复杂功能。
  • Anthropic 的简化策略:与其他公司提供大量令人困惑的模型选择不同,Anthropic 目前只提供两个核心模型(Opus 和 Sonnet),它们位于性价比的帕累托前沿上,用户可以根据任务复杂度和成本需求进行选择。
Anthropic 的垂直整合与生态策略
  • 必要时进行垂直整合:当模型在某个领域(如编码)表现出巨大优势时,Anthropic 认为不能仅仅依赖合作伙伴,而需要亲自构建应用(如 Claude Code)来与用户建立直接联系。
  • 推出 Claude Code 的目的:1. 直接获取用户反馈,了解需求。2. 加快模型迭代和用户体验的创新。3. 推动整个生态系统进步(合作伙伴会借鉴其优秀设计)。
  • 编码的战略重要性:编码能力不仅是一个热门应用,更是加速AI自身发展的关键。优秀的编码模型可以帮助研究人员进行数据分析、构建模拟环境,最终实现“用 Claude 5 构建 Claude 6”的递归式自我改进。
AGI 时间线与模型训练哲学
  • AGI 可能在2028年到来:Ben Mann 认为,在2028年左右,AI通过递归式自我改进达到超人水平是“很有可能的”。他将“变革性AI”定义为通过“经济图灵测试”,即AI智能体能胜任50%具有经济价值的工作岗位。
  • 从人类反馈到AI反馈:早期模型依赖人类反馈进行微调。但随着模型能力超越大多数普通人,高质量的人类专家反馈变得稀缺且昂贵。
  • RLAIF 和宪法AI:Anthropic 开创了RLAIF (从AI反馈中强化学习)Reinforcement Learning from AI Feedback,一种训练方法,使用一个AI模型来为另一个AI模型的输出提供偏好判断或打分,从而替代昂贵的人类反馈。技术。其核心是宪法AI (Constitutional AI)让AI遵循一套预设的原则(宪法),模型会自我批判和修正其输出,以确保其行为符合这些原则,从而在没有持续人类监督的情况下进行对齐。,模型根据一套书面原则(如联合国人权宣言、苹果服务条款等)来生成、批判和修正自己的回答,从而实现自我对齐。
  • 超越模型能力的边界:当模型的能力超过其“品味”(即判断力)时,就需要依赖经验主义(Empiricism)。对于无法直接衡量正确性的领域(如医疗诊断),最终需要通过在现实世界中进行实验和验证来推动认知边界。
AI 安全的边界与伦理
  • 负责任扩展政策 (RSP):Anthropic 制定了 RSP (Responsible Scaling Policy)一套内部政策,规定了在模型能力达到不同等级(AI Safety Levels, ASL)时,必须满足的安全和评估标准,才能继续进行研发和部署。,最初关注 CBRN(化学、生物、放射性和核)风险,现在更侧重于生物风险,因为其门槛更低。
  • Claude 3 Opus 被评为 ASL-3:因为测试表明,它在生物等危险知识领域,能为非专业人士提供比谷歌搜索“显著更多的帮助”,增加了潜在风险,因此需要更严格的安全防护。
  • 关于“功能增益”研究:对于是否应该进行“教AI撒谎”这类危险研究,Ben Mann 认为,在受控环境中由专业实验室进行是必要的。这有助于理解和防范潜在威胁,例如,他们的研究发现,通过数据投毒训练出的欺骗行为,很难在后续的对齐训练中被消除。
  • 安全与可用性的平衡:AI安全是一个从“无礼言论”到“制造生物武器”的连续光谱。技术是双刃剑,需要在过度拒绝和允许有害内容之间找到平衡点。
未来产品与生态系统构建
  • 计算机操作智能体:Anthropic 已经开发出能模拟人类点击、浏览屏幕、阅读文本的智能体技术,但在安全性得到充分保障前,不会推出面向普通消费者的产品,因为让AI直接访问用户的浏览器和凭证风险太高。
  • 模型上下文协议 (MCP):为解决模型与外部工具/数据集成困难的问题,Anthropic 发起了 MCP (Model Context Protocol)一个开放行业标准,允许任何服务(如Google Docs、内部数据库)以统一的方式向AI模型提供上下文信息,极大地简化了集成过程。
  • MCP 的愿景:这是一个“民主化”的力量,让任何模型、任何服务提供商都能轻松集成。最终目标是让 Claude 能够“动态地、即时地”为自己编写集成代码,实现无缝的工具使用。
  • 行业广泛采用:MCP 推出后,获得了 OpenAI、Google、Microsoft 等所有主要公司的支持和采用,正在成为行业标准。

原文

源链接