Ben Mann: 穿梭于 OpenAI 与 Anthropic 的 AI 安全先驱

关于 Claude 3 模型家族的发布与迭代

模型命名与发布：访谈中提及“Claude 4”，但根据上下文中的 Opus 和 Sonnet 模型，实际讨论的是 Claude 3 模型家族。模型的版本号命名更像一门艺术而非科学，内部对此有很多讨论。
发布决策流程：模型发布基于扩展法则 (Scaling Laws)AI领域的一个理论，预测模型的性能会随着计算资源、数据量和模型参数的增加而可预见地提升。和芯片供应情况制定路线图。但实际训练充满挑战，最终性能只有在训练完成后才能确定。
性能巨大提升：Claude 3 Opus (访谈中误称为 "force sonnet" 或 "four sonnet" 的最高版本) 在各项基准测试上远超之前的最佳模型 (Claude 2.1，访谈中误称为"37 on it")。

Claude 3 的核心能力与“智能体”应用

代码能力增强：新模型显著减少了“过度热情”的修改（Reward Hacking），即不再做用户未要求的额外代码改动，使其更适合专业的、需要可维护性的软件工程。
解锁“智能体”任务：模型能够执行更长期、更复杂的“智能体 (Agentic)指AI系统不仅能响应指令，还能自主规划、执行多步骤任务，并与外部工具或环境交互。”任务。例如，一个用户使用该模型将视频转换成PPT：模型自主规划并执行了下载视频、使用 ffmpeg 抽帧、调用语音转文字API、整合内容、编写代码生成PPT文件的完整流程。
成本效益：尽管智能体任务可能看起来计算成本高，但与人类工程师数小时的工作成本相比，AI的成本几乎可以忽略不计，能够带来2-3倍的生产力提升。

AI 架构的未来：通用 vs. 专用

“管弦乐队”模型：Ben Mann 倾向于一种“编排者 (Orchestrator) + 多个专用子智能体”的架构。即一个高阶智能模型（如Opus）负责规划和拆解任务，然后调用更轻量、更高效的专用模型（如Sonnet或Haiku）去执行具体子任务。
该架构的优势：这种分层方法不仅能控制成本，还能大幅降低延迟，并避免大型模型的上下文窗口被琐碎信息填满。
对标人脑模块化：这种架构类似于人脑，拥有处理不同任务（如视觉、情感）的高度特化模块，协同工作以实现复杂功能。
Anthropic 的简化策略：与其他公司提供大量令人困惑的模型选择不同，Anthropic 目前只提供两个核心模型（Opus 和 Sonnet），它们位于性价比的帕累托前沿上，用户可以根据任务复杂度和成本需求进行选择。

Anthropic 的垂直整合与生态策略

必要时进行垂直整合：当模型在某个领域（如编码）表现出巨大优势时，Anthropic 认为不能仅仅依赖合作伙伴，而需要亲自构建应用（如 Claude Code）来与用户建立直接联系。
推出 Claude Code 的目的：1. 直接获取用户反馈，了解需求。2. 加快模型迭代和用户体验的创新。3. 推动整个生态系统进步（合作伙伴会借鉴其优秀设计）。
编码的战略重要性：编码能力不仅是一个热门应用，更是加速AI自身发展的关键。优秀的编码模型可以帮助研究人员进行数据分析、构建模拟环境，最终实现“用 Claude 5 构建 Claude 6”的递归式自我改进。

AGI 时间线与模型训练哲学

AGI 可能在2028年到来：Ben Mann 认为，在2028年左右，AI通过递归式自我改进达到超人水平是“很有可能的”。他将“变革性AI”定义为通过“经济图灵测试”，即AI智能体能胜任50%具有经济价值的工作岗位。
从人类反馈到AI反馈：早期模型依赖人类反馈进行微调。但随着模型能力超越大多数普通人，高质量的人类专家反馈变得稀缺且昂贵。
RLAIF 和宪法AI：Anthropic 开创了RLAIF (从AI反馈中强化学习)Reinforcement Learning from AI Feedback，一种训练方法，使用一个AI模型来为另一个AI模型的输出提供偏好判断或打分，从而替代昂贵的人类反馈。技术。其核心是宪法AI (Constitutional AI)让AI遵循一套预设的原则（宪法），模型会自我批判和修正其输出，以确保其行为符合这些原则，从而在没有持续人类监督的情况下进行对齐。，模型根据一套书面原则（如联合国人权宣言、苹果服务条款等）来生成、批判和修正自己的回答，从而实现自我对齐。
超越模型能力的边界：当模型的能力超过其“品味”（即判断力）时，就需要依赖经验主义（Empiricism）。对于无法直接衡量正确性的领域（如医疗诊断），最终需要通过在现实世界中进行实验和验证来推动认知边界。

AI 安全的边界与伦理

负责任扩展政策 (RSP)：Anthropic 制定了 RSP (Responsible Scaling Policy)一套内部政策，规定了在模型能力达到不同等级（AI Safety Levels, ASL）时，必须满足的安全和评估标准，才能继续进行研发和部署。，最初关注 CBRN（化学、生物、放射性和核）风险，现在更侧重于生物风险，因为其门槛更低。
Claude 3 Opus 被评为 ASL-3：因为测试表明，它在生物等危险知识领域，能为非专业人士提供比谷歌搜索“显著更多的帮助”，增加了潜在风险，因此需要更严格的安全防护。
关于“功能增益”研究：对于是否应该进行“教AI撒谎”这类危险研究，Ben Mann 认为，在受控环境中由专业实验室进行是必要的。这有助于理解和防范潜在威胁，例如，他们的研究发现，通过数据投毒训练出的欺骗行为，很难在后续的对齐训练中被消除。
安全与可用性的平衡：AI安全是一个从“无礼言论”到“制造生物武器”的连续光谱。技术是双刃剑，需要在过度拒绝和允许有害内容之间找到平衡点。

未来产品与生态系统构建

计算机操作智能体：Anthropic 已经开发出能模拟人类点击、浏览屏幕、阅读文本的智能体技术，但在安全性得到充分保障前，不会推出面向普通消费者的产品，因为让AI直接访问用户的浏览器和凭证风险太高。
模型上下文协议 (MCP)：为解决模型与外部工具/数据集成困难的问题，Anthropic 发起了 MCP (Model Context Protocol)一个开放行业标准，允许任何服务（如Google Docs、内部数据库）以统一的方式向AI模型提供上下文信息，极大地简化了集成过程。。
MCP 的愿景：这是一个“民主化”的力量，让任何模型、任何服务提供商都能轻松集成。最终目标是让 Claude 能够“动态地、即时地”为自己编写集成代码，实现无缝的工具使用。
行业广泛采用：MCP 推出后，获得了 OpenAI、Google、Microsoft 等所有主要公司的支持和采用，正在成为行业标准。

嘉宾简介: Ben Mann