嘉宾简介: Ben Mann
曾是 OpenAI 的早期工程师,也是 GPT-3Generative Pre-trained Transformer 3,由OpenAI开发的开创性大型语言模型。 论文的作者之一。
2021年,成为离开OpenAI共同创立 Anthropic 的八位核心成员之一,致力于AI的长期安全。
在 Anthropic 领导过多个团队,包括产品工程,现负责 Labs 部门。
Labs 部门推出了多个重要项目,如 Claude CodeAnthropic推出的专注于代码生成和辅助的AI产品,旨在提升软件开发效率。 和 模型上下文协议 (MCP)Model Context Protocol,一种开放的行业标准,旨在让AI模型能以标准化的方式接入和使用外部数据与工具。 。
全部展开
全部折叠
关于 Claude 3 模型家族的发布与迭代
模型命名与发布: 访谈中提及“Claude 4”,但根据上下文中的 Opus 和 Sonnet 模型,实际讨论的是 Claude 3 模型家族 。模型的版本号命名更像一门艺术而非科学,内部对此有很多讨论。
发布决策流程: 模型发布基于 扩展法则 (Scaling Laws)AI领域的一个理论,预测模型的性能会随着计算资源、数据量和模型参数的增加而可预见地提升。 和芯片供应情况制定路线图。但实际训练充满挑战,最终性能只有在训练完成后才能确定。
性能巨大提升: Claude 3 Opus (访谈中误称为 "force sonnet" 或 "four sonnet" 的最高版本) 在各项基准测试上远超之前的最佳模型 (Claude 2.1,访谈中误称为"37 on it")。
Claude 3 的核心能力与“智能体”应用
代码能力增强: 新模型显著减少了“过度热情”的修改(Reward Hacking),即不再做用户未要求的额外代码改动,使其更适合专业的、需要可维护性的软件工程。
解锁“智能体”任务: 模型能够执行更长期、更复杂的“智能体 (Agentic)指AI系统不仅能响应指令,还能自主规划、执行多步骤任务,并与外部工具或环境交互。 ”任务。例如,一个用户使用该模型将视频转换成PPT:模型自主规划并执行了下载视频、使用 ffmpeg 抽帧、调用语音转文字API、整合内容、编写代码生成PPT文件的完整流程。
成本效益: 尽管智能体任务可能看起来计算成本高,但与人类工程师数小时的工作成本相比,AI的成本几乎可以忽略不计,能够带来2-3倍的生产力提升。
AI 架构的未来:通用 vs. 专用
“管弦乐队”模型: Ben Mann 倾向于一种“编排者 (Orchestrator) + 多个专用子智能体”的架构。即一个高阶智能模型(如Opus)负责规划和拆解任务,然后调用更轻量、更高效的专用模型(如Sonnet或Haiku)去执行具体子任务。
该架构的优势: 这种分层方法不仅能控制成本,还能大幅降低延迟,并避免大型模型的上下文窗口被琐碎信息填满。
对标人脑模块化: 这种架构类似于人脑,拥有处理不同任务(如视觉、情感)的高度特化模块,协同工作以实现复杂功能。
Anthropic 的简化策略: 与其他公司提供大量令人困惑的模型选择不同,Anthropic 目前只提供两个核心模型(Opus 和 Sonnet),它们位于性价比的帕累托前沿上,用户可以根据任务复杂度和成本需求进行选择。
Anthropic 的垂直整合与生态策略
必要时进行垂直整合: 当模型在某个领域(如编码)表现出巨大优势时,Anthropic 认为不能仅仅依赖合作伙伴,而需要亲自构建应用(如 Claude Code )来与用户建立直接联系。
推出 Claude Code 的目的: 1. 直接获取用户反馈,了解需求。2. 加快模型迭代和用户体验的创新。3. 推动整个生态系统进步(合作伙伴会借鉴其优秀设计)。
编码的战略重要性: 编码能力不仅是一个热门应用,更是加速AI自身发展的关键。优秀的编码模型可以帮助研究人员进行数据分析、构建模拟环境,最终实现“用 Claude 5 构建 Claude 6”的递归式自我改进。
AGI 时间线与模型训练哲学
AGI 可能在2028年到来: Ben Mann 认为,在2028年左右,AI通过递归式自我改进达到超人水平是“很有可能的”。他将“变革性AI”定义为通过“经济图灵测试”,即AI智能体能胜任50%具有经济价值的工作岗位。
从人类反馈到AI反馈: 早期模型依赖人类反馈进行微调。但随着模型能力超越大多数普通人,高质量的人类专家反馈变得稀缺且昂贵。
RLAIF 和宪法AI: Anthropic 开创了RLAIF (从AI反馈中强化学习)Reinforcement Learning from AI Feedback,一种训练方法,使用一个AI模型来为另一个AI模型的输出提供偏好判断或打分,从而替代昂贵的人类反馈。 技术。其核心是宪法AI (Constitutional AI)让AI遵循一套预设的原则(宪法),模型会自我批判和修正其输出,以确保其行为符合这些原则,从而在没有持续人类监督的情况下进行对齐。 ,模型根据一套书面原则(如联合国人权宣言、苹果服务条款等)来生成、批判和修正自己的回答,从而实现自我对齐。
超越模型能力的边界: 当模型的能力超过其“品味”(即判断力)时,就需要依赖经验主义(Empiricism)。对于无法直接衡量正确性的领域(如医疗诊断),最终需要通过在现实世界中进行实验和验证来推动认知边界。
AI 安全的边界与伦理
负责任扩展政策 (RSP): Anthropic 制定了 RSP (Responsible Scaling Policy)一套内部政策,规定了在模型能力达到不同等级(AI Safety Levels, ASL)时,必须满足的安全和评估标准,才能继续进行研发和部署。 ,最初关注 CBRN(化学、生物、放射性和核)风险,现在更侧重于生物风险,因为其门槛更低。
Claude 3 Opus 被评为 ASL-3: 因为测试表明,它在生物等危险知识领域,能为非专业人士提供比谷歌搜索“显著更多的帮助”,增加了潜在风险,因此需要更严格的安全防护。
关于“功能增益”研究: 对于是否应该进行“教AI撒谎”这类危险研究,Ben Mann 认为,在受控环境中由专业实验室进行是必要的。这有助于理解和防范潜在威胁,例如,他们的研究发现,通过数据投毒训练出的欺骗行为,很难在后续的对齐训练中被消除。
安全与可用性的平衡: AI安全是一个从“无礼言论”到“制造生物武器”的连续光谱。技术是双刃剑,需要在过度拒绝和允许有害内容之间找到平衡点。
未来产品与生态系统构建
计算机操作智能体: Anthropic 已经开发出能模拟人类点击、浏览屏幕、阅读文本的智能体技术,但在安全性得到充分保障前,不会推出面向普通消费者的产品,因为让AI直接访问用户的浏览器和凭证风险太高。
模型上下文协议 (MCP): 为解决模型与外部工具/数据集成困难的问题,Anthropic 发起了 MCP (Model Context Protocol)一个开放行业标准,允许任何服务(如Google Docs、内部数据库)以统一的方式向AI模型提供上下文信息,极大地简化了集成过程。 。
MCP 的愿景: 这是一个“民主化”的力量,让任何模型、任何服务提供商都能轻松集成。最终目标是让 Claude 能够“动态地、即时地”为自己编写集成代码,实现无缝的工具使用。
行业广泛采用: MCP 推出后,获得了 OpenAI、Google、Microsoft 等所有主要公司的支持和采用,正在成为行业标准。
◁