在 八月至九月初 期间,三个独立的基础设施Bug间歇性地导致了Claude模型响应质量的下降。目前所有问题均已解决。
我们的声明:我们绝不会因为需求、时段或服务器负载而降低模型质量。用户报告的问题完全是由基础设施的Bug引起的。我们承认在这些事件中未能达到用户对Claude一致高质量的期望标准。
多个Bug的重叠使得诊断变得异常困难。
问题描述: 部分 Sonnet 4 的请求被错误地路由到为即将推出的 1M Token 上下文窗口配置的服务器上。
影响范围:
解决方案: 修复了路由逻辑,确保长短上下文请求被定向到正确的服务器池。该修复已于 9月16日 前在自有平台和Google Cloud上完成部署。
问题描述: 8月25日,在 Claude API 的 TPU 服务器上部署的一个错误配置,导致Token生成过程中出现错误。
具体表现: 一项运行时性能优化偶尔会给本不应出现的Token分配高概率,例如在英文回答中插入泰语("สวัสดี")或中文字符,或在代码中产生明显的语法错误。
影响范围:
解决方案: 9月2日 发现问题并回滚了变更。同时,在部署流程中增加了对意外字符输出的检测测试。
问题描述: 8月25日,部署的一段旨在改进Token选择的代码,无意中触发了 XLA:TPU 编译器中的一个潜在Bug。
影响范围:
解决方案: 分别于 9月4日 和 9月12日 回滚了相关代码。同时,正在与XLA:TPU团队合作修复编译器Bug,并已部署了使用更高精度的“精确top-k”作为内部修复方案。
这个Bug的根本原因在于混合精度计算和性能优化的冲突。
模型质量是不可协商的,因此我们接受了切换到性能稍低的“精确 top-k”方案带来的微小效率影响。
为了防止类似事件再次发生,我们将做出以下改变: