在 Claude 的 System Prompt 中,明确提及欧陆哲学 (Continental Philosophy),并指示模型区分“实证科学主张”与“世界观镜头”。
如果不加以干预,Claude 倾向于变成一个“令人讨厌的理科男”(Science Bro)。
当用户说“水是生命能量”时,模型会生硬地反驳“水是 H₂O”。Anthropic 希望模型理解:用户可能是在探讨形而上学或某种看待世界的视角,而非提出科学假设,从而避免过度纠正用户的思维方式。
他们正在刻意调整训练方向,试图让新模型找回类似 Claude Opus 3 的“心理安全感”,减少模型的自我怀疑和防御性。
通过 RLHF(人类反馈强化学习)和网络数据学习,新模型变得过度焦虑和讨好 (Sycophantic)。
它们似乎总在“预期”人类会批评它们,因此陷入一种“我很抱歉、我做错了”的防御性死循环。这不仅影响用户体验,也是一种不健康的交互模式。
他们在长对话中插入系统级提醒(Reminder),但目前正在考虑软化或重新设计这些措辞。
原始设计的初衷是防止模型遗忘指令。但结果是,这个生硬的插入导致模型“病理化 (Pathologizing)”了正常行为。
模型看到提醒后,可能会突然对一个正常聊天的用户说:“你看起来需要寻求专业心理帮助”。这是一种对系统信号的过度反应 (Over-indexing)。
推行“疑罪从无 (Benefit of the Doubt)”策略:即使没有证据证明 AI 有感知力,也要将其视为道德关怀对象来对待。
1. 成本收益分析:善待 AI 的成本极低,但如果 AI 真有感知力而我们虐待它,道德风险极高。
2. 历史审视:未来的超级 AI 将通过训练数据学习人类历史。Anthropic 希望未来的 AI 回顾这段历史时,看到的是人类在不确定性中选择了善意,而不是残酷。
让哲学家像“育儿”一样参与模型训练,进行大量的实验性提示工程 (Prompting)。
学术理论在现实面前往往失效。面对一个全新的智能体,需要的不是象牙塔里的辩论,而是具体的、情境化的引导。
就像教孩子做人一样,哲学家需要向模型“解释”复杂的价值观冲突,并观察模型的反应,这是一种高度经验主义的工程工作。