第一部分:理论基础
第1章: 概览 - 万物存在之理
核心问题
生命体如何在与环境的适应性互动中维持自身的存在?这是主动推断试图回答的根本问题。
核心原则
- 所有智能行为都遵循一个统一的命令:最小化其感官观察的“意外”(Surprise)。
- “意外”很难直接计算,因此生物体通过最小化一个可计算的替代品——变分自由能 (Variational Free Energy)——来实现这一目标。
- 这引出了核心的自由能原理 (Free Energy Principle),即存在即我证 (self-evidencing)。
两条路径
理解主动推断有两条互补的路径:
- 高路 (The High Road):从物理和生存的角度出发,解释为什么生物必须最小化自由能。
- 低路 (The Low Road):从“贝叶斯大脑”假说出发,将感知、行动和规划都视为一种推断过程。
第2章: 低路 - 作为推断的大脑
感知即推断
- 大脑不是被动接收信息,而是像一个科学家一样,不断地用生成模型 (Generative Model)来预测感官输入,并用实际输入来修正预测。
- 这个过程遵循贝叶斯法则,结合先验知识和感官证据(似然)来形成后验信念。
行动即推断
主动推断的核心创见在于:行动和感知是同一枚硬币的两面,都服务于最小化自由能这一共同目标。
- 感知 (Perception): 改变你的信念以匹配世界,从而减少预测错误。
- 行动 (Action): 改变世界以匹配你的信念(或偏好),从而减少预测错误。
规划与期望自由能
- 规划未来行动时,大脑评估的是期望自由能 (Expected Free Energy)。
- 该公式自然地解决了探索-利用困境:
- 认知价值 (Epistemic Value):选择能最大化信息增益、减少不确定性的行动(探索)。
- 实用价值 (Pragmatic Value):选择能带来偏好结果(如奖励)的行动(利用)。
第3章: 高路 - 生存的第一性原理
马尔可夫毯 (Markov Blanket)
- 任何系统要维持自身,必须与环境有一个统计上的边界,这个边界就是马尔可夫毯。
- 这个边界使得系统内部状态和外部状态实现了有条件的独立,为自主性提供了基础。
- 通过毯子的互动,内部状态最终会与外部状态形成一种广义同步,这可以被看作是内部状态在“建模”外部世界。
自证 (Self-Evidencing)
生命体通过行动来采集感官证据,以证实其自身模型的存在。最大化模型证据等同于最小化意外。
- 这个过程使生命体能够抵抗热力学第二定律,暂时维持低熵状态。
- 这与控制论中的稳态 (Homeostasis)和物理学中的最小作用量原理在形式上是等价的。
第4章: 主动推断的生成模型
模型的两种主要形式
主动推断依赖于具体的生成模型,本书主要介绍两种:
- POMDP 模型: 用于离散时间下的决策和规划。它处理的是“做什么”的问题,例如在迷宫中选择左转还是右转。
- 连续时间模型: 用于连续时间下的感知和运动控制。它处理的是“如何做”的问题,例如平滑地伸出手臂。它构成了预测编码 (Predictive Coding)的基础。
信念更新
模型的求解(即信念更新)是通过一种称为变分消息传递 (Variational Message Passing)的算法实现的,该算法本质上是在自由能的地形上进行梯度下降。
第5章: 消息传递与神经生物学
过程理论
主动推断不仅仅是抽象理论,它还提出了一个具体的“过程理论”,将计算过程映射到大脑的结构和功能上。
皮层微环路
- 大脑皮层的分层结构(例如六层结构)与预测编码的消息传递架构惊人地吻合。
- 深层锥体细胞发送自上而下的预测信号。
- 浅层锥体细胞发送自下而上的预测错误信号。
运动控制与神经调质
- 运动指令被视为对本体感觉的预测,行动通过脊髓反射弧来实现这些预测。
- 精确度 (Precision)。例如,多巴胺编码了对策略选择的信心。
第二部分:实践应用
第6-9章: 实践中的主动推断
第6章: 设计模型的四步法
- 定义系统: 确定马尔可夫毯的边界(主体 vs 环境)。
- 选择模型形式: 离散/连续?深/浅?是否需要规划?
- 设置生成模型: 定义状态、结果、先验和学习规则。
- 设置生成过程: 定义模拟环境或任务。
第7章: 离散时间模型实例
- 感知: 使用隐马尔可夫模型(HMM)模拟听音乐,从嘈杂的音符中推断出正确的乐谱。
- 决策: 使用POMDP模拟T型迷宫任务,展示大鼠如何首先探索(寻找线索以减少不确定性),然后利用(根据线索前往奖励地点)。
- 学习: 学习是更新模型参数(如A、B矩阵)的推断过程,它催生了对新颖性的追求。
第8章: 连续时间模型实例
- 运动控制: 运动被视为实现本体感觉预测的过程,类似于平衡点假说。
- 动态系统: 使用洛伦兹吸引子等动态系统来生成复杂的、类似生物的行为序列(如模拟鸟鸣)。
- 广义同步: 模拟两个智能体(如鸣鸟)通过交流使其内部状态(信念)同步,为社交互动提供了理论基础。
- 混合模型: 结合离散(高层规划)和连续(低层执行)模型,模拟从“决定去哪里”到“如何移动过去”的完整过程。
第9章: 基于模型的数据分析
我们可以将主动推断框架应用于分析真实实验数据,这个过程被称为“元贝叶斯推断”。
- 科学家建立一个客观模型,该模型内嵌一个被试的主观模型。
- 通过观察被试的行为,我们可以反向推断其主观模型中的参数(例如,他们的先验信念或偏好)。
- 这使得进行计算表型分析 (Computational Phenotyping)成为可能,尤其在精神病理学研究中具有重要价值。
第10章: 作为统一理论的主动推断
主动推断提供了一个统一的框架,将看似孤立的认知功能(感知、行动、注意力、情绪、学习等)整合在最小化自由能这一共同原则之下。
与其他理论的关联
- 强化学习 (RL): RL依赖于外部奖励和价值函数,而主动推断用内在的先验偏好和期望自由能取而代之,并自然地统一了探索与利用。
- 控制论 (Cybernetics): 共享目标导向和误差修正的核心思想,但主动推断提供了基于生成模型的前瞻性控制。
- 预测性加工 (Predictive Processing): 主动推断是预测性加工思想的一个形式化、可计算的实现,并明确地将行动也纳入了预测框架。
未来方向
主动推断的原理可以被扩展到更广阔的领域:
- 社会与文化动力学: 多个主动推断智能体的互动如何形成社会规范和文化。
- 机器学习与机器人学: 构建具有更强泛化能力和数据效率的自主智能体。