第 22 章 强化学习 (Reinforcement Learning)

      +
      本章主旨

      本章是 AIMA 4e 的"强化学习"——MDP / Q-learning / 策略梯度。理解后才能掌握 AI 各子领域。

      一、核心概念

      本章围绕 3 个核心概念展开:

      概念 定义 + 重要性 实现提示

      MDP

      环境 / 智能体

      §22.1

      无模型 RL

      Q-learning / SARSA

      §22.3-22.4

      策略梯度

      REINFORCE / Actor-Critic

      §22.5-22.6

      二、本章要点

      • 数 U(s), (如第17 章所述)它定义为状态 s 之后的奖励总和。

      • 直接效用估计 (direct utility estimation )的思想是,一个状态的效用定义为从该状态出发

      • 用值应当满足固定策略的贝尔曼方程[另见式(17-14)]:

      学习建议
      • AIMA 4e 是 AI 标准教材——每章配套习题巩固理解。

      • 实现关键算法(搜索 / CSP / 逻辑 / 概率 / 学习)才能真正掌握。

      • 与机器学习 / 深度学习课程结合;现代 LLM / Diffusion 改变 AI 格局。

      三、关键图表

      视觉图表

      图 {ch_num}-1
      Figure 1. 图 {ch_num}-1:{zh}总览

      四、思维导图

      mindmap
        root((第 {ch_num} 章 {zh}))
          MDP
          无模型 RL
          策略梯度

      五、重点与易错点

      • MDP / Q-learning / 策略梯度。

      • 配套习题:原书第 {ch_num} 章末尾。

      • 实现建议:用 Python / AIMA 代码库 (aima.cs.berkeley.edu) 实践关键算法。

      • 跨章衔接:第 21 章上下文;AI 各子领域互为基础。