第 22 章强化学习 (Reinforcement Learning)

+

本章主旨

本章是 AIMA 4e 的"强化学习"——MDP / Q-learning / 策略梯度。理解后才能掌握 AI 各子领域。

一、核心概念

本章围绕 3 个核心概念展开：

概念

定义 + 重要性

实现提示

MDP

环境 / 智能体

§22.1

无模型 RL

Q-learning / SARSA

§22.3-22.4

策略梯度

REINFORCE / Actor-Critic

§22.5-22.6

二、本章要点

数 U(s)，（如第17 章所述）它定义为状态 s 之后的奖励总和。
直接效用估计（direct utility estimation ）的思想是，一个状态的效用定义为从该状态出发
用值应当满足固定策略的贝尔曼方程［另见式（17-14）］：

学习建议

AIMA 4e 是 AI 标准教材——每章配套习题巩固理解。
实现关键算法（搜索 / CSP / 逻辑 / 概率 / 学习）才能真正掌握。
与机器学习 / 深度学习课程结合；现代 LLM / Diffusion 改变 AI 格局。

三、关键图表

视觉图表

$图 {ch_num}-1$

Figure 1. 图 {ch_num}-1：{zh}总览

四、思维导图

mindmap
  root((第 {ch_num} 章 {zh}))
    MDP
    无模型 RL
    策略梯度

五、重点与易错点

MDP / Q-learning / 策略梯度。
配套习题：原书第 {ch_num} 章末尾。
实现建议：用 Python / AIMA 代码库 (aima.cs.berkeley.edu) 实践关键算法。
跨章衔接：第 21 章上下文；AI 各子领域互为基础。