第 24 章自然语言处理中的深度学习 (Deep Learning for NLP)

+

本章主旨

本章是 AIMA 4e 的"自然语言处理中的深度学习"——RNN / LSTM / Transformer / BERT / GPT。理解后才能掌握 AI 各子领域。

一、核心概念

本章围绕 3 个核心概念展开：

概念

定义 + 重要性

实现提示

RNN / LSTM

序列建模

§24.1-24.2

Transformer

注意力 / 位置编码

§24.3

预训练模型

BERT / GPT / T5

§24.4-24.6

二、本章要点

其中，[xi; ci] 是输入和上下文向量 ci 的拼接，ci 定义为
注意力的概率 softmax 公式有 3 个作用。第一，它使注意力可微，这是使用反向传播的
所以概率公式允许模型捕捉源 RNN 可能没有捕捉到的某些类型的远距离上下文。第三，概率

学习建议

AIMA 4e 是 AI 标准教材——每章配套习题巩固理解。
实现关键算法（搜索 / CSP / 逻辑 / 概率 / 学习）才能真正掌握。
与机器学习 / 深度学习课程结合；现代 LLM / Diffusion 改变 AI 格局。

三、关键图表

视觉图表

$图 {ch_num}-1$

Figure 1. 图 {ch_num}-1：{zh}总览

四、思维导图

mindmap
  root((第 {ch_num} 章 {zh}))
    RNN / LS
    Transfor
    预训练模型

五、重点与易错点

RNN / LSTM / Transformer / BERT / GPT。
配套习题：原书第 {ch_num} 章末尾。
实现建议：用 Python / AIMA 代码库 (aima.cs.berkeley.edu) 实践关键算法。
跨章衔接：第 23 章上下文；AI 各子领域互为基础。