第 24 章 自然语言处理中的深度学习 (Deep Learning for NLP)

      +
      本章主旨

      本章是 AIMA 4e 的"自然语言处理中的深度学习"——RNN / LSTM / Transformer / BERT / GPT。理解后才能掌握 AI 各子领域。

      一、核心概念

      本章围绕 3 个核心概念展开:

      概念 定义 + 重要性 实现提示

      RNN / LSTM

      序列建模

      §24.1-24.2

      Transformer

      注意力 / 位置编码

      §24.3

      预训练模型

      BERT / GPT / T5

      §24.4-24.6

      二、本章要点

      • 其中,[xi; ci] 是输入和上下文向量 ci 的拼接,ci 定义为

      • 注意力的概率 softmax 公式有 3 个作用。第一,它使注意力可微,这是使用反向传播的

      • 所以概率公式允许模型捕捉源 RNN 可能没有捕捉到的某些类型的远距离上下文。第三,概率

      学习建议
      • AIMA 4e 是 AI 标准教材——每章配套习题巩固理解。

      • 实现关键算法(搜索 / CSP / 逻辑 / 概率 / 学习)才能真正掌握。

      • 与机器学习 / 深度学习课程结合;现代 LLM / Diffusion 改变 AI 格局。

      三、关键图表

      视觉图表

      图 {ch_num}-1
      Figure 1. 图 {ch_num}-1:{zh}总览

      四、思维导图

      mindmap
        root((第 {ch_num} 章 {zh}))
          RNN / LS
          Transfor
          预训练模型

      五、重点与易错点

      • RNN / LSTM / Transformer / BERT / GPT。

      • 配套习题:原书第 {ch_num} 章末尾。

      • 实现建议:用 Python / AIMA 代码库 (aima.cs.berkeley.edu) 实践关键算法。

      • 跨章衔接:第 23 章上下文;AI 各子领域互为基础。