第 12 章 图像模式分类 (Image Pattern Classification)

      +

      核心结论

      • 背景(§12.1):模式分类定义;监督 / 无监督 / 半监督。

      • 贝叶斯决策理论(§12.2):贝叶斯最优分类;最小错误率 / 最小风险。

      • 参数估计(§12.3):最大似然(MLE)/ 最大后验(MAP);高斯模型。

      • 非参数估计(§12.4):K-近邻 / Parzen 窗;无需参数假设。

      • 线性判别函数(§12.5):感知机 / SVM / Fisher 判别。

      • 神经网络(深度学习)(§12.6):MLP / CNN / ResNet;当前 SOTA。

      • 深度学习实现(§12.7):随机梯度 / 反向传播 / 优化器。

      • 卷积神经网络(额外材料)(§12.8):CNN 架构 / 训练技巧。

      • 半监督 / 自监督学习(§12.9):少标签 + 自监督;现代主流。

      本章主旨

      本章是图像识别——把特征向量映射到类别标签。理解后才能做分类 / 识别系统;现代用深度学习(CNN / ViT)实现 SOTA。

      一、核心概念

      本章围绕 9 个核心概念展开:背景 → 贝叶斯 → 参数估计 → 非参数 → 线性判别 → 神经网络 → 实现 → CNN → 半监督。

      概念 定义 + 重要性 实现提示

      背景

      模式分类定义;监督 / 无监督。

      §12.1;理解分类任务。

      贝叶斯决策

      贝叶斯最优;最小错误率。

      §12.2;分类的理论上限。

      参数估计

      MLE / MAP;高斯模型。

      §12.3;经典统计学习。

      非参数估计

      KNN / Parzen 窗;无需假设。

      §12.4;灵活但数据需求大。

      线性判别

      感知机 / SVM / Fisher。

      §12.5;分类基础。

      神经网络

      MLP / CNN / ResNet;当前 SOTA。

      §12.6;现代主流。

      深度学习实现

      SGD / Adam / 反向传播。

      §12.7;工程实现。

      CNN(额外材料)

      CNN 架构 / 训练技巧。

      §12.8;CV 主流架构。

      半监督 / 自监督

      少标签 + 自监督。

      §12.9;现代方向。

      二、详细笔记

      2.1 背景 (Background)

      What:模式分类定义;监督 / 无监督 / 半监督。

      Why:理解分类任务基础。

      How

      • 模式分类:从特征向量到类别标签。

      • 监督:(x, y) 训练对;学习 f: X → Y

      • 无监督:只有 x;聚类 / 降维。

      • 半监督 / 自监督:少量标签 + 大量无标签。

      When:所有分类任务。

      Example:猫 / 狗分类(监督);用户分群(无监督)。

      2.2 贝叶斯决策理论 (Bayesian Decision Theory)

      What:贝叶斯最优分类。

      Why:分类的理论上限。

      How

      • 后验P(c|x) = P(x|c) P(c) / P(x)

      • 最优分类c* = argmax_c P(c|x)

      • 最小风险c* = argmin_c Σ R(c_i | c_j) P(c_j|x)

      When:理论分析;基准对比。

      Example:高斯判别分析(GDA)。

      2.3 参数估计 (Parameter Estimation)

      What:MLE / MAP;高斯模型。

      Why:经典统计学习;贝叶斯方法基础。

      How

      • MLEθ̂ = argmax P(D|θ)

      • MAPθ̂ = argmax P(θ|D) = argmax P(D|θ) P(θ)

      • 高斯均值 / 方差:闭式解。

      When:高斯模型;朴素贝叶斯。

      Examplesklearn.naive_bayes.GaussianNB

      2.4 非参数估计 (Nonparametric Estimation)

      What:K-近邻 / Parzen 窗。

      Why:无需参数假设;灵活。

      How

      • KNNc(x) = mode(c(x_i)) for x_i ∈ k-NN(x)

      • Parzen 窗:核函数估计密度。

      • K 选择:交叉验证。

      When:样本足够;非高斯数据。

      Example*:sklearn.neighbors.KNeighborsClassifier

      2.5 线性判别函数 (Linear Discriminant Functions)

      What:感知机 / SVM / Fisher 判别。

      Why:分类的基础方法。

      How

      • 感知机:梯度下降;线性可分收敛。

      • SVM:最大化间隔;核函数扩展非线性。

      • Fisher 判别:类间 / 类内比最大化。

      When:线性可分数据;高维特征。

      Example*:sklearn.svm.SVCsklearn.discriminant_analysis.LinearDiscriminantAnalysis

      2.6 神经网络(深度学习) (Neural Networks)

      What:MLP / CNN / ResNet;当前 SOTA。

      Why:现代 CV 主流。

      How

      • MLP:多层感知机;激活函数 + 反向传播。

      • CNN:卷积 + 池化 + 全连接。

      • ResNet:残差连接;训练深网。

      • ViT:Transformer 编码器。

      When:所有 CV 任务;大数据集 SOTA。

      Example*:torchvision.models.resnet50(pretrained=True)

      2.7 深度学习实现 (Deep Learning Implementation)

      What:SGD / Adam / 反向传播。

      Why:工程实现基础。

      How

      • 反向传播:链式法则求梯度。

      • SGD:随机梯度下降;batch size / learning rate。

      • Adam:自适应学习率;默认选择。

      • 正则化:Dropout / Weight Decay / BatchNorm。

      When:训练所有神经网络。

      Example*:torch.optim.Adam(model.parameters(), lr=1e-3);PyTorch Lightning。

      2.8 卷积神经网络(额外材料) (CNN Extras)

      What:CNN 架构 / 训练技巧。

      Why:CV 主流架构。

      How

      • 架构:AlexNet / VGG / ResNet / EfficientNet / ViT。

      • 训练技巧:数据增强 / 学习率调度 / 预训练 + 微调。

      • GPU 加速:CUDA / cuDNN。

      When:训练 CV 模型。

      Example*:torchvision.modelstimmHuggingFace transformers

      2.9 半监督 / 自监督学习 (Semi-/Self-Supervised)

      What:少标签 + 自监督。

      Why:标注数据昂贵;现代主流方向。

      How

      • 半监督:少量标签 + 大量无标签;pseudo-label。

      • 自监督:旋转预测 / 拼图 / 对比学习(SimCLR / MoCo / DINO)。

      • 基础模型:CLIP / SAM / GPT-4V 零样本。

      When:少标签场景;预训练大模型。

      Example*:timm 提供 DINOv2 预训练;open_clip 提供 CLIP。

      三、关键图表

      视觉图表

      图 12-1
      Figure 1. 图 12-1:贝叶斯分类示意
      图 12-2
      Figure 2. 图 12-2:CNN 架构演进

      非可视化条目

      非可视化条目(表 / 算法)
      编号 内容摘要

      表 12.1

      分类算法对比(贝叶斯 / KNN / SVM / NN)。

      式 12-1 至 12-30

      MLE / SVM / 神经网络公式。

      核心公式对照表

      核心公式对照表
      概念 公式

      贝叶斯最优

      latexmath:[c^* = \arg\max_c P(c

      \mathbf{x})]

      MLE

      latexmath:[\hat{\theta} = \arg\max P(D

      \theta) = \arg\max \prod_i P(x_i

      \theta)]

      SVM

      \(\min \frac{1}{2} |\mathbf{w}|^2 \text{ s.t. } y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1\)

      交叉熵损失

      四、思维导图

      mindmap
        root((第 12 章 图像模式分类))
          背景
            监督无监督
          贝叶斯
            最优分类
          参数估计
            MLE
            MAP
          非参数
            KNN
            Parzen
          线性判别
            感知机
            SVM
          神经网络
            MLP
            CNN
            ResNet
          实现
            SGD
            Adam
          CNN
            架构
            训练技巧
          半监督
            伪标签
            自监督

      五、重点与易错点

      • 贝叶斯是最优分类:理论上限;实际中需要估计 P(x|c)。

      • KNN 简单但数据需求大:维数灾难;需降维。

      • SVM 最大化间隔:核函数选对是关键;现代 CNN 取代。

      • 深度学习是现代主流:CNN / ViT / 基础模型。

      • ResNet 是里程碑:残差连接让训练 100+ 层网络成为可能。

      • 自监督是 2022+ 方向:CLIP / DINOv2 / SAM 改变 CV 范式。

      • 学习率是最关键超参:warmup + cosine decay。

      • 跨章衔接:第 11 章特征是本章输入;第 3 章滤波 + 第 9 章形态学是预处理;CV2 第 5-6 章深度学习 + 识别是现代扩展。