第 1 章 引言 (Introduction)

      +

      核心结论

      • 计算机视觉定义:从图像 / 视频中自动提取信息;研究视觉感知与理解的计算模型。

      • 应用领域:人脸识别 / 自动驾驶 / 医疗影像 / 增强现实 / 视频监控 / 工业检测 / 文档分析。

      • 历史演进:1960s 起源(Minsky / Roberts)→ 1980s 专家系统 → 2000s 机器学习(SIFT / HOG)→ 2012+ 深度学习(AlexNet / ResNet / Transformer)。

      • 核心任务:分类 / 检测 / 分割 / 跟踪 / 重建 / 识别——从"是什么"到"在哪里"到"如何运动"。

      • 本书结构:图像形成(第 2 章)→ 图像处理(第 3 章)→ 模型拟合 / 优化 / 深度学习(第 4-5 章)→ 识别 / 特征 / 对齐(第 6-8 章)→ 运动 / 计算摄影(第 9-10 章)→ 3D 重建(第 11-14 章)→ 结论(第 15 章)。

      本章主旨

      本章是全书导论——给出后续 14 章 + 3 附录的统一术语、CV 任务分类、历史脉络、符号约定。CV 是 AI 最活跃的子领域之一;理解其历史与现状才能选对研究方向 / 工具 / 算法。

      一、核心概念

      本章围绕 6 个核心概念展开:从 CV 定义出发,介绍应用领域、历史演进、核心任务、任务分类,最后给本书大纲与符号约定。

      概念 定义 + 重要性 实现提示

      计算机视觉定义

      从图像 / 视频自动提取信息;研究视觉感知与理解的计算模型。

      §1.1;CV 是计算机科学 + 数学 + 神经科学 + 心理学的交叉。

      应用领域

      人脸识别 / 自动驾驶 / 医疗影像 / AR / 视频监控 / 工业检测 / 文档分析。

      §1.1;CV 应用市场规模 2024 > 200 亿美元。

      历史演进

      1960s 起源 → 1980s 专家系统 → 2000s 机器学习(SIFT / HOG)→ 2012+ 深度学习(AlexNet)。

      §1.2;2012 ImageNet 是分水岭(深度学习超越传统方法)。

      核心任务

      分类 / 检测 / 分割 / 跟踪 / 重建 / 识别——从语义到几何到时序。

      §1.1;现代 CV 是多任务融合。

      本书结构

      5 大类:图像形成 / 早期视觉 / 特征 / 多视图几何 / 应用。

      §1.3;按"自底向上"组织(形成 → 处理 → 理解)。

      符号约定

      图像 I(x,y) / 像素 / 矩阵 / 向量 / 卷积;I 表示强度、x/y 是坐标。

      §1.5;统一符号便于跨章节引用。

      二、详细笔记

      2.1 计算机视觉定义 (What is CV?)

      What:从图像 / 视频中自动提取信息;研究视觉感知与理解的计算模型。

      Why:CV 是 AI 最活跃子领域——人类 80%+ 信息来自视觉;自动化视觉任务是 AI 终极目标之一。

      How

      CV 与相关领域:

      • CV:从图像到信息(像素 → 语义)。

      • 计算机图形学:从信息到图像(语义 → 像素)。

      • 图像处理:像素到像素(增强 / 滤波 / 变换)。

      • 机器视觉:CV 在工业场景的应用(机器人 / 质检)。

      • 模式识别:抽象特征到类别(CV 是其特例)。

      CV 问题的难度层次
      • 低级:图像增强 / 去噪 / 边缘检测。

      • 中级:特征提取 / 目标检测 / 分割。

      • 高级:场景理解 / 行为识别 / 推理。

      难度逐级提升;现代深度学习可端到端覆盖各级。

      When:选研究 / 应用方向;与图形学 / 图像处理区分。

      Example:人脸识别是 CV 的"Hello World"——OpenCV / dlib / InsightFace 提供预训练模型。

      2.2 CV 历史 (A Brief History)

      What:CV 从 1960s 起源到 2012+ 深度学习革命。

      Why:理解历史脉络才能选对当前 / 未来方向。

      How

      CV 关键里程碑(§1.2):

      • 1960s:Minsky 指导本科生 Roberts 做"积木世界"研究——第一个 CV 程序。

      • 1970s:David Marr《Vision》提出视觉计算理论。

      • 1980s:专家系统 + 边缘检测(Canny / Sobel)+ 立体视觉。

      • 1990s:特征工程(SIFT / SURF)+ 主动形状模型 + Eigenfaces。

      • 2000s:机器学习(SVM / AdaBoost)+ HOG + Viola-Jones 人脸检测。

      • 2010s:ImageNet(AlexNet 2012)+ CNN 革命 + R-CNN / YOLO / SSD + ResNet / GAN。

      • 2020s:Vision Transformer(ViT)+ Diffusion + 多模态大模型(CLIP)。

      2012 ImageNet 拐点
      • 2012 年 AlexNet(深度学习)以 15.3% top-5 error 赢得 ImageNet,远胜第二(26.2%)。

      • 此后深度学习主宰 CV;2015 ResNet 超过人类(5.1%)。

      • 2021 ViT 在 ImageNet 上超越 CNN。

      When:选研究方向(传统 CV vs 深度学习);理解工具演进。

      Example:SIFT(2004)→ HOG(2005)→ DPM(2008)→ AlexNet(2012)→ Faster R-CNN(2015)→ YOLO(2016)→ DETR(2020)→ ViT(2021)。

      2.3 CV 核心任务 (Core CV Tasks)

      What:CV 的几大核心任务——分类 / 检测 / 分割 / 跟踪 / 重建 / 识别。

      Why:理解任务分类才能选对算法与工具。

      How

      任务分类(§1.1):

      • 图像分类:整图类别(猫 / 狗 / 车)。

      • 目标检测:bounding box + 类别(人 + 车 + 路标)。

      • 语义分割:像素级类别(每个像素属于哪类)。

      • 实例分割:每个目标的像素 mask。

      • 关键点检测:人脸 / 人体姿态关键点。

      • 目标跟踪:视频序列中跟踪目标(多目标跟踪)。

      • 三维重建:从图像 / 视频恢复 3D 结构。

      • 图像生成:从文本 / 噪声生成图像(GAN / Diffusion)。

      任务难度层次
      • 分类 < 检测 < 分割 < 跟踪 < 重建 < 生成。

      • 任务越具体(精确到像素 / 帧 / 3D)难度越大。

      • 现代基础模型(CLIP / SAM / DINO)试图统一多任务。

      When:选算法 / 工具;选研究方向。

      Example:OpenMMLab 框架覆盖分类(mmcls)/ 检测(mmdet)/ 分割(mmseg)/ 跟踪(mmtrack)等。

      2.4 本书结构 (Book Overview)

      What:本书按 5 大类组织——图像形成 / 早期视觉 / 特征 / 多视图几何 / 应用。

      Why:理解结构才能选读章节 / 设计课程。

      How

      本书结构(§1.3):

      • 第 I 部分:图像形成与早期视觉(第 2-3 章):相机模型 / 像素处理 / 滤波。

      • 第 II 部分:特征与匹配(第 7-8 章):SIFT / HOG / 特征匹配 / 对齐。

      • 第 III 部分:识别(第 5-6 章):深度学习 / CNN / 检测 / 分割。

      • 第 IV 部分:运动与重建(第 9-14 章):光流 / SfM / SLAM / 立体 / 3D 重建。

      • 第 V 部分:应用(第 10 章):计算摄影 / HDR / 图像拼接。

      本书适合读者
      • 学生:完整学习一学期(按章节顺序)。

      • 工程师:按需阅读(如做 SLAM 跳到第 11 章)。

      • 研究者:参考具体章节 + 附录(线性代数 / 贝叶斯)。

      When:选课程 / 选研究 / 选工程方向。

      Example:做自动驾驶感知需第 6(识别)+ 11(SLAM)+ 12(深度估计)。

      2.5 符号约定 (Notation)

      What:统一符号便于跨章节引用。

      Why:CV 涉及大量数学(线性代数 / 概率 / 优化);符号不一致会导致阅读障碍。

      How

      关键符号(§1.5):

      • 图像I(x, y)I(x, y, t)(含时间)——像素强度。

      • 像素坐标(x, y);左上角为原点。

      • 矩阵M(粗体);向量 v(粗体);标量 x

      • 卷积I ⊛ K(核 K 在图像 I 上滑动)。

      • 颜色:灰度 [0, 255];RGB / HSV 色彩空间。

      • 坐标系:世界 / 相机 / 图像——三种空间。

      符号一致性原则
      • 矩阵用大写粗体 M,向量用小写粗体 v,标量用斜体 x

      • 函数用小写 f 或大写 F,视数学风格而定。

      • 集合用大写花体 𝒮 或大写 S

      When:写论文 / 实现算法 / 阅读 CV 文献。

      Example:相机矩阵 K 是 3×3 内参;本质矩阵 E 是 3×3;基础矩阵 F 是 3×3;每种矩阵有明确几何意义。

      三、关键图表

      视觉图表

      图 1-1
      Figure 1. 图 1-1:CV 与相关领域关系
      图 1-2
      Figure 2. 图 1-2:CV 历史时间线
      图 1-3
      Figure 3. 图 1-3:CV 核心任务示意图

      非可视化条目

      非可视化条目(表 / 算法)
      编号 内容摘要

      表 1.1

      CV 应用领域与代表产品。

      表 1.2

      CV 重要算法时间线(边缘检测 → CNN → Transformer)。

      表 1.3

      CV 公开数据集(ImageNet / COCO / ADE20K / KITTI)。

      核心公式对照表

      核心公式对照表
      概念 公式

      图像函数

      \(I(x, y, t) \in \mathbb{R}\)(灰度)或 \(I(x, y, t) \in \mathbb{R}^3\)(RGB)

      卷积

      \((I \circledast K)(x, y) = \sum_{u, v} I(x - u, y - v) K(u, v)\)

      像素梯度

      \(\nabla I = \left(\frac{\partial I}{\partial x}, \frac{\partial I}{\partial y}\right)\)

      像素坐标系

      \((u, v) = \text{图像坐标}(左上角原点)\)

      四、思维导图

      mindmap
        root((第 1 章 引言))
          CV定义
            图像到信息
            像素到语义
            与相关领域区别
          历史
            1960起源
            1980专家
            2000机器学习
            2012深度学习
          核心任务
            分类检测
            分割跟踪
            重建生成
          本书结构
            图像形成
            早期视觉
            特征匹配
            多视图几何
            应用
          符号约定
            图像Ixy
            矩阵粗体
            向量粗体
            卷积

      五、重点与易错点

      1. CV ≠ 计算机图形学:CV 从图像到信息;图形学从信息到图像。

      2. 2012 ImageNet 是分水岭:深度学习超越传统方法;之后 CV 完全转向深度学习。

      3. CV 任务难度递增:分类 < 检测 < 分割 < 跟踪 < 重建 < 生成。

      4. ViT 不是 CNN 的终结:CNN 仍高效(ResNet / ConvNeXt);ViT 在大数据集更优。

      5. CV 不只是深度学习:传统 CV(SIFT / HOG / 光流 / SLAM)仍是基础;理解后才能改进深度学习方法。

      6. 数据集是 CV 的"瓶颈":ImageNet / COCO / ADE20K / KITTI / Waymo 等公开数据集推动算法进步。

      7. 基础模型改变 CV 范式:CLIP / SAM / DINO 等"通用"模型减少对标注数据依赖。

      8. 跨章衔接:第 2 章讲图像形成;第 3 章讲图像处理;第 5 章深度学习;第 6 章识别;第 11 章 3D 重建;附录 A 线性代数 + 附录 B 贝叶斯是数学基础。