第 1 章引言 (Introduction)

核心结论

计算机视觉定义：从图像 / 视频中自动提取信息；研究视觉感知与理解的计算模型。
应用领域：人脸识别 / 自动驾驶 / 医疗影像 / 增强现实 / 视频监控 / 工业检测 / 文档分析。
历史演进：1960s 起源（Minsky / Roberts）→ 1980s 专家系统 → 2000s 机器学习（SIFT / HOG）→ 2012+ 深度学习（AlexNet / ResNet / Transformer）。
核心任务：分类 / 检测 / 分割 / 跟踪 / 重建 / 识别——从"是什么"到"在哪里"到"如何运动"。
本书结构：图像形成（第 2 章）→ 图像处理（第 3 章）→ 模型拟合 / 优化 / 深度学习（第 4-5 章）→ 识别 / 特征 / 对齐（第 6-8 章）→ 运动 / 计算摄影（第 9-10 章）→ 3D 重建（第 11-14 章）→ 结论（第 15 章）。

本章主旨

本章是全书导论——给出后续 14 章 + 3 附录的统一术语、CV 任务分类、历史脉络、符号约定。CV 是 AI 最活跃的子领域之一；理解其历史与现状才能选对研究方向 / 工具 / 算法。

一、核心概念

本章围绕 6 个核心概念展开：从 CV 定义出发，介绍应用领域、历史演进、核心任务、任务分类，最后给本书大纲与符号约定。

概念	定义 + 重要性	实现提示
计算机视觉定义	从图像 / 视频自动提取信息；研究视觉感知与理解的计算模型。	§1.1；CV 是计算机科学 + 数学 + 神经科学 + 心理学的交叉。
应用领域	人脸识别 / 自动驾驶 / 医疗影像 / AR / 视频监控 / 工业检测 / 文档分析。	§1.1；CV 应用市场规模 2024 > 200 亿美元。
历史演进	1960s 起源 → 1980s 专家系统 → 2000s 机器学习（SIFT / HOG）→ 2012+ 深度学习（AlexNet）。	§1.2；2012 ImageNet 是分水岭（深度学习超越传统方法）。
核心任务	分类 / 检测 / 分割 / 跟踪 / 重建 / 识别——从语义到几何到时序。	§1.1；现代 CV 是多任务融合。
本书结构	5 大类：图像形成 / 早期视觉 / 特征 / 多视图几何 / 应用。	§1.3；按"自底向上"组织（形成 → 处理 → 理解）。
符号约定	图像 I(x,y) / 像素 / 矩阵 / 向量 / 卷积；I 表示强度、x/y 是坐标。	§1.5；统一符号便于跨章节引用。

概念

定义 + 重要性

实现提示

计算机视觉定义

从图像 / 视频自动提取信息；研究视觉感知与理解的计算模型。

§1.1；CV 是计算机科学 + 数学 + 神经科学 + 心理学的交叉。

应用领域

人脸识别 / 自动驾驶 / 医疗影像 / AR / 视频监控 / 工业检测 / 文档分析。

§1.1；CV 应用市场规模 2024 > 200 亿美元。

历史演进

1960s 起源 → 1980s 专家系统 → 2000s 机器学习（SIFT / HOG）→ 2012+ 深度学习（AlexNet）。

§1.2；2012 ImageNet 是分水岭（深度学习超越传统方法）。

核心任务

分类 / 检测 / 分割 / 跟踪 / 重建 / 识别——从语义到几何到时序。

§1.1；现代 CV 是多任务融合。

本书结构

5 大类：图像形成 / 早期视觉 / 特征 / 多视图几何 / 应用。

§1.3；按"自底向上"组织（形成 → 处理 → 理解）。

符号约定

图像 I(x,y) / 像素 / 矩阵 / 向量 / 卷积；I 表示强度、x/y 是坐标。

§1.5；统一符号便于跨章节引用。

二、详细笔记

2.1 计算机视觉定义 (What is CV?)

What：从图像 / 视频中自动提取信息；研究视觉感知与理解的计算模型。

Why：CV 是 AI 最活跃子领域——人类 80%+ 信息来自视觉；自动化视觉任务是 AI 终极目标之一。

How：

CV 与相关领域：

CV：从图像到信息（像素 → 语义）。
计算机图形学：从信息到图像（语义 → 像素）。
图像处理：像素到像素（增强 / 滤波 / 变换）。
机器视觉：CV 在工业场景的应用（机器人 / 质检）。
模式识别：抽象特征到类别（CV 是其特例）。

CV 问题的难度层次

低级：图像增强 / 去噪 / 边缘检测。
中级：特征提取 / 目标检测 / 分割。
高级：场景理解 / 行为识别 / 推理。

难度逐级提升；现代深度学习可端到端覆盖各级。

When：选研究 / 应用方向；与图形学 / 图像处理区分。

Example：人脸识别是 CV 的"Hello World"——OpenCV / dlib / InsightFace 提供预训练模型。

2.2 CV 历史 (A Brief History)

What：CV 从 1960s 起源到 2012+ 深度学习革命。

Why：理解历史脉络才能选对当前 / 未来方向。

How：

CV 关键里程碑（§1.2）：

1960s：Minsky 指导本科生 Roberts 做"积木世界"研究——第一个 CV 程序。
1970s：David Marr《Vision》提出视觉计算理论。
1980s：专家系统 + 边缘检测（Canny / Sobel）+ 立体视觉。
1990s：特征工程（SIFT / SURF）+ 主动形状模型 + Eigenfaces。
2000s：机器学习（SVM / AdaBoost）+ HOG + Viola-Jones 人脸检测。
2010s：ImageNet（AlexNet 2012）+ CNN 革命 + R-CNN / YOLO / SSD + ResNet / GAN。
2020s：Vision Transformer（ViT）+ Diffusion + 多模态大模型（CLIP）。

2012 ImageNet 拐点

2012 年 AlexNet（深度学习）以 15.3% top-5 error 赢得 ImageNet，远胜第二（26.2%）。
此后深度学习主宰 CV；2015 ResNet 超过人类（5.1%）。
2021 ViT 在 ImageNet 上超越 CNN。

When：选研究方向（传统 CV vs 深度学习）；理解工具演进。

Example：SIFT（2004）→ HOG（2005）→ DPM（2008）→ AlexNet（2012）→ Faster R-CNN（2015）→ YOLO（2016）→ DETR（2020）→ ViT（2021）。

2.3 CV 核心任务 (Core CV Tasks)

What：CV 的几大核心任务——分类 / 检测 / 分割 / 跟踪 / 重建 / 识别。

Why：理解任务分类才能选对算法与工具。

How：

任务分类（§1.1）：

图像分类：整图类别（猫 / 狗 / 车）。
目标检测：bounding box + 类别（人 + 车 + 路标）。
语义分割：像素级类别（每个像素属于哪类）。
实例分割：每个目标的像素 mask。
关键点检测：人脸 / 人体姿态关键点。
目标跟踪：视频序列中跟踪目标（多目标跟踪）。
三维重建：从图像 / 视频恢复 3D 结构。
图像生成：从文本 / 噪声生成图像（GAN / Diffusion）。

任务难度层次

分类 < 检测 < 分割 < 跟踪 < 重建 < 生成。
任务越具体（精确到像素 / 帧 / 3D）难度越大。
现代基础模型（CLIP / SAM / DINO）试图统一多任务。

When：选算法 / 工具；选研究方向。

Example：OpenMMLab 框架覆盖分类（mmcls）/ 检测（mmdet）/ 分割（mmseg）/ 跟踪（mmtrack）等。

2.4 本书结构 (Book Overview)

What：本书按 5 大类组织——图像形成 / 早期视觉 / 特征 / 多视图几何 / 应用。

Why：理解结构才能选读章节 / 设计课程。

How：

本书结构（§1.3）：

第 I 部分：图像形成与早期视觉（第 2-3 章）：相机模型 / 像素处理 / 滤波。
第 II 部分：特征与匹配（第 7-8 章）：SIFT / HOG / 特征匹配 / 对齐。
第 III 部分：识别（第 5-6 章）：深度学习 / CNN / 检测 / 分割。
第 IV 部分：运动与重建（第 9-14 章）：光流 / SfM / SLAM / 立体 / 3D 重建。
第 V 部分：应用（第 10 章）：计算摄影 / HDR / 图像拼接。

本书适合读者

学生：完整学习一学期（按章节顺序）。
工程师：按需阅读（如做 SLAM 跳到第 11 章）。
研究者：参考具体章节 + 附录（线性代数 / 贝叶斯）。

When：选课程 / 选研究 / 选工程方向。

Example：做自动驾驶感知需第 6（识别）+ 11（SLAM）+ 12（深度估计）。

2.5 符号约定 (Notation)

What：统一符号便于跨章节引用。

Why：CV 涉及大量数学（线性代数 / 概率 / 优化）；符号不一致会导致阅读障碍。

How：

关键符号（§1.5）：

图像：I(x, y) 或 I(x, y, t)（含时间）——像素强度。
像素坐标：(x, y)；左上角为原点。
矩阵：M（粗体）；向量 v（粗体）；标量 x。
卷积：I ⊛ K（核 K 在图像 I 上滑动）。
颜色：灰度 [0, 255]；RGB / HSV 色彩空间。
坐标系：世界 / 相机 / 图像——三种空间。

符号一致性原则

矩阵用大写粗体 M，向量用小写粗体 v，标量用斜体 x。
函数用小写 f 或大写 F，视数学风格而定。
集合用大写花体 𝒮 或大写 S。

When：写论文 / 实现算法 / 阅读 CV 文献。

Example：相机矩阵 K 是 3×3 内参；本质矩阵 E 是 3×3；基础矩阵 F 是 3×3；每种矩阵有明确几何意义。

三、关键图表

视觉图表

Figure 1. 图 1-1：CV 与相关领域关系

Figure 2. 图 1-2：CV 历史时间线

Figure 3. 图 1-3：CV 核心任务示意图

非可视化条目

非可视化条目（表 / 算法）

编号

内容摘要

表 1.1

CV 应用领域与代表产品。

表 1.2

CV 重要算法时间线（边缘检测 → CNN → Transformer）。

表 1.3

CV 公开数据集（ImageNet / COCO / ADE20K / KITTI）。

核心公式对照表

概念

公式

图像函数

\(I(x, y, t) \in \mathbb{R}\)（灰度）或 \(I(x, y, t) \in \mathbb{R}^3\)（RGB）

卷积

\((I \circledast K)(x, y) = \sum_{u, v} I(x - u, y - v) K(u, v)\)

像素梯度

\(\nabla I = \left(\frac{\partial I}{\partial x}, \frac{\partial I}{\partial y}\right)\)

像素坐标系

\((u, v) = \text{图像坐标}（左上角原点）\)

四、思维导图

mindmap
  root((第 1 章 引言))
    CV定义
      图像到信息
      像素到语义
      与相关领域区别
    历史
      1960起源
      1980专家
      2000机器学习
      2012深度学习
    核心任务
      分类检测
      分割跟踪
      重建生成
    本书结构
      图像形成
      早期视觉
      特征匹配
      多视图几何
      应用
    符号约定
      图像Ixy
      矩阵粗体
      向量粗体
      卷积

五、重点与易错点

CV ≠ 计算机图形学：CV 从图像到信息；图形学从信息到图像。
2012 ImageNet 是分水岭：深度学习超越传统方法；之后 CV 完全转向深度学习。
CV 任务难度递增：分类 < 检测 < 分割 < 跟踪 < 重建 < 生成。
ViT 不是 CNN 的终结：CNN 仍高效（ResNet / ConvNeXt）；ViT 在大数据集更优。
CV 不只是深度学习：传统 CV（SIFT / HOG / 光流 / SLAM）仍是基础；理解后才能改进深度学习方法。
数据集是 CV 的"瓶颈"：ImageNet / COCO / ADE20K / KITTI / Waymo 等公开数据集推动算法进步。
基础模型改变 CV 范式：CLIP / SAM / DINO 等"通用"模型减少对标注数据依赖。
跨章衔接：第 2 章讲图像形成；第 3 章讲图像处理；第 5 章深度学习；第 6 章识别；第 11 章 3D 重建；附录 A 线性代数 + 附录 B 贝叶斯是数学基础。

第 1 章 引言 (Introduction)

核心结论

一、核心概念

二、详细笔记

2.1 计算机视觉定义 (What is CV?)

2.2 CV 历史 (A Brief History)

2.3 CV 核心任务 (Core CV Tasks)

2.4 本书结构 (Book Overview)

2.5 符号约定 (Notation)

三、关键图表

视觉图表

非可视化条目

核心公式对照表

四、思维导图

五、重点与易错点

第 1 章引言 (Introduction)