第 1 章 引言 (Introduction)
核心结论
-
计算机视觉定义:从图像 / 视频中自动提取信息;研究视觉感知与理解的计算模型。
-
应用领域:人脸识别 / 自动驾驶 / 医疗影像 / 增强现实 / 视频监控 / 工业检测 / 文档分析。
-
历史演进:1960s 起源(Minsky / Roberts)→ 1980s 专家系统 → 2000s 机器学习(SIFT / HOG)→ 2012+ 深度学习(AlexNet / ResNet / Transformer)。
-
核心任务:分类 / 检测 / 分割 / 跟踪 / 重建 / 识别——从"是什么"到"在哪里"到"如何运动"。
-
本书结构:图像形成(第 2 章)→ 图像处理(第 3 章)→ 模型拟合 / 优化 / 深度学习(第 4-5 章)→ 识别 / 特征 / 对齐(第 6-8 章)→ 运动 / 计算摄影(第 9-10 章)→ 3D 重建(第 11-14 章)→ 结论(第 15 章)。
|
本章主旨
本章是全书导论——给出后续 14 章 + 3 附录的统一术语、CV 任务分类、历史脉络、符号约定。CV 是 AI 最活跃的子领域之一;理解其历史与现状才能选对研究方向 / 工具 / 算法。 |
一、核心概念
本章围绕 6 个核心概念展开:从 CV 定义出发,介绍应用领域、历史演进、核心任务、任务分类,最后给本书大纲与符号约定。
| 概念 | 定义 + 重要性 | 实现提示 |
|---|---|---|
计算机视觉定义 |
从图像 / 视频自动提取信息;研究视觉感知与理解的计算模型。 |
§1.1;CV 是计算机科学 + 数学 + 神经科学 + 心理学的交叉。 |
应用领域 |
人脸识别 / 自动驾驶 / 医疗影像 / AR / 视频监控 / 工业检测 / 文档分析。 |
§1.1;CV 应用市场规模 2024 > 200 亿美元。 |
历史演进 |
1960s 起源 → 1980s 专家系统 → 2000s 机器学习(SIFT / HOG)→ 2012+ 深度学习(AlexNet)。 |
§1.2;2012 ImageNet 是分水岭(深度学习超越传统方法)。 |
核心任务 |
分类 / 检测 / 分割 / 跟踪 / 重建 / 识别——从语义到几何到时序。 |
§1.1;现代 CV 是多任务融合。 |
本书结构 |
5 大类:图像形成 / 早期视觉 / 特征 / 多视图几何 / 应用。 |
§1.3;按"自底向上"组织(形成 → 处理 → 理解)。 |
符号约定 |
图像 I(x,y) / 像素 / 矩阵 / 向量 / 卷积;I 表示强度、x/y 是坐标。 |
§1.5;统一符号便于跨章节引用。 |
二、详细笔记
2.1 计算机视觉定义 (What is CV?)
What:从图像 / 视频中自动提取信息;研究视觉感知与理解的计算模型。
Why:CV 是 AI 最活跃子领域——人类 80%+ 信息来自视觉;自动化视觉任务是 AI 终极目标之一。
How:
CV 与相关领域:
-
CV:从图像到信息(像素 → 语义)。
-
计算机图形学:从信息到图像(语义 → 像素)。
-
图像处理:像素到像素(增强 / 滤波 / 变换)。
-
机器视觉:CV 在工业场景的应用(机器人 / 质检)。
-
模式识别:抽象特征到类别(CV 是其特例)。
|
CV 问题的难度层次
难度逐级提升;现代深度学习可端到端覆盖各级。 |
When:选研究 / 应用方向;与图形学 / 图像处理区分。
Example:人脸识别是 CV 的"Hello World"——OpenCV / dlib / InsightFace 提供预训练模型。
2.2 CV 历史 (A Brief History)
What:CV 从 1960s 起源到 2012+ 深度学习革命。
Why:理解历史脉络才能选对当前 / 未来方向。
How:
CV 关键里程碑(§1.2):
-
1960s:Minsky 指导本科生 Roberts 做"积木世界"研究——第一个 CV 程序。
-
1970s:David Marr《Vision》提出视觉计算理论。
-
1980s:专家系统 + 边缘检测(Canny / Sobel)+ 立体视觉。
-
1990s:特征工程(SIFT / SURF)+ 主动形状模型 + Eigenfaces。
-
2000s:机器学习(SVM / AdaBoost)+ HOG + Viola-Jones 人脸检测。
-
2010s:ImageNet(AlexNet 2012)+ CNN 革命 + R-CNN / YOLO / SSD + ResNet / GAN。
-
2020s:Vision Transformer(ViT)+ Diffusion + 多模态大模型(CLIP)。
|
2012 ImageNet 拐点
|
When:选研究方向(传统 CV vs 深度学习);理解工具演进。
Example:SIFT(2004)→ HOG(2005)→ DPM(2008)→ AlexNet(2012)→ Faster R-CNN(2015)→ YOLO(2016)→ DETR(2020)→ ViT(2021)。
2.3 CV 核心任务 (Core CV Tasks)
What:CV 的几大核心任务——分类 / 检测 / 分割 / 跟踪 / 重建 / 识别。
Why:理解任务分类才能选对算法与工具。
How:
任务分类(§1.1):
-
图像分类:整图类别(猫 / 狗 / 车)。
-
目标检测:bounding box + 类别(人 + 车 + 路标)。
-
语义分割:像素级类别(每个像素属于哪类)。
-
实例分割:每个目标的像素 mask。
-
关键点检测:人脸 / 人体姿态关键点。
-
目标跟踪:视频序列中跟踪目标(多目标跟踪)。
-
三维重建:从图像 / 视频恢复 3D 结构。
-
图像生成:从文本 / 噪声生成图像(GAN / Diffusion)。
|
任务难度层次
|
When:选算法 / 工具;选研究方向。
Example:OpenMMLab 框架覆盖分类(mmcls)/ 检测(mmdet)/ 分割(mmseg)/ 跟踪(mmtrack)等。
2.4 本书结构 (Book Overview)
What:本书按 5 大类组织——图像形成 / 早期视觉 / 特征 / 多视图几何 / 应用。
Why:理解结构才能选读章节 / 设计课程。
How:
本书结构(§1.3):
-
第 I 部分:图像形成与早期视觉(第 2-3 章):相机模型 / 像素处理 / 滤波。
-
第 II 部分:特征与匹配(第 7-8 章):SIFT / HOG / 特征匹配 / 对齐。
-
第 III 部分:识别(第 5-6 章):深度学习 / CNN / 检测 / 分割。
-
第 IV 部分:运动与重建(第 9-14 章):光流 / SfM / SLAM / 立体 / 3D 重建。
-
第 V 部分:应用(第 10 章):计算摄影 / HDR / 图像拼接。
|
本书适合读者
|
When:选课程 / 选研究 / 选工程方向。
Example:做自动驾驶感知需第 6(识别)+ 11(SLAM)+ 12(深度估计)。
2.5 符号约定 (Notation)
What:统一符号便于跨章节引用。
Why:CV 涉及大量数学(线性代数 / 概率 / 优化);符号不一致会导致阅读障碍。
How:
关键符号(§1.5):
-
图像:
I(x, y)或I(x, y, t)(含时间)——像素强度。 -
像素坐标:
(x, y);左上角为原点。 -
矩阵:
M(粗体);向量v(粗体);标量x。 -
卷积:
I ⊛ K(核 K 在图像 I 上滑动)。 -
颜色:灰度
[0, 255];RGB / HSV 色彩空间。 -
坐标系:世界 / 相机 / 图像——三种空间。
|
符号一致性原则
|
When:写论文 / 实现算法 / 阅读 CV 文献。
Example:相机矩阵 K 是 3×3 内参;本质矩阵 E 是 3×3;基础矩阵 F 是 3×3;每种矩阵有明确几何意义。
三、关键图表
四、思维导图
mindmap
root((第 1 章 引言))
CV定义
图像到信息
像素到语义
与相关领域区别
历史
1960起源
1980专家
2000机器学习
2012深度学习
核心任务
分类检测
分割跟踪
重建生成
本书结构
图像形成
早期视觉
特征匹配
多视图几何
应用
符号约定
图像Ixy
矩阵粗体
向量粗体
卷积
五、重点与易错点
-
CV ≠ 计算机图形学:CV 从图像到信息;图形学从信息到图像。
-
2012 ImageNet 是分水岭:深度学习超越传统方法;之后 CV 完全转向深度学习。
-
CV 任务难度递增:分类 < 检测 < 分割 < 跟踪 < 重建 < 生成。
-
ViT 不是 CNN 的终结:CNN 仍高效(ResNet / ConvNeXt);ViT 在大数据集更优。
-
CV 不只是深度学习:传统 CV(SIFT / HOG / 光流 / SLAM)仍是基础;理解后才能改进深度学习方法。
-
数据集是 CV 的"瓶颈":ImageNet / COCO / ADE20K / KITTI / Waymo 等公开数据集推动算法进步。
-
基础模型改变 CV 范式:CLIP / SAM / DINO 等"通用"模型减少对标注数据依赖。
-
跨章衔接:第 2 章讲图像形成;第 3 章讲图像处理;第 5 章深度学习;第 6 章识别;第 11 章 3D 重建;附录 A 线性代数 + 附录 B 贝叶斯是数学基础。