第 15 章 结论 (Conclusion)
核心结论
-
CV 的范式转移:2012 ImageNet → 深度学习主导;2020+ Transformer / Diffusion / 基础模型崛起。
-
从识别到生成:CV 从"理解图像"扩展到"生成图像"(Stable Diffusion / DALL-E / Midjourney)。
-
从 2D 到 3D:SfM / SLAM / NeRF / 3DGS 让 CV 走向 3D 重建 / AR / 自动驾驶。
-
从单模态到多模态:CLIP / BLIP / GPT-4V 把图像 + 文本 + 音频联合学习。
-
从研究到产品:CV 应用已渗透到手机 / 自动驾驶 / 安防 / 医疗 / 娱乐 / 工业。
|
本章主旨
本章是全书总结——CV 的现状、挑战、未来。理解后才能选对研究方向 / 职业路径 / 学习资源。 |
一、核心概念
本章围绕 5 个核心概念展开:范式转移 → 识别到生成 → 2D 到 3D → 单模态到多模态 → 研究到产品。
| 概念 | 定义 + 重要性 | 实现提示 |
|---|---|---|
范式转移 |
2012 ImageNet(深度学习)/ 2020 Vision Transformer / 2022 Diffusion。 |
理解历史才能选对未来方向。 |
识别到生成 |
CV 从"理解图像"到"生成图像"(Stable Diffusion)。 |
生成式 AI 是当前最热方向。 |
2D 到 3D |
SfM / SLAM / NeRF / 3DGS / Gaussian Splatting 让 3D 重建平民化。 |
AR / 自动驾驶 / 数字孪生驱动。 |
单模态到多模态 |
CLIP / BLIP / GPT-4V 把图像 + 文本联合学习。 |
基础模型是 AI 未来方向。 |
研究到产品 |
CV 应用已渗透所有行业;创业 / 大厂 / 学术三轨。 |
工程能力 vs 研究能力都很重要。 |
二、详细笔记
2.1 CV 的范式转移 (Paradigm Shifts)
What:CV 经历了 4 次主要范式转移。
Why:理解历史脉络才能选对研究方向。
How:
CV 范式转移(§15):
-
1960s-1990s:手工特征时代(边缘 / 纹理 / 形状);专家系统。
-
2000s:机器学习时代(SIFT / HOG / SVM);统计方法主导。
-
2010s:深度学习时代(AlexNet / VGG / ResNet);CNN 主导。
-
2020s:Transformer / 基础模型时代(ViT / CLIP / SAM / DALL-E / Stable Diffusion)。
|
CV 范式转移的工程意义
|
When:选研究 / 工程方向;评估新技术。
Example*:torchvision / timm / transformers / diffusers —— 任何 CV 任务都有现成工具。
2.2 识别到生成 (Recognition to Generation)
What:CV 从"理解图像"(分类 / 检测 / 分割)扩展到"生成图像"(Stable Diffusion / DALL-E)。
Why:生成式 AI 是 2022+ 最热方向;商业价值巨大。
How:
生成模型演进(§15):
-
GAN(2014):对抗训练;早期图像生成。
-
VAE(2013):变分自编码器;概率生成。
-
Flow-based(2018):Normalizing Flow;可逆变换。
-
Diffusion(2020):DDPM / Stable Diffusion;当前 SOTA。
-
Autoregressive:PixelCNN / Parti;GPT 风格。
|
生成式 AI 的应用
|
When:评估生成式 AI;设计商业产品;做艺术 / 设计。
Example*:diffusers 库;Stable Diffusion;DALL-E;Sora。
2.3 2D 到 3D (2D to 3D)
What:CV 从 2D 图像理解扩展到 3D 重建 / 渲染。
Why:AR / VR / 自动驾驶 / 数字孪生需要 3D 感知。
How:
3D CV 关键技术(§15):
-
SfM / SLAM:相机姿态 + 稀疏 3D(§11)。
-
立体匹配 / MVS:稠密深度 / 点云(§12-§13)。
-
NeRF / 3DGS:神经隐式 3D 重建 + 渲染(§13-§14)。
-
LiDAR:远距离高精度 3D。
|
3D CV 的工业落地
|
When:3D 重建项目;AR / VR;自动驾驶;机器人。
Example*:COLMAP / OpenMVS;ORB-SLAM3;nerfstudio;gaussian-splatting。
2.4 单模态到多模态 (Single-modal to Multi-modal)
What:CV 从单一图像扩展到图像 + 文本 + 音频 + 视频的联合学习。
Why:基础模型(GPT-4V / Gemini)是 AI 未来;理解多模态是必备技能。
How:
多模态基础模型(§15):
-
CLIP(2021):图像 + 文本对比学习;零样本分类。
-
BLIP / BLIP-2(2022/2023):图像描述 / VQA。
-
GPT-4V / Gemini(2023+):通用多模态大模型。
-
LLaVA(2023):开源多模态大模型。
|
多模态基础模型的影响
|
When:评估基础模型;选研究方向;做产品。
Example*:open_clip / CLIP;BLIP-2;GPT-4V;LLaVA;Gemini。
2.5 研究到产品 (Research to Product)
What:CV 研究已深度商业化;学术 / 大厂 / 创业三轨。
Why:理解行业生态才能选对职业路径。
How:
CV 行业生态(§15):
-
学术界:Stanford / CMU / MIT / Berkeley / Oxford;CVPR / ICCV / ECCV / NeurIPS。
-
大厂:Google / Meta / Microsoft / Apple / Amazon;自动驾驶(Waymo / Tesla / Cruise)。
-
创业:OpenAI / Anthropic / Stability AI / Luma AI。
-
工具链:PyTorch / TensorFlow / OpenCV / HuggingFace。
|
CV 职业发展路径
|
When:选职业路径;评估 CV 公司;找学习资源。
Example*:Papers with Code 跟前沿;HuggingFace 用最新模型;GitHub 找开源实现。
三、关键图表
非可视化条目
|
非可视化条目(表 / 算法)
|
核心公式对照表
|
核心公式对照表
|
四、思维导图
mindmap
root((第 15 章 结论))
范式转移
手工特征
机器学习
深度学习
基础模型
识别到生成
GAN
VAE
Diffusion
Sora
2D到3D
SfMSLAM
NeRF3DGS
自动驾驶
单模态多模态
CLIP
GPT4V
Gemini
研究到产品
学术界
大厂
创业
工具链
五、重点与易错点
-
CV 范式每 10 年一次大转移:理解历史脉络才能选对方向。
-
基础模型是 2022+ 主流:CLIP / SAM / GPT-4V / Stable Diffusion 改变 CV 范式。
-
NeRF / 3DGS 让 3D 重建平民化:手机即可扫描;VR / AR 内容爆炸。
-
多模态是未来:CLIP / BLIP / GPT-4V 推动通用 AI。
-
CV 创业机会巨大:自动驾驶 / AR / 医疗 / 创意工具仍是蓝海。
-
持续学习是 CV 从业者的核心:工具 / 模型 / 数据每年都在更新。
-
跨章衔接:本书到此结束——CV 是 AI 最活跃的子领域;学完本书只是开始;继续用 PyTorch / timm / transformers / diffusers 实践。