附录 C 补充材料 (Supplementary Material)

核心结论

数据集（§C.1）：ImageNet / COCO / ADE20K / KITTI / Waymo / ShapeNet；规模 + 任务差异巨大。
公开代码 / 框架：OpenCV / PyTorch / torchvision / timm / HuggingFace / detectron2 / mmdetection。
评测基准：mAP（COCO 检测）/ mIoU（COCO 分割）/ EPE（光流）/ EPE / RMSE（深度）。
会议 / 期刊：CVPR / ICCV / ECCV / NeurIPS / TPAMI；arXiv 预印本。
数据集使用注意：标注噪声 / 偏差 / 长尾分布 / 公平性。

本章主旨

附录 C 是 CV 实践资源汇总——数据集 / 代码 / 评测 / 会议。读者读完本书后可用这些资源深入学习与实践。

一、核心概念

本章围绕 5 个核心概念展开：数据集 → 框架 → 评测基准 → 会议 / 期刊 → 数据集使用注意。

概念	定义 + 重要性	实现提示
数据集	ImageNet / COCO / ADE20K / KITTI / ShapeNet。	§C.1；CV 任务的标准数据源。
公开代码 / 框架	OpenCV / PyTorch / torchvision / timm / HuggingFace。	§C.2；现代 CV 开发的标配。
评测基准	mAP / mIoU / EPE / FID；任务相关。	§C.3；论文对比与排行榜。
会议 / 期刊	CVPR / ICCV / ECCV / NeurIPS / TPAMI；arXiv 预印本。	§C.4；跟踪前沿研究。
数据集使用注意	标注噪声 / 偏差 / 长尾分布 / 公平性。	§C.5；伦理与工程实践。

概念

定义 + 重要性

实现提示

数据集

ImageNet / COCO / ADE20K / KITTI / ShapeNet。

§C.1；CV 任务的标准数据源。

公开代码 / 框架

OpenCV / PyTorch / torchvision / timm / HuggingFace。

§C.2；现代 CV 开发的标配。

评测基准

mAP / mIoU / EPE / FID；任务相关。

§C.3；论文对比与排行榜。

会议 / 期刊

CVPR / ICCV / ECCV / NeurIPS / TPAMI；arXiv 预印本。

§C.4；跟踪前沿研究。

数据集使用注意

标注噪声 / 偏差 / 长尾分布 / 公平性。

§C.5；伦理与工程实践。

二、详细笔记

2.1 数据集 (Datasets)

What：CV 任务的标准数据集合。

Why：CV 进展依赖公开数据集；benchmark 推动算法进步。

How：

主要数据集（§C.1）：

ImageNet（1.2M 图 / 1000 类）：分类；2009 推出。
COCO（330K 图 / 80 类）：检测 / 分割 / 关键点；2014 推出。
ADE20K（20K 图 / 150 类）：场景分割。
KITTI（自动驾驶）：立体 / 深度 / 光流 / SLAM。
Waymo（自动驾驶 / 规模更大）：感知 / 预测。
ShapeNet（3D 模型）：3D 重建 / 识别。

数据集选择

分类：ImageNet / CIFAR / MNIST。
检测：COCO / VOC / Open Images。
分割：COCO / ADE20K / Cityscapes。
3D 重建：ShapeNet / ModelNet / ABC。
视频：Kinetics / UCF-101 / Something-Something。
自动驾驶：KITTI / Waymo / nuScenes。

When：选数据集；评估算法；迁移学习。

Example*：torchvision.datasets；HuggingFace datasets；tfds（TensorFlow Datasets）。

2.2 公开代码 / 框架 (Frameworks)

What：现代 CV 开发的工具栈。

Why：避免重复造轮子；快速迭代。

How：

主流框架（§C.2）：

OpenCV：CV 基础库；图像处理 / 特征 / 相机标定。
PyTorch：深度学习主流框架。
torchvision：CV 模型 / 数据集 / 变换。
timm（pytorch-image-models）：SOTA 模型库（分类 / 检测 / 分割）。
HuggingFace transformers：多模态 + 基础模型。
detectron2 / mmdetection：目标检测框架。
mmsegmentation：语义分割框架。
MMSegmentation / MMDetection：OpenMMLab 全家桶。
Open3D：3D 处理。
OpenCV / Kornia：可微 CV。

框架选择的工程经验

研究：PyTorch + HuggingFace + timm；灵活 + SOTA。
生产：ONNX / TensorRT；推理加速。
端侧：TFLite / Core ML / ncnn；模型压缩 + 加速。
3D：Open3D / trimesh / nerfstudio；不同任务不同库。

When：选工具；项目初始化；性能优化。

Example*：pip install opencv-python pytorch torchvision timm transformers 一行装齐。

2.3 评测基准 (Benchmarks)

What：评估算法性能的标准化指标。

Why：不同论文 / 系统的可比性；排行榜推动算法进步。

How：

常见评测（§C.3）：

分类：top-1 / top-5 accuracy。
检测：mAP（mean Average Precision）；COCO 80 类。
分割：mIoU（mean Intersection over Union）。
深度估计：EPE（End-Point Error）/ RMSE。
光流：EPE / Fl（Flow outlier percentage）。
3D 重建：Chamfer Distance / F-score。
生成：FID（Fréchet Inception Distance）/ IS（Inception Score）。

评测的工程经验

选对指标：分类用 accuracy；检测用 mAP；分割用 mIoU；生成用 FID。
不要只看单一指标：mAP 高但推理慢 → 不实用。
统计显著性：3 次以上运行取平均 + 标准差。

When：发论文；评估算法；选模型。

Example*：pycocotools 评估 COCO；torchmetrics 多任务评估；HuggingFace evaluate。

2.4 会议 / 期刊 (Conferences & Journals)

What：CV 研究发表的主要场所。

Why：跟踪前沿；了解最新进展。

How：

顶级会议 / 期刊（§C.4）：

CVPR（IEEE / 每年 6 月）：CV 顶会；接受率 ~25%。
ICCV（IEEE / 奇数年 10 月）：CV 顶会；接受率 ~25%。
ECCV（Springer / 偶数年 10 月）：CV 顶会；接受率 ~25%。
NeurIPS（NeurIPS 基金会 / 12 月）：AI 全栈顶会。
ICML（ML 顶会）：ML 理论 + 应用。
TPAMI（IEEE）：CV 顶刊。
IJCV（Springer）：CV 顶刊。
arXiv：预印本（cs.CV）；最新研究。

学术资源高效利用

arXiv-sanity：跟踪最新预印本。
Papers with Code：论文 + 代码 + 基准。
会议官方视频（CVF / YouTube）：看 oral / tutorial 视频。
Semantic Scholar / Google Scholar：搜引用 / 找作者。

When：跟踪前沿；写论文；选研究方向。

Example*：arxiv.org/list/cs.CV/recent；paperswithcode.com；semanticscholar.org。

2.5 数据集使用注意 (Dataset Considerations)

What：用公开数据集时的伦理 / 工程注意事项。

Why：CV 系统有偏见 / 公平性问题；工程需谨慎。

How：

注意事项（§C.5）：

标注噪声：自动标注有误差；人标注有主观性。
长尾分布：少数类样本少；模型偏向多数类。
偏差：数据集可能含性别 / 种族偏差（ImageNet / COCO 已有研究）。
隐私：人脸 / 医疗数据需脱敏。
许可：商用前查数据集许可（CC-BY-SA / 商业限制等）。

CV 工程师的伦理责任

数据多样性：训练数据应代表真实部署环境。
公平性审计：用工具（如 FairFace / What-If）检测偏见。
可解释性：医疗 / 司法 CV 系统需可解释。
隐私保护：联邦学习 / 差分隐私 / 合成数据。

When：训练 CV 模型；部署到生产；学术研究伦理审查。

Example*：facet / aif360 偏见检测；tensorflow_privacy 差分隐私；imgaug 数据增强。

三、关键图表

视觉图表

Figure 1. 图 C-1：CV 工具栈全景

非可视化条目

非可视化条目（表 / 算法）

编号

内容摘要

表 C.1

主流数据集对比（ImageNet / COCO / KITTI / ShapeNet）。

表 C.2

主流框架对比（PyTorch / OpenCV / timm / HuggingFace）。

表 C.3

评测指标对比（mAP / mIoU / EPE / FID）。

表 C.4

CV 顶级会议 / 期刊（CVPR / ICCV / ECCV / NeurIPS / TPAMI）。

核心公式对照表

概念

公式

mAP（检测）

\(\text{mAP} = \frac{1}{N} \sum_i \text{AP}_i,\ \text{AP} = \int_0^1 p(r) dr\)

mIoU（分割）

latexmath:[\text{mIoU} = \frac{1}{N} \sum_i \frac{

P_i \cap G_i

}{

P_i \cup G_i

}]

EPE（光流）

\(\text{EPE} = \sqrt{(u - u^*)^2 + (v - v^*)^2}\)

FID（生成）

\(\text{FID} = |\mu_r - \mu_g|^2 + \text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})\)

四、思维导图

mindmap
  root((附录 C 补充材料))
    数据集
      ImageNet
      COCO
      KITTI
    框架
      OpenCV
      PyTorch
      HuggingFace
    评测基准
      mAP
      mIoU
      FID
    会议期刊
      CVPR
      ICCV
      NeurIPS
    使用注意
      标注噪声
      偏差
      公平性

五、重点与易错点

数据集是 CV 进展的燃料：ImageNet / COCO 推动算法进步。
PyTorch 是研究主流：HuggingFace + timm 是 SOTA 模型库。
评测指标要选对：mAP / mIoU / EPE / FID 各有适用场景。
arXiv + Papers with Code 是研究日常：跟踪前沿 + 找代码实现。
数据偏差是 CV 伦理核心：训练数据应代表真实部署环境。
跨章衔接：本书到此结束——CV 是 AI 最活跃的子领域；学完本书只是开始；持续用 PyTorch / timm / transformers 实践。