附录 C 补充材料 (Supplementary Material)

      +

      核心结论

      • 数据集(§C.1):ImageNet / COCO / ADE20K / KITTI / Waymo / ShapeNet;规模 + 任务差异巨大。

      • 公开代码 / 框架:OpenCV / PyTorch / torchvision / timm / HuggingFace / detectron2 / mmdetection。

      • 评测基准:mAP(COCO 检测)/ mIoU(COCO 分割)/ EPE(光流)/ EPE / RMSE(深度)。

      • 会议 / 期刊:CVPR / ICCV / ECCV / NeurIPS / TPAMI;arXiv 预印本。

      • 数据集使用注意:标注噪声 / 偏差 / 长尾分布 / 公平性。

      本章主旨

      附录 C 是 CV 实践资源汇总——数据集 / 代码 / 评测 / 会议。读者读完本书后可用这些资源深入学习与实践。

      一、核心概念

      本章围绕 5 个核心概念展开:数据集 → 框架 → 评测基准 → 会议 / 期刊 → 数据集使用注意。

      概念 定义 + 重要性 实现提示

      数据集

      ImageNet / COCO / ADE20K / KITTI / ShapeNet。

      §C.1;CV 任务的标准数据源。

      公开代码 / 框架

      OpenCV / PyTorch / torchvision / timm / HuggingFace。

      §C.2;现代 CV 开发的标配。

      评测基准

      mAP / mIoU / EPE / FID;任务相关。

      §C.3;论文对比与排行榜。

      会议 / 期刊

      CVPR / ICCV / ECCV / NeurIPS / TPAMI;arXiv 预印本。

      §C.4;跟踪前沿研究。

      数据集使用注意

      标注噪声 / 偏差 / 长尾分布 / 公平性。

      §C.5;伦理与工程实践。

      二、详细笔记

      2.1 数据集 (Datasets)

      What:CV 任务的标准数据集合。

      Why:CV 进展依赖公开数据集;benchmark 推动算法进步。

      How

      主要数据集(§C.1):

      • ImageNet(1.2M 图 / 1000 类):分类;2009 推出。

      • COCO(330K 图 / 80 类):检测 / 分割 / 关键点;2014 推出。

      • ADE20K(20K 图 / 150 类):场景分割。

      • KITTI(自动驾驶):立体 / 深度 / 光流 / SLAM。

      • Waymo(自动驾驶 / 规模更大):感知 / 预测。

      • ShapeNet(3D 模型):3D 重建 / 识别。

      数据集选择
      • 分类:ImageNet / CIFAR / MNIST。

      • 检测:COCO / VOC / Open Images。

      • 分割:COCO / ADE20K / Cityscapes。

      • 3D 重建:ShapeNet / ModelNet / ABC。

      • 视频:Kinetics / UCF-101 / Something-Something。

      • 自动驾驶:KITTI / Waymo / nuScenes。

      When:选数据集;评估算法;迁移学习。

      Example*:torchvision.datasetsHuggingFace datasetstfds(TensorFlow Datasets)。

      2.2 公开代码 / 框架 (Frameworks)

      What:现代 CV 开发的工具栈。

      Why:避免重复造轮子;快速迭代。

      How

      主流框架(§C.2):

      • OpenCV:CV 基础库;图像处理 / 特征 / 相机标定。

      • PyTorch:深度学习主流框架。

      • torchvision:CV 模型 / 数据集 / 变换。

      • timm(pytorch-image-models):SOTA 模型库(分类 / 检测 / 分割)。

      • HuggingFace transformers:多模态 + 基础模型。

      • detectron2 / mmdetection:目标检测框架。

      • mmsegmentation:语义分割框架。

      • MMSegmentation / MMDetection:OpenMMLab 全家桶。

      • Open3D:3D 处理。

      • OpenCV / Kornia:可微 CV。

      框架选择的工程经验
      • 研究:PyTorch + HuggingFace + timm;灵活 + SOTA。

      • 生产:ONNX / TensorRT;推理加速。

      • 端侧:TFLite / Core ML / ncnn;模型压缩 + 加速。

      • 3D:Open3D / trimesh / nerfstudio;不同任务不同库。

      When:选工具;项目初始化;性能优化。

      Example*:pip install opencv-python pytorch torchvision timm transformers 一行装齐。

      2.3 评测基准 (Benchmarks)

      What:评估算法性能的标准化指标。

      Why:不同论文 / 系统的可比性;排行榜推动算法进步。

      How

      常见评测(§C.3):

      • 分类:top-1 / top-5 accuracy。

      • 检测:mAP(mean Average Precision);COCO 80 类。

      • 分割:mIoU(mean Intersection over Union)。

      • 深度估计:EPE(End-Point Error)/ RMSE。

      • 光流:EPE / Fl(Flow outlier percentage)。

      • 3D 重建:Chamfer Distance / F-score。

      • 生成:FID(Fréchet Inception Distance)/ IS(Inception Score)。

      评测的工程经验
      • 选对指标:分类用 accuracy;检测用 mAP;分割用 mIoU;生成用 FID。

      • 不要只看单一指标:mAP 高但推理慢 → 不实用。

      • 统计显著性:3 次以上运行取平均 + 标准差。

      When:发论文;评估算法;选模型。

      Example*:pycocotools 评估 COCO;torchmetrics 多任务评估;HuggingFace evaluate

      2.4 会议 / 期刊 (Conferences & Journals)

      What:CV 研究发表的主要场所。

      Why:跟踪前沿;了解最新进展。

      How

      顶级会议 / 期刊(§C.4):

      • CVPR(IEEE / 每年 6 月):CV 顶会;接受率 ~25%。

      • ICCV(IEEE / 奇数年 10 月):CV 顶会;接受率 ~25%。

      • ECCV(Springer / 偶数年 10 月):CV 顶会;接受率 ~25%。

      • NeurIPS(NeurIPS 基金会 / 12 月):AI 全栈顶会。

      • ICML(ML 顶会):ML 理论 + 应用。

      • TPAMI(IEEE):CV 顶刊。

      • IJCV(Springer):CV 顶刊。

      • arXiv:预印本(cs.CV);最新研究。

      学术资源高效利用
      • arXiv-sanity:跟踪最新预印本。

      • Papers with Code:论文 + 代码 + 基准。

      • 会议官方视频(CVF / YouTube):看 oral / tutorial 视频。

      • Semantic Scholar / Google Scholar:搜引用 / 找作者。

      When:跟踪前沿;写论文;选研究方向。

      Example*:arxiv.org/list/cs.CV/recentpaperswithcode.comsemanticscholar.org

      2.5 数据集使用注意 (Dataset Considerations)

      What:用公开数据集时的伦理 / 工程注意事项。

      Why:CV 系统有偏见 / 公平性问题;工程需谨慎。

      How

      注意事项(§C.5):

      • 标注噪声:自动标注有误差;人标注有主观性。

      • 长尾分布:少数类样本少;模型偏向多数类。

      • 偏差:数据集可能含性别 / 种族偏差(ImageNet / COCO 已有研究)。

      • 隐私:人脸 / 医疗数据需脱敏。

      • 许可:商用前查数据集许可(CC-BY-SA / 商业限制等)。

      CV 工程师的伦理责任
      • 数据多样性:训练数据应代表真实部署环境。

      • 公平性审计:用工具(如 FairFace / What-If)检测偏见。

      • 可解释性:医疗 / 司法 CV 系统需可解释。

      • 隐私保护:联邦学习 / 差分隐私 / 合成数据。

      When:训练 CV 模型;部署到生产;学术研究伦理审查。

      Example*:facet / aif360 偏见检测;tensorflow_privacy 差分隐私;imgaug 数据增强。

      三、关键图表

      视觉图表

      图 C-1
      Figure 1. 图 C-1:CV 工具栈全景

      非可视化条目

      非可视化条目(表 / 算法)
      编号 内容摘要

      表 C.1

      主流数据集对比(ImageNet / COCO / KITTI / ShapeNet)。

      表 C.2

      主流框架对比(PyTorch / OpenCV / timm / HuggingFace)。

      表 C.3

      评测指标对比(mAP / mIoU / EPE / FID)。

      表 C.4

      CV 顶级会议 / 期刊(CVPR / ICCV / ECCV / NeurIPS / TPAMI)。

      核心公式对照表

      核心公式对照表
      概念 公式

      mAP(检测)

      \(\text{mAP} = \frac{1}{N} \sum_i \text{AP}_i,\ \text{AP} = \int_0^1 p(r) dr\)

      mIoU(分割)

      latexmath:[\text{mIoU} = \frac{1}{N} \sum_i \frac{

      P_i \cap G_i

      }{

      P_i \cup G_i

      }]

      EPE(光流)

      \(\text{EPE} = \sqrt{(u - u^*)^2 + (v - v^*)^2}\)

      FID(生成)

      \(\text{FID} = |\mu_r - \mu_g|^2 + \text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})\)

      四、思维导图

      mindmap
        root((附录 C 补充材料))
          数据集
            ImageNet
            COCO
            KITTI
          框架
            OpenCV
            PyTorch
            HuggingFace
          评测基准
            mAP
            mIoU
            FID
          会议期刊
            CVPR
            ICCV
            NeurIPS
          使用注意
            标注噪声
            偏差
            公平性

      五、重点与易错点

      • 数据集是 CV 进展的燃料:ImageNet / COCO 推动算法进步。

      • PyTorch 是研究主流:HuggingFace + timm 是 SOTA 模型库。

      • 评测指标要选对:mAP / mIoU / EPE / FID 各有适用场景。

      • arXiv + Papers with Code 是研究日常:跟踪前沿 + 找代码实现。

      • 数据偏差是 CV 伦理核心:训练数据应代表真实部署环境。

      • 跨章衔接:本书到此结束——CV 是 AI 最活跃的子领域;学完本书只是开始;持续用 PyTorch / timm / transformers 实践。