附录 C 补充材料 (Supplementary Material)
核心结论
-
数据集(§C.1):ImageNet / COCO / ADE20K / KITTI / Waymo / ShapeNet;规模 + 任务差异巨大。
-
公开代码 / 框架:OpenCV / PyTorch / torchvision / timm / HuggingFace / detectron2 / mmdetection。
-
评测基准:mAP(COCO 检测)/ mIoU(COCO 分割)/ EPE(光流)/ EPE / RMSE(深度)。
-
会议 / 期刊:CVPR / ICCV / ECCV / NeurIPS / TPAMI;arXiv 预印本。
-
数据集使用注意:标注噪声 / 偏差 / 长尾分布 / 公平性。
|
本章主旨
附录 C 是 CV 实践资源汇总——数据集 / 代码 / 评测 / 会议。读者读完本书后可用这些资源深入学习与实践。 |
一、核心概念
本章围绕 5 个核心概念展开:数据集 → 框架 → 评测基准 → 会议 / 期刊 → 数据集使用注意。
| 概念 | 定义 + 重要性 | 实现提示 |
|---|---|---|
数据集 |
ImageNet / COCO / ADE20K / KITTI / ShapeNet。 |
§C.1;CV 任务的标准数据源。 |
公开代码 / 框架 |
OpenCV / PyTorch / torchvision / timm / HuggingFace。 |
§C.2;现代 CV 开发的标配。 |
评测基准 |
mAP / mIoU / EPE / FID;任务相关。 |
§C.3;论文对比与排行榜。 |
会议 / 期刊 |
CVPR / ICCV / ECCV / NeurIPS / TPAMI;arXiv 预印本。 |
§C.4;跟踪前沿研究。 |
数据集使用注意 |
标注噪声 / 偏差 / 长尾分布 / 公平性。 |
§C.5;伦理与工程实践。 |
二、详细笔记
2.1 数据集 (Datasets)
What:CV 任务的标准数据集合。
Why:CV 进展依赖公开数据集;benchmark 推动算法进步。
How:
主要数据集(§C.1):
-
ImageNet(1.2M 图 / 1000 类):分类;2009 推出。
-
COCO(330K 图 / 80 类):检测 / 分割 / 关键点;2014 推出。
-
ADE20K(20K 图 / 150 类):场景分割。
-
KITTI(自动驾驶):立体 / 深度 / 光流 / SLAM。
-
Waymo(自动驾驶 / 规模更大):感知 / 预测。
-
ShapeNet(3D 模型):3D 重建 / 识别。
|
数据集选择
|
When:选数据集;评估算法;迁移学习。
Example*:torchvision.datasets;HuggingFace datasets;tfds(TensorFlow Datasets)。
2.2 公开代码 / 框架 (Frameworks)
What:现代 CV 开发的工具栈。
Why:避免重复造轮子;快速迭代。
How:
主流框架(§C.2):
-
OpenCV:CV 基础库;图像处理 / 特征 / 相机标定。
-
PyTorch:深度学习主流框架。
-
torchvision:CV 模型 / 数据集 / 变换。
-
timm(pytorch-image-models):SOTA 模型库(分类 / 检测 / 分割)。
-
HuggingFace transformers:多模态 + 基础模型。
-
detectron2 / mmdetection:目标检测框架。
-
mmsegmentation:语义分割框架。
-
MMSegmentation / MMDetection:OpenMMLab 全家桶。
-
Open3D:3D 处理。
-
OpenCV / Kornia:可微 CV。
|
框架选择的工程经验
|
When:选工具;项目初始化;性能优化。
Example*:pip install opencv-python pytorch torchvision timm transformers 一行装齐。
2.3 评测基准 (Benchmarks)
What:评估算法性能的标准化指标。
Why:不同论文 / 系统的可比性;排行榜推动算法进步。
How:
常见评测(§C.3):
-
分类:top-1 / top-5 accuracy。
-
检测:mAP(mean Average Precision);COCO 80 类。
-
分割:mIoU(mean Intersection over Union)。
-
深度估计:EPE(End-Point Error)/ RMSE。
-
光流:EPE / Fl(Flow outlier percentage)。
-
3D 重建:Chamfer Distance / F-score。
-
生成:FID(Fréchet Inception Distance)/ IS(Inception Score)。
|
评测的工程经验
|
When:发论文;评估算法;选模型。
Example*:pycocotools 评估 COCO;torchmetrics 多任务评估;HuggingFace evaluate。
2.4 会议 / 期刊 (Conferences & Journals)
What:CV 研究发表的主要场所。
Why:跟踪前沿;了解最新进展。
How:
顶级会议 / 期刊(§C.4):
-
CVPR(IEEE / 每年 6 月):CV 顶会;接受率 ~25%。
-
ICCV(IEEE / 奇数年 10 月):CV 顶会;接受率 ~25%。
-
ECCV(Springer / 偶数年 10 月):CV 顶会;接受率 ~25%。
-
NeurIPS(NeurIPS 基金会 / 12 月):AI 全栈顶会。
-
ICML(ML 顶会):ML 理论 + 应用。
-
TPAMI(IEEE):CV 顶刊。
-
IJCV(Springer):CV 顶刊。
-
arXiv:预印本(cs.CV);最新研究。
|
学术资源高效利用
|
When:跟踪前沿;写论文;选研究方向。
Example*:arxiv.org/list/cs.CV/recent;paperswithcode.com;semanticscholar.org。
2.5 数据集使用注意 (Dataset Considerations)
What:用公开数据集时的伦理 / 工程注意事项。
Why:CV 系统有偏见 / 公平性问题;工程需谨慎。
How:
注意事项(§C.5):
-
标注噪声:自动标注有误差;人标注有主观性。
-
长尾分布:少数类样本少;模型偏向多数类。
-
偏差:数据集可能含性别 / 种族偏差(ImageNet / COCO 已有研究)。
-
隐私:人脸 / 医疗数据需脱敏。
-
许可:商用前查数据集许可(CC-BY-SA / 商业限制等)。
|
CV 工程师的伦理责任
|
When:训练 CV 模型;部署到生产;学术研究伦理审查。
Example*:facet / aif360 偏见检测;tensorflow_privacy 差分隐私;imgaug 数据增强。
三、关键图表
非可视化条目
|
非可视化条目(表 / 算法)
|
核心公式对照表
|
核心公式对照表
|