附录 B 贝叶斯建模与推断 (Bayesian Modeling and Inference)

      +

      核心结论

      • 贝叶斯定理P(A|B) = P(B|A) P(A) / P(B);先验 + 似然 → 后验。

      • 贝叶斯估计:用先验 + 似然得到参数分布;MAP / 后验均值 / 后验方差。

      • 贝叶斯 CV 应用:去噪 / 分割 / 立体匹配 / 物体识别 / 跟踪。

      • 采样方法:MCMC(Gibbs / Metropolis-Hastings);变分推断;MCMC 与变分的对比。

      • 贝叶斯 vs 频率派:频率派估点估计;贝叶斯估分布。

      本章主旨

      附录 B 是 CV 统计建模的数学基础——把第 4 章的 MRF / 优化公式具象化为"贝叶斯框架"。理解后才能读懂 CV 顶会的概率模型 / 推断算法。

      一、核心概念

      本章围绕 5 个核心概念展开:贝叶斯定理 → 贝叶斯估计 → 贝叶斯 CV → 采样 → 变分推断。

      概念 定义 + 重要性 实现提示

      贝叶斯定理

      后验 ∝ 先验 × 似然;CV 中所有概率方法基础。

      B.1;理解后才能读概率模型。

      贝叶斯估计

      MAP / 后验均值 / 后验方差;点估计 + 不确定性。

      B.2;CV 中"置信度"的概念基础。

      贝叶斯 CV 应用

      去噪 / 分割 / 立体匹配;图像建模标准框架。

      B.3;与第 4 章 MRF 一致。

      MCMC 采样

      Gibbs / Metropolis-Hastings;通用但慢。

      B.4;高维复杂后验的近似方法。

      变分推断

      用优化代替采样;适合大规模问题。

      B.5;VAE / 变分自编码器基础。

      二、详细笔记

      2.1 贝叶斯定理 (Bayes' Theorem)

      WhatP(A|B) = P(B|A) P(A) / P(B);用先验 + 似然推后验。

      Why:CV 中概率模型(去噪 / 分割 / 跟踪)都用贝叶斯框架。

      How

      贝叶斯定理(§B.1):

      \[P(\theta \mid D) = \frac{P(D \mid \theta) P(\theta)}{P(D)} \end{bmatrix>\]
      • P(θ):先验(参数 θ 的背景知识)。

      • P(D|θ):似然(参数 θ 下数据 D 的可能性)。

      • P(θ|D):后验(看到数据后参数的更新认识)。

      • P(D):证据(归一化常数)。

      贝叶斯 vs 频率派
      • 频率派:参数 θ 固定未知;用似然 P(D|θ) 找最优 θ(MLE)。

      • 贝叶斯派:参数 θ 是随机变量;用先验 + 数据得到后验分布。

      • 现代 CV:贝叶斯更流行(不确定性估计 / 小数据场景)。

      When:概率 CV 模型(去噪 / 分割);不确定性估计;贝叶斯深度学习。

      Example*:pymc3 / stan 贝叶斯建模;laplace-torch 神经网络 Laplace 近似。

      2.2 贝叶斯估计 (Bayesian Estimation)

      What:从后验分布得到参数估计(点估计 + 不确定性)。

      Why:CV 中"置信度" / "误差棒" 需要不确定性;深度学习的 calibration 也用。

      How

      贝叶斯估计类型(§B.2):

      • MAP(最大后验):θ̂ = argmax P(θ|D);最常用。

      • 后验均值θ̂ = E[θ|D];MSE 最优。

      • 后验方差Var[θ|D];不确定性。

      • 后验中位数 / 众数:不同损失函数下的最优。

      MAP vs MLE
      • MLE(最大似然):θ̂ = argmax P(D|θ);无先验;大数据下 OK。

      • MAPθ̂ = argmax P(θ|D) = argmax P(D|θ) P(θ);有先验;小数据 / 正则化场景更好。

      When:所有概率模型的参数估计;不确定性需求场景。

      Example*:scipy.optimize.minimize(neg_log_posterior, x0)pymc3 find_MAP()

      2.3 贝叶斯 CV 应用 (Bayesian CV Applications)

      What:用贝叶斯框架建模 CV 任务(去噪 / 分割 / 立体匹配)。

      Why:CV 中很多任务的概率解释是研究主流;理解后才能看懂顶会论文。

      How

      常见贝叶斯 CV 模型(§B.3):

      • 图像去噪P(clean | noisy) ∝ P(noisy | clean) P(clean);先验 P(clean) 鼓励平滑。

      • MRF 分割P(label | image) ∝ P(image | label) P(label);P(label) 是 MRF 平滑先验。

      • 立体匹配P(d | left, right);d 是视差;先验鼓励平滑。

      • 物体识别P(class | features);贝叶斯分类器。

      贝叶斯 CV vs 深度学习
      • 贝叶斯:概率模型 + 推断;可解释;适合小数据。

      • 深度学习:黑盒 + 大数据;精度高;不可解释。

      • 现代:贝叶斯深度学习(BNN / Laplace)兼顾两者。

      When:学术研究;不确定性需求;小数据场景。

      Example*:pymc3 建模去噪 / 分割;laplace-torch 神经网络 Laplace 近似。

      2.4 MCMC 采样 (MCMC Sampling)

      What:从复杂后验分布采样;常用 Gibbs / Metropolis-Hastings。

      Why:高维 / 复杂后验无法解析求解;采样是通用近似方法。

      How

      MCMC 算法(§B.4):

      • Metropolis-Hastings:提议分布 + 接受 / 拒绝。

      • Gibbs 采样:逐变量采样条件分布。

      • Hamiltonian MC:用梯度信息(类似物理系统)。

      • NUTS(No-U-Turn Sampler):自动调步长。

      MCMC 的工程经验
      • 优点:通用;渐近精确。

      • 缺点:慢(数千到数万次迭代);难并行。

      • 现代:MCMC 与变分推断混合(VAE + HMC)。

      When:复杂后验;学术研究;不确定性严格评估。

      Example*:pymc3 / stan 自动 HMC;emcee 集成 MCMC 库。

      2.5 变分推断 (Variational Inference)

      What:用优化代替采样;近似后验分布为简单分布(KL 散度最小化)。

      Why:变分推断比 MCMC 快;适合大规模问题(深度学习)。

      How

      变分推断(§B.5):

      \[\min_{q \in \mathcal{Q}} \text{KL}(q(\theta) \| P(\theta | D)) = \mathbb{E}_q[\log q(\theta)] - \mathbb{E}_q[\log P(\theta, D)] + \text{const} \end{bmatrix>\]
      • Q 是变分分布族(高斯 / 平均场)。

      • 最小化 KL = 近似后验。

      ELBO 优化(VAE 基础):

      \[\text{ELBO} = \mathbb{E}_q[\log P(D|\theta)] - \text{KL}(q(\theta) \| P(\theta)) \end{bmatrix]\]
      变分推断 vs MCMC
      • 变分推断:快;可微分;适合大规模;但有偏。

      • MCMC:慢;渐近精确;适合小数据。

      • 现代:变分自编码器(VAE)= 变分推断 + 深度学习。

      When:深度学习概率模型(VAE / Diffusion);大规模贝叶斯推理。

      Example*:pyro / numpyro 概率编程;VAE 实现。

      三、关键图表

      视觉图表

      图 B-1
      Figure 1. 图 B-1:贝叶斯定理示意
      图 B-2
      Figure 2. 图 B-2:MCMC 采样收敛

      非可视化条目

      非可视化条目(表 / 算法)
      编号 内容摘要

      表 B.1

      MCMC 算法对比(MH / Gibbs / HMC / NUTS)。

      表 B.2

      变分推断族(平均场 / 高斯 / 流模型)。

      式 B-1 至 B-12

      贝叶斯定理 / MAP / ELBO 公式。

      核心公式对照表

      核心公式对照表
      概念 公式

      贝叶斯定理

      latexmath:[P(\theta

      D) = P(D

      \theta) P(\theta) / P(D)]

      MAP

      latexmath:[\hat{\theta} = \arg\max P(\theta

      D) = \arg\max P(D

      \theta) P(\theta)]

      KL 散度

      \(\text{KL}(q | p) = \sum q(x) \log \frac{q(x)}{p(x)}\)

      ELBO

      latexmath:[\text{ELBO} = \mathbb{E}_q[\log P(D

      四、思维导图

      mindmap
        root((附录 B 贝叶斯建模与推断))
          贝叶斯定理
            先验似然后验
            CV基础
          贝叶斯估计
            MAP
            后验均值
            不确定性
          CV应用
            去噪分割
            立体匹配
          MCMC
            Metropolis
            Gibbs
            HMC
          变分推断
            KL散度
            ELBO
            VAE

      五、重点与易错点

      • 贝叶斯定理是 CV 概率方法基础:理解后才能读概率 CV 论文。

      • MAP vs MLE:MAP 多了先验;小数据 / 正则化场景更稳。

      • MCMC 慢但精确;变分快但有偏:根据场景选择。

      • VAE 是变分推断 + 深度学习:理解后才能读现代生成模型论文。

      • 贝叶斯深度学习(BNN / Laplace):兼顾精度与不确定性——2024+ 热点。

      • 跨章衔接:第 4 章 MRF = 贝叶斯 CV 应用;第 5 章深度学习 = 现代变分推断应用;第 13 章 3D 重建可用贝叶斯深度估计不确定性。