附录 B 贝叶斯建模与推断 (Bayesian Modeling and Inference)

核心结论

贝叶斯定理：P(A|B) = P(B|A) P(A) / P(B)；先验 + 似然 → 后验。
贝叶斯估计：用先验 + 似然得到参数分布；MAP / 后验均值 / 后验方差。
贝叶斯 CV 应用：去噪 / 分割 / 立体匹配 / 物体识别 / 跟踪。
采样方法：MCMC（Gibbs / Metropolis-Hastings）；变分推断；MCMC 与变分的对比。
贝叶斯 vs 频率派：频率派估点估计；贝叶斯估分布。

本章主旨

附录 B 是 CV 统计建模的数学基础——把第 4 章的 MRF / 优化公式具象化为"贝叶斯框架"。理解后才能读懂 CV 顶会的概率模型 / 推断算法。

一、核心概念

本章围绕 5 个核心概念展开：贝叶斯定理 → 贝叶斯估计 → 贝叶斯 CV → 采样 → 变分推断。

概念	定义 + 重要性	实现提示
贝叶斯定理	后验 ∝ 先验 × 似然；CV 中所有概率方法基础。	B.1；理解后才能读概率模型。
贝叶斯估计	MAP / 后验均值 / 后验方差；点估计 + 不确定性。	B.2；CV 中"置信度"的概念基础。
贝叶斯 CV 应用	去噪 / 分割 / 立体匹配；图像建模标准框架。	B.3；与第 4 章 MRF 一致。
MCMC 采样	Gibbs / Metropolis-Hastings；通用但慢。	B.4；高维复杂后验的近似方法。
变分推断	用优化代替采样；适合大规模问题。	B.5；VAE / 变分自编码器基础。

概念

定义 + 重要性

实现提示

贝叶斯定理

后验 ∝ 先验 × 似然；CV 中所有概率方法基础。

B.1；理解后才能读概率模型。

贝叶斯估计

MAP / 后验均值 / 后验方差；点估计 + 不确定性。

B.2；CV 中"置信度"的概念基础。

贝叶斯 CV 应用

去噪 / 分割 / 立体匹配；图像建模标准框架。

B.3；与第 4 章 MRF 一致。

MCMC 采样

Gibbs / Metropolis-Hastings；通用但慢。

B.4；高维复杂后验的近似方法。

变分推断

用优化代替采样；适合大规模问题。

B.5；VAE / 变分自编码器基础。

二、详细笔记

2.1 贝叶斯定理 (Bayes' Theorem)

What：P(A|B) = P(B|A) P(A) / P(B)；用先验 + 似然推后验。

Why：CV 中概率模型（去噪 / 分割 / 跟踪）都用贝叶斯框架。

How：

贝叶斯定理（§B.1）：

\[P(\theta \mid D) = \frac{P(D \mid \theta) P(\theta)}{P(D)} \end{bmatrix>\]

P(θ)：先验（参数 θ 的背景知识）。
P(D|θ)：似然（参数 θ 下数据 D 的可能性）。
P(θ|D)：后验（看到数据后参数的更新认识）。
P(D)：证据（归一化常数）。

贝叶斯 vs 频率派

频率派：参数 θ 固定未知；用似然 P(D|θ) 找最优 θ（MLE）。
贝叶斯派：参数 θ 是随机变量；用先验 + 数据得到后验分布。
现代 CV：贝叶斯更流行（不确定性估计 / 小数据场景）。

When：概率 CV 模型（去噪 / 分割）；不确定性估计；贝叶斯深度学习。

Example*：pymc3 / stan 贝叶斯建模；laplace-torch 神经网络 Laplace 近似。

2.2 贝叶斯估计 (Bayesian Estimation)

What：从后验分布得到参数估计（点估计 + 不确定性）。

Why：CV 中"置信度" / "误差棒" 需要不确定性；深度学习的 calibration 也用。

How：

贝叶斯估计类型（§B.2）：

MAP（最大后验）：θ̂ = argmax P(θ|D)；最常用。
后验均值：θ̂ = E[θ|D]；MSE 最优。
后验方差：Var[θ|D]；不确定性。
后验中位数 / 众数：不同损失函数下的最优。

MAP vs MLE

MLE（最大似然）：θ̂ = argmax P(D|θ)；无先验；大数据下 OK。
MAP：θ̂ = argmax P(θ|D) = argmax P(D|θ) P(θ)；有先验；小数据 / 正则化场景更好。

When：所有概率模型的参数估计；不确定性需求场景。

Example*：scipy.optimize.minimize(neg_log_posterior, x0)；pymc3 find_MAP()。

2.3 贝叶斯 CV 应用 (Bayesian CV Applications)

What：用贝叶斯框架建模 CV 任务（去噪 / 分割 / 立体匹配）。

Why：CV 中很多任务的概率解释是研究主流；理解后才能看懂顶会论文。

How：

常见贝叶斯 CV 模型（§B.3）：

图像去噪：P(clean | noisy) ∝ P(noisy | clean) P(clean)；先验 P(clean) 鼓励平滑。
MRF 分割：P(label | image) ∝ P(image | label) P(label)；P(label) 是 MRF 平滑先验。
立体匹配：P(d | left, right)；d 是视差；先验鼓励平滑。
物体识别：P(class | features)；贝叶斯分类器。

贝叶斯 CV vs 深度学习

贝叶斯：概率模型 + 推断；可解释；适合小数据。
深度学习：黑盒 + 大数据；精度高；不可解释。
现代：贝叶斯深度学习（BNN / Laplace）兼顾两者。

When：学术研究；不确定性需求；小数据场景。

Example*：pymc3 建模去噪 / 分割；laplace-torch 神经网络 Laplace 近似。

2.4 MCMC 采样 (MCMC Sampling)

What：从复杂后验分布采样；常用 Gibbs / Metropolis-Hastings。

Why：高维 / 复杂后验无法解析求解；采样是通用近似方法。

How：

MCMC 算法（§B.4）：

Metropolis-Hastings：提议分布 + 接受 / 拒绝。
Gibbs 采样：逐变量采样条件分布。
Hamiltonian MC：用梯度信息（类似物理系统）。
NUTS（No-U-Turn Sampler）：自动调步长。

MCMC 的工程经验

优点：通用；渐近精确。
缺点：慢（数千到数万次迭代）；难并行。
现代：MCMC 与变分推断混合（VAE + HMC）。

When：复杂后验；学术研究；不确定性严格评估。

Example*：pymc3 / stan 自动 HMC；emcee 集成 MCMC 库。

2.5 变分推断 (Variational Inference)

What：用优化代替采样；近似后验分布为简单分布（KL 散度最小化）。

Why：变分推断比 MCMC 快；适合大规模问题（深度学习）。

How：

变分推断（§B.5）：

\[\min_{q \in \mathcal{Q}} \text{KL}(q(\theta) \| P(\theta | D)) = \mathbb{E}_q[\log q(\theta)] - \mathbb{E}_q[\log P(\theta, D)] + \text{const} \end{bmatrix>\]

Q 是变分分布族（高斯 / 平均场）。
最小化 KL = 近似后验。

ELBO 优化（VAE 基础）：

\[\text{ELBO} = \mathbb{E}_q[\log P(D|\theta)] - \text{KL}(q(\theta) \| P(\theta)) \end{bmatrix]\]

变分推断 vs MCMC

变分推断：快；可微分；适合大规模；但有偏。
MCMC：慢；渐近精确；适合小数据。
现代：变分自编码器（VAE）= 变分推断 + 深度学习。

When：深度学习概率模型（VAE / Diffusion）；大规模贝叶斯推理。

Example*：pyro / numpyro 概率编程；VAE 实现。

三、关键图表

视觉图表

Figure 1. 图 B-1：贝叶斯定理示意

Figure 2. 图 B-2：MCMC 采样收敛

非可视化条目

非可视化条目（表 / 算法）

编号

内容摘要

表 B.1

MCMC 算法对比（MH / Gibbs / HMC / NUTS）。

表 B.2

变分推断族（平均场 / 高斯 / 流模型）。

式 B-1 至 B-12

贝叶斯定理 / MAP / ELBO 公式。

核心公式对照表

概念

公式

贝叶斯定理

latexmath:[P(\theta

D) = P(D

\theta) P(\theta) / P(D)]

MAP

latexmath:[\hat{\theta} = \arg\max P(\theta

D) = \arg\max P(D

\theta) P(\theta)]

KL 散度

\(\text{KL}(q | p) = \sum q(x) \log \frac{q(x)}{p(x)}\)

ELBO

latexmath:[\text{ELBO} = \mathbb{E}_q[\log P(D

四、思维导图

mindmap
  root((附录 B 贝叶斯建模与推断))
    贝叶斯定理
      先验似然后验
      CV基础
    贝叶斯估计
      MAP
      后验均值
      不确定性
    CV应用
      去噪分割
      立体匹配
    MCMC
      Metropolis
      Gibbs
      HMC
    变分推断
      KL散度
      ELBO
      VAE

五、重点与易错点

贝叶斯定理是 CV 概率方法基础：理解后才能读概率 CV 论文。
MAP vs MLE：MAP 多了先验；小数据 / 正则化场景更稳。
MCMC 慢但精确；变分快但有偏：根据场景选择。
VAE 是变分推断 + 深度学习：理解后才能读现代生成模型论文。
贝叶斯深度学习（BNN / Laplace）：兼顾精度与不确定性——2024+ 热点。
跨章衔接：第 4 章 MRF = 贝叶斯 CV 应用；第 5 章深度学习 = 现代变分推断应用；第 13 章 3D 重建可用贝叶斯深度估计不确定性。