附录 B 贝叶斯建模与推断 (Bayesian Modeling and Inference)
核心结论
-
贝叶斯定理:
P(A|B) = P(B|A) P(A) / P(B);先验 + 似然 → 后验。 -
贝叶斯估计:用先验 + 似然得到参数分布;MAP / 后验均值 / 后验方差。
-
贝叶斯 CV 应用:去噪 / 分割 / 立体匹配 / 物体识别 / 跟踪。
-
采样方法:MCMC(Gibbs / Metropolis-Hastings);变分推断;MCMC 与变分的对比。
-
贝叶斯 vs 频率派:频率派估点估计;贝叶斯估分布。
|
本章主旨
附录 B 是 CV 统计建模的数学基础——把第 4 章的 MRF / 优化公式具象化为"贝叶斯框架"。理解后才能读懂 CV 顶会的概率模型 / 推断算法。 |
一、核心概念
本章围绕 5 个核心概念展开:贝叶斯定理 → 贝叶斯估计 → 贝叶斯 CV → 采样 → 变分推断。
| 概念 | 定义 + 重要性 | 实现提示 |
|---|---|---|
贝叶斯定理 |
后验 ∝ 先验 × 似然;CV 中所有概率方法基础。 |
B.1;理解后才能读概率模型。 |
贝叶斯估计 |
MAP / 后验均值 / 后验方差;点估计 + 不确定性。 |
B.2;CV 中"置信度"的概念基础。 |
贝叶斯 CV 应用 |
去噪 / 分割 / 立体匹配;图像建模标准框架。 |
B.3;与第 4 章 MRF 一致。 |
MCMC 采样 |
Gibbs / Metropolis-Hastings;通用但慢。 |
B.4;高维复杂后验的近似方法。 |
变分推断 |
用优化代替采样;适合大规模问题。 |
B.5;VAE / 变分自编码器基础。 |
二、详细笔记
2.1 贝叶斯定理 (Bayes' Theorem)
What:P(A|B) = P(B|A) P(A) / P(B);用先验 + 似然推后验。
Why:CV 中概率模型(去噪 / 分割 / 跟踪)都用贝叶斯框架。
How:
贝叶斯定理(§B.1):
-
P(θ):先验(参数 θ 的背景知识)。 -
P(D|θ):似然(参数 θ 下数据 D 的可能性)。 -
P(θ|D):后验(看到数据后参数的更新认识)。 -
P(D):证据(归一化常数)。
|
贝叶斯 vs 频率派
|
When:概率 CV 模型(去噪 / 分割);不确定性估计;贝叶斯深度学习。
Example*:pymc3 / stan 贝叶斯建模;laplace-torch 神经网络 Laplace 近似。
2.2 贝叶斯估计 (Bayesian Estimation)
What:从后验分布得到参数估计(点估计 + 不确定性)。
Why:CV 中"置信度" / "误差棒" 需要不确定性;深度学习的 calibration 也用。
How:
贝叶斯估计类型(§B.2):
-
MAP(最大后验):
θ̂ = argmax P(θ|D);最常用。 -
后验均值:
θ̂ = E[θ|D];MSE 最优。 -
后验方差:
Var[θ|D];不确定性。 -
后验中位数 / 众数:不同损失函数下的最优。
|
MAP vs MLE
|
When:所有概率模型的参数估计;不确定性需求场景。
Example*:scipy.optimize.minimize(neg_log_posterior, x0);pymc3 find_MAP()。
2.3 贝叶斯 CV 应用 (Bayesian CV Applications)
What:用贝叶斯框架建模 CV 任务(去噪 / 分割 / 立体匹配)。
Why:CV 中很多任务的概率解释是研究主流;理解后才能看懂顶会论文。
How:
常见贝叶斯 CV 模型(§B.3):
-
图像去噪:
P(clean | noisy) ∝ P(noisy | clean) P(clean);先验 P(clean) 鼓励平滑。 -
MRF 分割:
P(label | image) ∝ P(image | label) P(label);P(label) 是 MRF 平滑先验。 -
立体匹配:
P(d | left, right);d 是视差;先验鼓励平滑。 -
物体识别:
P(class | features);贝叶斯分类器。
|
贝叶斯 CV vs 深度学习
|
When:学术研究;不确定性需求;小数据场景。
Example*:pymc3 建模去噪 / 分割;laplace-torch 神经网络 Laplace 近似。
2.4 MCMC 采样 (MCMC Sampling)
What:从复杂后验分布采样;常用 Gibbs / Metropolis-Hastings。
Why:高维 / 复杂后验无法解析求解;采样是通用近似方法。
How:
MCMC 算法(§B.4):
-
Metropolis-Hastings:提议分布 + 接受 / 拒绝。
-
Gibbs 采样:逐变量采样条件分布。
-
Hamiltonian MC:用梯度信息(类似物理系统)。
-
NUTS(No-U-Turn Sampler):自动调步长。
|
MCMC 的工程经验
|
When:复杂后验;学术研究;不确定性严格评估。
Example*:pymc3 / stan 自动 HMC;emcee 集成 MCMC 库。
2.5 变分推断 (Variational Inference)
What:用优化代替采样;近似后验分布为简单分布(KL 散度最小化)。
Why:变分推断比 MCMC 快;适合大规模问题(深度学习)。
How:
变分推断(§B.5):
-
Q是变分分布族(高斯 / 平均场)。 -
最小化 KL = 近似后验。
ELBO 优化(VAE 基础):
|
变分推断 vs MCMC
|
When:深度学习概率模型(VAE / Diffusion);大规模贝叶斯推理。
Example*:pyro / numpyro 概率编程;VAE 实现。