点估计——最大似然估计、最大后验概率估计和贝叶斯估计

在北大听xlr老师的《经济与计算》课程时有一个小问题没有搞明白, 课后花了一些时间, 算是复习了之前数理统计学的MLE, 顺便研究了一下MAP和Bayes估计.

一枚硬币,掷14次,有10次正面向上. 请估计接下来两次都出现正面向上的概率. (如下图所示)

简短分析

  • 一些显而易见的信息:
    • 参数: 题目中只有一个参数, 那就是单次实验中正面向上的概率 \(\theta\), 这个 \(\theta\) 实际上是由硬币本身决定的.
    • 参数空间: 显然 \(\Theta=[0,1]\).
    • 样本空间: 显然 \(n\) 次试验的样本空间为 \(\{H,T\}^n\), \(H\) for head, \(T\) for tail.
  • 题目所需要估计的值并不是 \(\theta\) 的值, 而是 \(\theta^2\) 的值. 请注意 \(\hat{\theta}^2\) 未必会与 \(\hat{\theta^2}\) 相等.

最大似然估计

题目的做法

似然函数为: \[L(\theta)=\mathbb{P}(D|p)=\binom{14}{4}\theta^{10}(1-\theta)^4.\] 求其取最大值时 \(\theta\) 的取值: \[\theta_{MLE}=\arg\max_\theta\{L(\theta)\}=\frac{5}{7}.\] 与老师slides中的结果相吻合.

一般情形

一般情况下, 选取的样本 \(x_1,\cdots,x_n\) 都是i.i.d.样本, 于是似然函数只需要将其密度函数乘起来: \[L(x_1,\cdots,x_n|\theta)=\prod_{i=1}^nf(x_i|\theta)\] 然后求 \(\theta\), s.t. \(L(x_1,\cdots,x_n|\theta)\) 取最大即可, 一般只需解方程 \[\frac{\partial L}{\partial \theta}=0\] 有些情况下求对数似然函数 \(l(x_1,\cdots,x_n|\theta)=\ln L(x_1,\cdots,x_n|\theta)\) 的最大值计算起来更方便, 如正态分布.
维基百科上有详细讨论, 此处略去细节.

维基百科:最大似然估计
Wiki: Maximum likelihood estimation

最大后验概率估计

题目的做法

  • 此处假设的先验分布是 \(\theta\sim U(0,1)\).
    • 分布函数CDF: \(F(x)=x\);
    • 密度函数PDF: \(f(x)=1\).

由Bayes公式, 可得后验概率为:\[\begin{align} \mathbb{P}(\theta|D)&=\frac{\mathbb{P}(D|\theta)\mathbb{P}(\theta)}{\mathbb{P}(D)} \\ &= \frac{\binom{14}{4}\theta^{10}(1-\theta)^4\cdot f(\theta)}{\int_0^1\binom{14}{4}\theta^{10}(1-\theta)^4{\rm d}F(\theta)} \\ &= \frac{\theta^{10}(1-\theta)^4}{\int_0^1\theta^{10}(1-\theta)^4}. \end{align}\] 最大化这个概率, 可得MAP对 \(\theta\) 的估计值为: \[\begin{align}\theta_{MAP}&=\arg\max_\theta\{\mathbb{P}(\theta|D)\}\\ &=\arg\max_\theta\{\theta^{10}(1-\theta)^4\}\\ &=\frac{5}{7}\end{align}.\]

实际上MAP的结果在 \(\theta\sim U(0,1)\) 时与MLE没有任何区别.

一般情形

  • 已知先验分布, 及其CDF \(F(x)\) 和PDF \(f(x)\).
  • 在做实验得到数据 \(D\) 后, 利用MAP估计 \(\theta\) 的值.

由Bayes公式有: \[\mathbb{P}(\theta|D)=\frac{\mathbb{P}(D|\theta)\mathbb{P}(\theta)}{\mathbb{P}(D)}\] 逐项计算等号右边各项:

  • \(\mathbb{P}(D|\theta)\) 为: 单次实验结果为 \(H\) 的概率, 直接用概率论/组合数学/统计学知识计算即可.
  • \(\mathbb{P}(\theta)\) 为: \(\theta\) 的先验概率, 即先验分布的PDF \(f(\theta)\).
  • \(\mathbb{P}(D)\) 为: 样本空间中出现 \(D\) 的总概率, 等于后验概率 \(\mathbb{P}(D|\theta)\)\(\theta\) 的分布积分, 即 \[\mathbb{P}(D)=\int_\theta \mathbb{P}(D|\theta)~{\rm d}F(\theta)\]

简单整理一下, 可得: \[\mathbb{P}(\theta|D)=\frac{\mathbb{P}(D|\theta)f(\theta)}{\int_\theta \mathbb{P}(D|\theta)~{\rm d}F(\theta)}\] 事实上, \(\theta\) 对于 \(D\) 的后验分布其实就是 \(\theta\)\(D\) 的条件分布.
得到上式之后, 求使得该式最大的 \(\theta\) 即可. 由于分母是一个常数, 故: \[\theta_{MAP}=\arg\max_\theta\{\mathbb{P}(D|\theta)f(\theta)\}.\] 容易看出, 当 \(\theta\sim U(0,1)\) 时, 因 \(f(\theta)=1\)\(\theta_{MAP}=\theta_{MLE}\). 但一般情况下二者并不相等.

贝叶斯估计

题目的做法

  • 此处假设的先验分布是 \(\theta\sim U(0,1)\).
    • 分布函数CDF: \(F(x)=x\);
    • 密度函数PDF: \(f(x)=1\).

由Bayes公式, 可得后验概率为:\[\begin{align} \mathbb{P}(\theta|D)&=\frac{\mathbb{P}(D|\theta)\mathbb{P}(\theta)}{\mathbb{P}(D)} \\ &= \frac{\binom{14}{4}\theta^{10}(1-\theta)^4\cdot f(\theta)}{\int_0^1\binom{14}{4}\theta^{10}(1-\theta)^4{\rm d}F(\theta)} \\ &= \frac{\theta^{10}(1-\theta)^4}{\int_0^1\theta^{10}(1-\theta)^4}. \end{align}\] \(\theta\) 的Bayes估计值即为后验概率的期望: \[\begin{align} \hat{\theta}=\mathbb{E}(\theta|D)&= \int_0^1\theta~\mathbb{P}(\theta|D){\rm d}\theta \\ &= \int_0^1\frac{\theta^{11}(1-\theta)^4{\rm d}\theta}{\int_0^1\theta^{10}(1-\theta)^4}=\frac{11}{16}. \end{align}\] 题目中要求估计两次正面向上, 就是要估计 \(\theta^2\): \[\begin{align} \hat{\theta^2}=\mathbb{E}(\theta|D)&= \int_0^1\theta^2~\mathbb{P}(\theta|D){\rm d}\theta \\ &= \int_0^1\frac{\theta^{13}(1-\theta)^4{\rm d}\theta}{\int_0^1\theta^{10}(1-\theta)^4} \\ &= \frac{33}{68}\approx 0.485. \end{align}\] 这个答案恰好和老师的slides中给出的答案相符. 同时也作为一个例子说明了 \(\hat{\theta^2}\neq\hat{\theta}^2\).

一般情形

  • 已知先验分布, 及其CDF \(F(x)\) 和PDF \(f(x)\).
  • 在做实验得到数据 \(D\) 后, 利用Bayes估计来估计 \(\theta\) 的值.

Bayes估计的估计值实际上是参数 \(\theta\) 关于试验数据 \(D\) 的条件期望: \[\hat{\theta}=\mathbb{E}(\theta|D)\] 条件分布的密度函数与MAP中得到的相同: \[\mathbb{P}(\theta|D)=\frac{\mathbb{P}(D|\theta)f(\theta)}{\int_\theta \mathbb{P}(D|\theta)~{\rm d}F(\theta)}\] 得到上式之后, 积分求期望即可. 即: \[\begin{align} \hat{\theta}&=\mathbb{E}(\theta|D) \\ &= \int_\theta \mathbb{P}(D|\theta)\theta{\rm d}\theta \\ &= \frac{\int_\theta \mathbb{P}(D|\theta)f(\theta)\theta~{\rm d}\theta}{\int_\theta \mathbb{P}(D|\theta)~{\rm d}F(\theta)}. \end{align}\]