矩估计与极大似然估计

\[\begin{align*} \newcommand{\dif}{\mathop{}\!\mathrm{d}} \newcommand{\p}{\partial} \newcommand{\Cov}{\text{Cov}} \end{align*}\]
参数
反映总体某方面特征的量
估计方法:点估计/区间估计(比如天气预报:20℃/20~25℃)
点估计
构造合适的统计量 $\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)$,用来估计为止参数 $\theta$,则 $\hat{\theta}$ 称为参数 $\theta$ 的 点估计量
对于特定样本,$\hat{\theta}(x_1,\cdots,x_n)$ 称为参数 $\theta$ 的 点估计值
点估计方法:矩估计、极大似然估计法

上面的定义说得文绉绉的,简单来说,就是我们已经知道总体服从某个分布,比如正态分布 $N(\mu,\sigma^2)$,但是参数 $\mu,\sigma$ 未知,那么我们就需要从总体中抽取样本,利用样本估计参数,估计出一个值就是点估计,估计出一个范围就是区间估计。

下面介绍点估计的两种方法。

矩估计

前面介绍过原点矩和中心矩。矩估计法就是以样本矩估计总体矩。其理论依据是辛钦大数定律和依概率收敛的性质:

\[假设 \mu_j=E(X^j) 存在,j=1,\cdots,k\\ \hat{\mu}_j=A_j=\frac{1}{n}\sum_{i=1}^n X_i^j \xrightarrow P \mu_j\\ 说明样本容量较大时与总体差距很小\]

假如要估计 $k$ 个未知参数 $\theta_1,\cdots,\theta_k$,已知 $X_1,\cdots,X_n$ 个样本,假设总体的前 $k$ 阶矩存在,则矩估计的步骤如下:

  1. 建立未知参数 $(\theta_1,\cdots,\theta_k)$ 与前 $k$ 阶矩 $(\mu_1,\cdots,\mu_k)$ 的联系:

    \[\mu_i=h_i(\theta_1,\cdots,\theta_k),i=1,\cdots,k\]

    一般求 $EX$ 或 $EX^2$

  2. 求反函数:

    \[\theta_i=g_i(\mu_1,\cdots,\mu_k),i=1,\cdots,k\]
  3. 用样本矩 $A-1,\cdots,A_k$ 代替总体矩,得到各参数的矩估计:

    \[\hat{\theta}_i=g_i(A_1,\cdots,A_k),i=1,\cdots,k\]
  4. 可以选择原点矩,也可以选择中心距

例题:$X\sim E(\lambda)$,取样本 $(X_1,X_2,\cdots,X_n)$,求 $\lambda$ 的矩估计量

解:$EX=\dfrac{1}{\lambda}$,令 $EX=\overline{X}$,则 $\hat{\lambda}=\dfrac{1}{\overline{X}}$

极大似然估计

设离散型总体 $X \sim p(x;\theta)$,$\theta$ 未知,样本 $X_1,\cdots,X_n$ 的观测值为 $x_1,\cdots,x_n$,则事件 ${X=x_1,\cdots,X_n=x_n}$ 发生的概率为:

\[L(\theta)=\prod_{i=1}^n p(x_i;\theta)\]

$L(\theta)$ 称为 似然函数。极大似然估计就是找到 $\hat{\theta}(x_1,\cdots,x_n)$,使得 $L(\theta)$ 取最大值 :

\[L(\hat{\theta})=\max_{\theta} L(\theta)\]

$\hat{\theta}(x_1,\cdots,x_n)$ 称为 $\theta$ 的 极大似然估计值,相应统计量 $\hat{\theta}(X_1,\cdots,X_n)$ 称为 $\theta$ 的 极大似然估计量(MLE)

对于连续型,我们考察样本在观察值邻域发生的概率:

\[L(\theta)=\prod_{i=1}^n f(x_i;\theta)\Delta x\rightarrow L(\theta)=\prod_{i=1}^n f(x_i;\theta)\\ L(\hat{\theta})=\max_{\theta} L(\theta)\]

补充说明:

  1. 未知参数可能不是一个,设 $\theta=(\theta_1,\cdots,\theta_k)$
  2. 求 $L(\theta)$ 的最大值,可以转化为求 $\ln L(\theta)$ 的最大值,称为 对数似然函数,然后利用求导求得极值,即:

    \[\frac{\p \ln L(\theta)}{\p \theta_i}\Bigg\vert_{\theta=\hat{\theta}}=0\]

    一般认为等于0就是极大值(不过考试时还是要写“经检验”)

  3. 如果 $L(\theta)$ 是单调函数,则 $\theta_i$ 的似然估计就取最大值
  4. 若求出 $\theta$ 的极大似然估计 $\hat{\theta}$,那么$g(\theta)$ 的极大似然估计就是 $g(\hat{\theta})$

例题:设 $X$ 服从均匀分布 $U(a,b)$,样本 $X_1,\cdots,X_n$。求 $a,b$ 和 $E(X)$ 的极大似然估计

解:似然函数
$$ L(a,b)= \begin{cases} \dfrac{1}{(b-a)^n} & a\leq x_i \leq b\\ 0 & 其他 \end{cases}\\ 关于 a 单调增,关于 b 单调减\\ \therefore \hat{a}= \max\{X_1,\cdots,X_n\}\\ \quad\hat{b}=\min\{X_1,\cdots,X_n\}\\ \because E(X)=\frac{a+b}{2}\\ \therefore \hat{E}(X)=\frac{\hat{a}+\hat{b}}{2} $$

例题:已知离散型随机变量 $X$ 的分布律为:$P(0)=\theta$,$P(1)=\theta$,$P(2)=1-2\theta$,抽取样本值为:$(0,1,2,2,1,0,1,1)$,求 $\theta$ 的矩估计和极大似然估计。

解:①矩估计:
$$ EX=0\times\theta+1\times\theta+2(1-2\theta)=2-3\theta\\ \overline{x}=1/8(0+1+2+2+1+0+1+1)=1\\ 令 EX=\overline{x},则 1=2-3\theta,得到 \hat{\theta}=\frac{1}{3} $$
②极大似然估计:
$$ L(\theta)=\prod_{i=1}^8 P(x_i)=\theta^6(1-2\theta)^2\\ \ln L(\theta)=6\ln\theta+2\ln(1-2\theta)\\ \frac{\dif}{\dif \theta} \ln L(\theta) = \frac{6}{\theta}+\frac{2}{1-2\theta}=0\\ \Rightarrow \hat{\theta} = \frac{3}{8} $$

例题:$X\sim f(x;\theta)=\begin{cases} 2 e^{-2(x-\theta)} & x>\theta \\ 0 & x \leq \theta \end{cases}$,求 $\theta$ 的矩估计和极大似然估计

解:矩估计
$$ \begin{align} EX&=\int_0^{+\infty} x \cdot 2e^{-2(x-\theta)} \dif x\\ &=\frac{1}{2} \int_0^{+\infty} [2(x-\theta)+2\theta] \cdot e^{-2(x-\theta)} \dif [2(x-\theta)]\\ &=\frac{1}{2} \int_0^{+\infty} (t+2\theta) \cdot e^{-t} \dif t\\ &=\frac{1}{2}\Gamma(2)+\theta\Gamma(1)\\ &=\frac{1}{2}+\theta \end{align}\\ 令 EX=\overline{X},得到 \hat{\theta} = \overline{X}-\frac{1}{2} $$
②极大似然估计
$$ \begin{align} L(\theta)&=\prod_{i=1}^n f(x_i;\theta)\\ &=\prod_{i=1}^n 2 e^{-2(x_i-\theta)} & x_i>\theta\\ &= 2^n e^{-2(x_1+x_2+\cdots+x_n)+2n\theta} \end{align}\\ \ln L(\theta) = n \ln2 -2(x_1+x_2+\cdots+x_n)+2n\theta\\ \frac{\dif}{\dif \theta} \ln L(\theta) = 2n >0 \; 说明L(\theta)是单调增函数\\ \theta 取最大值时,似然函数 L(\theta) 取最大值\\ \therefore \hat{\theta} = \min\{ x_1,x_2,\cdots,x_n\} $$

注:$\Gamma(z)$ 函数:$\Gamma(z)=\int_0^{+\infty} t^{z-1} e^{-t} \dif t$,并且满足:
① $\Gamma(z)=z\Gamma(z-1)$
② $\Gamma(z)=(z-1)!$
③ $\Gamma(\frac{1}{2})=\sqrt{\pi}$
这个函数十分重要,请务必记住。