矩估计与极大似然估计
- 参数
- 反映总体某方面特征的量
- 估计方法:点估计/区间估计(比如天气预报:20℃/20~25℃)
- 点估计
- 构造合适的统计量 $\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)$,用来估计为止参数 $\theta$,则 $\hat{\theta}$ 称为参数 $\theta$ 的 点估计量。
- 对于特定样本,$\hat{\theta}(x_1,\cdots,x_n)$ 称为参数 $\theta$ 的 点估计值
- 点估计方法:矩估计、极大似然估计法
上面的定义说得文绉绉的,简单来说,就是我们已经知道总体服从某个分布,比如正态分布 $N(\mu,\sigma^2)$,但是参数 $\mu,\sigma$ 未知,那么我们就需要从总体中抽取样本,利用样本估计参数,估计出一个值就是点估计,估计出一个范围就是区间估计。
下面介绍点估计的两种方法。
矩估计
前面介绍过原点矩和中心矩。矩估计法就是以样本矩估计总体矩。其理论依据是辛钦大数定律和依概率收敛的性质:
$$ 假设 \mu_j=E(X^j) 存在,j=1,\cdots,k\\ \hat{\mu}_j=A_j=\frac{1}{n}\sum_{i=1}^n X_i^j \xrightarrow P \mu_j\\ 说明样本容量较大时与总体差距很小 $$假如要估计 $k$ 个未知参数 $\theta_1,\cdots,\theta_k$,已知 $X_1,\cdots,X_n$ 个样本,假设总体的前 $k$ 阶矩存在,则矩估计的步骤如下:
建立未知参数 $(\theta_1,\cdots,\theta_k)$ 与前 $k$ 阶矩 $(\mu_1,\cdots,\mu_k)$ 的联系:
$$ \mu_i=h_i(\theta_1,\cdots,\theta_k),i=1,\cdots,k $$一般求 $EX$ 或 $EX^2$
求反函数:
$$ \theta_i=g_i(\mu_1,\cdots,\mu_k),i=1,\cdots,k $$用样本矩 $A-1,\cdots,A_k$ 代替总体矩,得到各参数的矩估计:
$$ \hat{\theta}_i=g_i(A_1,\cdots,A_k),i=1,\cdots,k $$可以选择原点矩,也可以选择中心距
Tip
例题:$X\sim E(\lambda)$,取样本 $(X_1,X_2,\cdots,X_n)$,求 $\lambda$ 的矩估计量
Note
解:$EX=\dfrac{1}{\lambda}$,令 $EX=\overline{X}$,则 $\hat{\lambda}=\dfrac{1}{\overline{X}}$
极大似然估计
设离散型总体 $X \sim p(x;\theta)$,$\theta$ 未知,样本 $X_1,\cdots,X_n$ 的观测值为 $x_1,\cdots,x_n$,则事件 $\{X=x_1,\cdots,X_n=x_n\}$ 发生的概率为:
$$ L(\theta)=\prod_{i=1}^n p(x_i;\theta) $$$L(\theta)$ 称为 似然函数。极大似然估计就是找到 $\hat{\theta}(x_1,\cdots,x_n)$,使得 $L(\theta)$ 取最大值 :
$$ L(\hat{\theta})=\max_{\theta} L(\theta) $$$\hat{\theta}(x_1,\cdots,x_n)$ 称为 $\theta$ 的 极大似然估计值,相应统计量 $\hat{\theta}(X_1,\cdots,X_n)$ 称为 $\theta$ 的 极大似然估计量(MLE)
对于连续型,我们考察样本在观察值邻域发生的概率:
$$ L(\theta)=\prod_{i=1}^n f(x_i;\theta)\Delta x\rightarrow L(\theta)=\prod_{i=1}^n f(x_i;\theta)\\ L(\hat{\theta})=\max_{\theta} L(\theta) $$补充说明:
未知参数可能不是一个,设 $\theta=(\theta_1,\cdots,\theta_k)$
求 $L(\theta)$ 的最大值,可以转化为求 $\ln L(\theta)$ 的最大值,称为 对数似然函数,然后利用求导求得极值,即:
$$ \frac{\p \ln L(\theta)}{\p \theta_i}\Bigg\vert_{\theta=\hat{\theta}}=0 $$一般认为等于0就是极大值(不过考试时还是要写“经检验”)
如果 $L(\theta)$ 是单调函数,则 $\theta_i$ 的似然估计就取最大值
若求出 $\theta$ 的极大似然估计 $\hat{\theta}$,那么$g(\theta)$ 的极大似然估计就是 $g(\hat{\theta})$
Tip
例题:设 $X$ 服从均匀分布 $U(a,b)$,样本 $X_1,\cdots,X_n$。求 $a,b$ 和 $E(X)$ 的极大似然估计
Note
解:似然函数
Tip
例题:已知离散型随机变量 $X$ 的分布律为:$P(0)=\theta$,$P(1)=\theta$,$P(2)=1-2\theta$,抽取样本值为:$(0,1,2,2,1,0,1,1)$,求 $\theta$ 的矩估计和极大似然估计。
$$ EX=0\times\theta+1\times\theta+2(1-2\theta)=2-3\theta\\ \overline{x}=1/8(0+1+2+2+1+0+1+1)=1\\ 令 EX=\overline{x},则 1=2-3\theta,得到 \hat{\theta}=\frac{1}{3} $$$$ L(\theta)=\prod_{i=1}^8 P(x_i)=\theta^6(1-2\theta)^2\\ \ln L(\theta)=6\ln\theta+2\ln(1-2\theta)\\ \frac{\dif}{\dif \theta} \ln L(\theta) = \frac{6}{\theta}+\frac{2}{1-2\theta}=0\\ \Rightarrow \hat{\theta} = \frac{3}{8} $$
Tip
例题:$X\sim f(x;\theta)=\begin{cases} 2 e^{-2(x-\theta)} & x>\theta \\ 0 & x \leq \theta \end{cases}$,求 $\theta$ 的矩估计和极大似然估计
$$ \begin{align} EX&=\int_0^{+\infty} x \cdot 2e^{-2(x-\theta)} \dif x\\ &=\frac{1}{2} \int_0^{+\infty} [2(x-\theta)+2\theta] \cdot e^{-2(x-\theta)} \dif [2(x-\theta)]\\ &=\frac{1}{2} \int_0^{+\infty} (t+2\theta) \cdot e^{-t} \dif t\\ &=\frac{1}{2}\Gamma(2)+\theta\Gamma(1)\\ &=\frac{1}{2}+\theta \end{align}\\ 令 EX=\overline{X},得到 \hat{\theta} = \overline{X}-\frac{1}{2} $$$$ \begin{align} L(\theta)&=\prod_{i=1}^n f(x_i;\theta)\\ &=\prod_{i=1}^n 2 e^{-2(x_i-\theta)} & x_i>\theta\\ &= 2^n e^{-2(x_1+x_2+\cdots+x_n)+2n\theta} \end{align}\\ \ln L(\theta) = n \ln2 -2(x_1+x_2+\cdots+x_n)+2n\theta\\ \frac{\dif}{\dif \theta} \ln L(\theta) = 2n >0 \; 说明L(\theta)是单调增函数\\ \theta 取最大值时,似然函数 L(\theta) 取最大值\\ \therefore \hat{\theta} = \min\{ x_1,x_2,\cdots,x_n\} $$
Caution
注:$\Gamma(z)$ 函数:$\Gamma(z)=\int_0^{+\infty} t^{z-1} e^{-t} \dif t$,并且满足:
① $\Gamma(z)=z\Gamma(z-1)$
② $\Gamma(z)=(z-1)!$
③ $\Gamma(\frac{1}{2})=\sqrt{\pi}$
这个函数十分重要,请务必记住。