矩估计与极大似然估计

\[\begin{align*} \newcommand{\dif}{\mathop{}\!\mathrm{d}} \newcommand{\p}{\partial} \newcommand{\Cov}{\text{Cov}} \end{align*}\]

参数: 反映总体某方面特征的量; 估计方法：点估计/区间估计（比如天气预报：20℃/20~25℃）
点估计: 构造合适的统计量 $\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)$，用来估计为止参数 $\theta$，则 $\hat{\theta}$ 称为参数 $\theta$ 的 点估计量。; 对于特定样本，$\hat{\theta}(x_1,\cdots,x_n)$ 称为参数 $\theta$ 的 点估计值; 点估计方法：矩估计、极大似然估计法

上面的定义说得文绉绉的，简单来说，就是我们已经知道总体服从某个分布，比如正态分布 $N(\mu,\sigma^2)$，但是参数 $\mu,\sigma$ 未知，那么我们就需要从总体中抽取样本，利用样本估计参数，估计出一个值就是点估计，估计出一个范围就是区间估计。

下面介绍点估计的两种方法。

矩估计

前面介绍过原点矩和中心矩。矩估计法就是以样本矩估计总体矩。其理论依据是辛钦大数定律和依概率收敛的性质：

\[假设 \mu_j=E(X^j) 存在，j=1,\cdots,k\\ \hat{\mu}_j=A_j=\frac{1}{n}\sum_{i=1}^n X_i^j \xrightarrow P \mu_j\\ 说明样本容量较大时与总体差距很小\]

假如要估计 $k$ 个未知参数 $\theta_1,\cdots,\theta_k$，已知 $X_1,\cdots,X_n$ 个样本，假设总体的前 $k$ 阶矩存在，则矩估计的步骤如下：

建立未知参数 $(\theta_1,\cdots,\theta_k)$ 与前 $k$ 阶矩 $(\mu_1,\cdots,\mu_k)$ 的联系：
\[\mu_i=h_i(\theta_1,\cdots,\theta_k),i=1,\cdots,k\]
一般求 $EX$ 或 $EX^2$
求反函数：
\[\theta_i=g_i(\mu_1,\cdots,\mu_k),i=1,\cdots,k\]
用样本矩 $A-1,\cdots,A_k$ 代替总体矩，得到各参数的矩估计：
\[\hat{\theta}_i=g_i(A_1,\cdots,A_k),i=1,\cdots,k\]
可以选择原点矩，也可以选择中心距

例题：$X\sim E(\lambda)$，取样本 $(X_1,X_2,\cdots,X_n)$，求 $\lambda$ 的矩估计量

解：$EX=\dfrac{1}{\lambda}$，令 $EX=\overline{X}$，则 $\hat{\lambda}=\dfrac{1}{\overline{X}}$

极大似然估计

设离散型总体 $X \sim p(x;\theta)$，$\theta$ 未知，样本 $X_1,\cdots,X_n$ 的观测值为 $x_1,\cdots,x_n$，则事件 ${X=x_1,\cdots,X_n=x_n}$ 发生的概率为：

\[L(\theta)=\prod_{i=1}^n p(x_i;\theta)\]

$L(\theta)$ 称为 似然函数。极大似然估计就是找到 $\hat{\theta}(x_1,\cdots,x_n)$，使得 $L(\theta)$ 取最大值：

\[L(\hat{\theta})=\max_{\theta} L(\theta)\]

$\hat{\theta}(x_1,\cdots,x_n)$ 称为 $\theta$ 的 极大似然估计值，相应统计量 $\hat{\theta}(X_1,\cdots,X_n)$ 称为 $\theta$ 的 极大似然估计量（MLE）

对于连续型，我们考察样本在观察值邻域发生的概率：

\[L(\theta)=\prod_{i=1}^n f(x_i;\theta)\Delta x\rightarrow L(\theta)=\prod_{i=1}^n f(x_i;\theta)\\ L(\hat{\theta})=\max_{\theta} L(\theta)\]

补充说明：

未知参数可能不是一个，设 $\theta=(\theta_1,\cdots,\theta_k)$
求 $L(\theta)$ 的最大值，可以转化为求 $\ln L(\theta)$ 的最大值，称为 对数似然函数，然后利用求导求得极值，即：
\[\frac{\p \ln L(\theta)}{\p \theta_i}\Bigg\vert_{\theta=\hat{\theta}}=0\]
一般认为等于0就是极大值（不过考试时还是要写“经检验”）
如果 $L(\theta)$ 是单调函数，则 $\theta_i$ 的似然估计就取最大值
若求出 $\theta$ 的极大似然估计 $\hat{\theta}$，那么$g(\theta)$ 的极大似然估计就是 $g(\hat{\theta})$

例题：设 $X$ 服从均匀分布 $U(a,b)$，样本 $X_1,\cdots,X_n$。求 $a,b$ 和 $E(X)$ 的极大似然估计

解：似然函数
$$ L(a,b)= \begin{cases} \dfrac{1}{(b-a)^n} & a\leq x_i \leq b\\ 0 & 其他 \end{cases}\\ 关于 a 单调增，关于 b 单调减\\ \therefore \hat{a}= \max\{X_1,\cdots,X_n\}\\ \quad\hat{b}=\min\{X_1,\cdots,X_n\}\\ \because E(X)=\frac{a+b}{2}\\ \therefore \hat{E}(X)=\frac{\hat{a}+\hat{b}}{2} $$

例题：已知离散型随机变量 $X$ 的分布律为：$P(0)=\theta$，$P(1)=\theta$，$P(2)=1-2\theta$，抽取样本值为：$(0,1,2,2,1,0,1,1)$，求 $\theta$ 的矩估计和极大似然估计。

解：①矩估计：
$$ EX=0\times\theta+1\times\theta+2(1-2\theta)=2-3\theta\\ \overline{x}=1/8(0+1+2+2+1+0+1+1)=1\\ 令 EX=\overline{x}，则 1=2-3\theta，得到 \hat{\theta}=\frac{1}{3} $$
②极大似然估计：
$$ L(\theta)=\prod_{i=1}^8 P(x_i)=\theta^6(1-2\theta)^2\\ \ln L(\theta)=6\ln\theta+2\ln(1-2\theta)\\ \frac{\dif}{\dif \theta} \ln L(\theta) = \frac{6}{\theta}+\frac{2}{1-2\theta}=0\\ \Rightarrow \hat{\theta} = \frac{3}{8} $$

例题：$X\sim f(x;\theta)=\begin{cases} 2 e^{-2(x-\theta)} & x>\theta \\ 0 & x \leq \theta \end{cases}$，求 $\theta$ 的矩估计和极大似然估计

解：矩估计
$$ \begin{align} EX&=\int_0^{+\infty} x \cdot 2e^{-2(x-\theta)} \dif x\\ &=\frac{1}{2} \int_0^{+\infty} [2(x-\theta)+2\theta] \cdot e^{-2(x-\theta)} \dif [2(x-\theta)]\\ &=\frac{1}{2} \int_0^{+\infty} (t+2\theta) \cdot e^{-t} \dif t\\ &=\frac{1}{2}\Gamma(2)+\theta\Gamma(1)\\ &=\frac{1}{2}+\theta \end{align}\\ 令 EX=\overline{X}，得到 \hat{\theta} = \overline{X}-\frac{1}{2} $$
②极大似然估计
$$ \begin{align} L(\theta)&=\prod_{i=1}^n f(x_i;\theta)\\ &=\prod_{i=1}^n 2 e^{-2(x_i-\theta)} & x_i>\theta\\ &= 2^n e^{-2(x_1+x_2+\cdots+x_n)+2n\theta} \end{align}\\ \ln L(\theta) = n \ln2 -2(x_1+x_2+\cdots+x_n)+2n\theta\\ \frac{\dif}{\dif \theta} \ln L(\theta) = 2n >0 \; 说明L(\theta)是单调增函数\\ \theta 取最大值时，似然函数 L(\theta) 取最大值\\ \therefore \hat{\theta} = \min\{ x_1,x_2,\cdots,x_n\} $$

注：$\Gamma(z)$ 函数：$\Gamma(z)=\int_0^{+\infty} t^{z-1} e^{-t} \dif t$，并且满足：
① $\Gamma(z)=z\Gamma(z-1)$
② $\Gamma(z)=(z-1)!$
③ $\Gamma(\frac{1}{2})=\sqrt{\pi}$
这个函数十分重要，请务必记住。

上篇统计量的分布

下篇估计的评价标准