期望与方差

\[\begin{align*} \newcommand{\dif}{\mathop{}\!\mathrm{d}} \newcommand{\p}{\partial} \end{align*}\]

第四章开始介绍随机变量的数字特征，从随机中找规律

数学期望

数学期望 又称均值。对于离散型变量，数学期望定义如下：

一维离散型

离散型数学期望: 设离散型随机变量 $X$ 的概率分布列为 $P(X=x_i)=p_i$，$i=1,2,\cdots$，若 $\sum_{i=1}^\infty \vert x_i \vert p_i$ 绝对收敛，则称数学期望存在并等于：

\[E[X]=\sum_{i=1}^\infty x_i p_i\\ 有时候也写作 E(X)、EX\]

这里我们对绝对收敛作一个解释，对于有限取值的随机变量，数学期望是必然存在的；但对于无穷多项的随机变量，如果不绝对收敛，则交换求和顺序可能会得到不同值，显然不符合数学期望的预期。

二项分布

\[X\sim \mathrm{B}(n,p)\\ \begin{align} E[X]&=\sum_{k=0}^n k\cdot C_n^k p^k (1-p)^{n-k}\\ &=\sum_{k=1}^n k\frac{n!}{k!(n-k)!} p^k (1-p)^{n-k}\\ &=np\sum_{k=1}^n \frac{(n-1)!}{(k-1)!(n-1-(k-1))!} p^{k-1} (1-p)^{n-1-(k-1))}\\ &=np(p+(1-p))^{n-1}\\ &=np \end{align}\]

特殊地，

泊松分布

\[X\sim \mathrm{Pois}(\lambda)\\ \begin{aligned} E[X]&=\sum_{k=0}^{+\infty} k\cdot \frac{\lambda^k e^{-\lambda}}{k!}\\ &=\lambda\sum_{k=0}^{+\infty} \frac{\lambda^{k-1}e^{-\lambda}}{(k-1)!}\\ &=\lambda \end{aligned}\]

几何分布

\[X\sim G(p) \\ \begin{aligned} E[X]&= \sum_{k=0}^{+\infty} k p (1-p)^{k-1}\\ &=p\sum_{k=0}^{+\infty} \left[(1-p)^{k}\right]'\\ &=p \left[\sum_{k=0}^{+\infty }q^{k}\right]'（令q=1-p）\\ &=p \left[ \lim_{n\rightarrow \infty} \frac{q(1-q^n)}{1-q} \right]'\\ &=p \left[ \frac{q}{1-q} \right]'\\ &=p \frac{(1-q)+q}{(1-q)^2}\\ &=\frac{1}{p} \end{aligned}\]

一维连续型

连续型数学期望: 如果 $\int_{-\infty}^{\infty} \vert x \vert f_X(x) \dif x$ 收敛，则称 $E[X]=\int_{-\infty}^\infty x f_X(x) \dif x$ 为 $X$ 的数学期望。

均匀分布

\[X\sim \mathrm{U}(a,b)\\ \begin{align} E[X]&=\int_a^b x\cdot \frac{1}{b-a} \dif x\\ &=\frac{a+b}{2} \end{align}\]

正态分布

\[X\sim \mathrm{N}(0,1)\\ 因为 \varphi(x)=\frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} 是偶函数，\\ 所以 E[X]=\int_{-\infty}^{+\infty} x\varphi(x) \dif x=0\] \[X\sim \mathrm{N}(\mu,\sigma^2)\\ E[X]=\mu\]

（一般正态分布的期望可以由期望的线性性推导）

指数分布

\[X\sim\mathrm{Exp}(\lambda)，即 f_X(x)= \begin{cases} \lambda e^{-\lambda x}, & x\in (0,+\infty)\\ 0, &其他 \end{cases}\\ \begin{align} E[X]&=\int_{-\infty}^{+\infty} xf_X(x) \dif x\\ &= \int_0^{+\infty} x\cdot e^{-\lambda x} \dif (\lambda x)\\ &=-\int_0^{+\infty} x \dif (e^{-\lambda x})\\ &=\left. -xe^{-\lambda x} \right|_0^{+\infty}+\int_0^{+\infty} e^{-\lambda x} \dif x \end{align}\]

还有另一种求法：

\[\begin{align} E[X]&=\int_0^{+\infty}x\cdot \lambda e^{-\lambda x}\dif x\\ &=\frac{1}{\lambda}\int_0^{+\infty}\lambda x e^{-\lambda x}\dif (\lambda x)\\ &=\frac{1}{\lambda}\int_0^{+\infty}y e^{-y}\dif y\\ &=\frac{1}{\lambda} \Gamma(2)\\ &=\frac{1}{\lambda} \end{align}\\ 其中，\Gamma(x)=\int_0^{+\infty} y^{x-1} e^{-y} \dif y\]

补充：Gamma函数深入理解，$\Gamma(x)$ 函数是必须要掌握的函数。

二维连续型

二维连续型数学期望: $E[X,Y]=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy f(x,y)\dif x\dif y$

函数的期望

定理1（离散）

设 $Y=g(X)$，$X$ 的分布律为 $P(X=x_k)=p_k$，若 $\sum_{k=1}^\infty \vert g(x_k) \vert p_k$ 收敛，则：

\[E(Y)=E[g(X)]=\sum_{k=1}^\infty g(x_k) p_k\]

定理1（连续）

设 $Y=g(X)$，$X$ 的概率密度为 $f(x)$，若 $\int_{-\infty}^{+\infty} \vert g(x) \vert f(x) \dif x$ 收敛，则：

\[E(Y)=E(g(X))=\int_{-\infty}^{+\infty} g(x)f(x) \dif x\]

上两条式说明，我们不需要求 $g(X)$ 的分布，只需要知道 $X$ 的分布即可。

定理2（离散）

设 $Z=h(X,Y)$，$(X,Y)$ 的分布律为 $P(X=x_i, Y=y_j)=p_{ij}$，则：

\[E(Z)=E[h(X,Y)]=\sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty} h(x_i,y_j)p_{ij}\]

定理2（连续）

设 $Z=h(X,Y)$，$(X,Y)$ 的概率密度为 $f(x,y)$，则：

\[E(Z)=E(h(X,Y))=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}h(x,y)f(x,y)\dif x\dif y\]

特别地，$E(X)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} xf(x,y)\dif x \dif y$

数学期望的性质

性质1 常数的期望 $E(c)=c$

性质2 线性性：$E(aX+bY+c)=aE(X)+bE(Y)+c$

性质3 若 $X,Y$ 相互独立，则 $E(XY)=E(X)E(Y)$（反之不成立）

（可以用函数的期望来证明）

例题：设 $X\sim\text{B}(n,p)$，$0< p<1,n\geq1$ 求 $E(X)$

解：我们可以将 $X$ 看作 n重伯努利试验中事件 A 发生的次数，并且每次试验 $P(A)=p$。引入随机变量：
$$ X_k= \begin{cases} 1 & A发生\\ 0 & A不发生 \end{cases} $$
下标 k 表示第 k 次试验。于是 $X_1,X_2,\cdot,X_n$ 相互独立，服从 (0,1) 分布，且 $X=\sum_{k=1}^n X_k$
故 $E(X)=E(\sum_{k=1}^n X_k)=$$\sum_{k=1}^nE(X_k)=np$
（该例题说明二项分布可以分解为 相互独立 的 (0,1) 分布）

方差

方差: 设 $X$ 有有限的数学期望，如果 $E[(X-E[X])^2]<\infty$，则称 $\mathrm{Var}[X]=E[(X-E[X])^2]$ 为 $X$ 的方差，记为 $D(X)$；$\sqrt{\mathrm{Var}[X]}$ 为 $X$ 的标准差，记为 $\sigma[X]$

方差表示随机变量离均值的平均波动。方差越小，说明随机变量比较集中，反之则越分散。方差的定义依赖于数学期望，所以我们可以由数学期望的性质得到方差的性质。

由函数的期望，我们可以得到：

离散型：$D(X)=\sum_{i=1}^{\infty} [x_i-E(X)]^2p_i$
连续型：$D(X)=\int_{-\infty}^{+\infty} [x-E(X)]^2 f(x) \dif x$

由期望的线性性，我们可以得到方差的计算公式：

\[\begin{align} D(X)&=E \left\{ [X-E(X)]^2 \right\}\\ &=E \left\{ X^2-2XE(X)+[E(X)]^2 \right\}\\ &=E(X^2)-2E(X)E(X)+[E(X)]^2\\ &=E(X^2)-[E(X)]^2 \end{align}\]

上面的公式十分重要！一定要牢记。

离散型

0-1分布

\[E(X)=p\\ E(X^2)=0^2 \cdot(1-p)+1^2 \cdot p=p\\ D(X)=E(X^2)-[E(X)]^2=p(1-p)\]

二项分布

\[X\sim \text{B}(n,p)\\ E(X)=np\\ D(X)=\sum_{k=1}^n D(X_i)=np(1-p)\]

（方差的性质，后面会讲到。）

连续型

泊松分布

\[X\sim \pi(\lambda)\\ P(X=k)=\frac{\lambda^k e^{-k}}{k!}\\ E(X)=\lambda\\ \begin{align} E(X^2)&=E[X(X-1)+X]=E[X(X-1)]-E(X)\\ &=\sum_{k=0}^{+\infty} k(k-1)\frac{\lambda^k e^{-\lambda}}{k!}+\lambda= \lambda^2\sum_{k=2}^{+\infty} \frac{\lambda^{k-2} e^{-\lambda}}{(k-2)!}+\lambda\\ &=\lambda^2 \sum_{i=0}^{+\infty} \frac{\lambda^i}{i!} e^{-\lambda}+\lambda=\lambda^2+\lambda \end{align}\\ D(X)=E(X^2)-[E(X)]^2=\lambda\]

均匀分布

\[X\sim \mathrm{U}(a,b)\\ f(X)= \begin{cases} \frac{1}{b-a} & a<x<b\\ 0 & 其他 \end{cases}\\ E(X)=\frac{a+b}{2}\\ E(X^2)\int_{-\infty}^{+\infty} x^2 f(x)=\int_a^b x^2 \frac{1}{b-a} \dif x=\frac{a^2+b^2+ab}{3}\\ D(X)=E(X^2)-[E(X)]^2=\frac{(b-a)^2}{12}\]

正态分布

\[X\sim \text{N}(\mu,\sigma^2)\\ 令 Z=\frac{X-\mu}{\sigma}，E(Z)=0\\ D(Z)=E(Z^2)-0=\int_{-\infty}^{+\infty} t^2 \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \dif t\\ =-\frac{1}{\sqrt{2\pi}} t e^{-\frac{t^2}{2}} \Big|_{-\infty}^{+\infty}+\int_{-\infty}^{+\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \dif t =1\\W D(X)=D(\mu+\sigma Z)=\sigma^2 D(Z)=\sigma^2\]

对于 n 个独立的正态分布的线性分布，由期望的线性性，有：$\mu=c_0+c_1\mu_1+\cdots+c_n\mu_n$；由方差的性质：$\sigma=c_1^2\sigma^2+\cdots+c_n^2\sigma_n^2$，也就是说：

\[c_0+c_1X_1+\cdots c_nX_n\\ \sim \text{N}(c_0+c_1\mu_1+\cdots+c_n\mu_n, \\c_1^2\sigma^2+\cdots+c_n^2\sigma_n^2)\]

指数分布

\[X\sim \mathrm{E}(a,b)\\ f(x)= \begin{cases} \lambda e^{-\lambda x} & x>0\\ 0 & x\leq0 \end{cases}\\ E(X)=1/\lambda\\ E(X^2)=\int_0^{+\infty} x^2 \lambda e^{-\lambda x}\dif x\\ =-x^2 e^{-\lambda x} \Big|_0^{+\infty}+\int_0^{+\infty} 2x e^{-\lambda x}\dif x=2/\lambda^2\\ D(X)=E(X^2)-[E(X)]^2=2/\lambda^2-1/\lambda^2=1/\lambda^2\]

方差的性质

性质1 设 c 是常数，则 $D(c)=0$

性质2 $D(cX)=c^2 D(X)$

性质3 $D(X+Y)=D(X)+D(Y)+2\cdot \text{tail}$，其中，$\text{tail}=E{[X-E(X)][Y-E(Y)]}$，若 $X,Y$ 独立，则有 $D(X+Y)=D(X)+D(Y)$

综上，若 $X,Y$ 相互独立，则 $D(aX+bY+c)=a^2 D(X)+b^2D(Y)$；

性质4 若 $D(X)=0$，则 $P(X)=c$，且 $X=E(X)$

（以上定理可以由方差的定义和期望的线性性证明）

常见分布的期望与方差总结

详细的推导见前面部分。

名称	记号	分布/密度函数	期望	方差
二项分布	$X\sim B(n,p)$	$P{X=k}=C_n^k p^k (1-p)^{n-k}$	$np$	$np(1-p)$
泊松分布	$X\sim \pi(\lambda)$	$P{X=k}=\dfrac{\lambda^k}{k!}e^{-\lambda}$ $(\lambda>0)$	$\lambda$	$\lambda$
几何分布	$X\sim G(p)$	$P(X=k)=p(1-p)^{k-1}$	$\frac{1}{p}$	$\frac{1-p}{p^2}$
均匀分布	$X\sim U(a,b)$	$f(x)=\dfrac{1}{b-a},a<x<b$	$\dfrac{a+b}{2}$	$\dfrac{(b-a)^2}{12}$
指数分布	$X\sim E(\lambda)$	$f(x)=\lambda e^{-\lambda x}, x>0$	$\dfrac{1}{\lambda}$	$\dfrac{1}{\lambda^2}$
正态分布	$X\sim N(\mu,\sigma^2)$	$f(x)=\dfrac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{\sigma^2}}$	$\mu$	$\sigma^2$

上篇二元随机变量练习题

下篇协方差与相关系数