协方差与相关系数
协方差
方差的性质中有一条:$D(X+Y)=D(X)+D(Y)+2\cdot \text{tail}$,其中,$\text{tail}=E\{[X-E(X)][Y-E(Y)]\}$,若 $X,Y$ 独立,则有 $D(X+Y)=D(X)+D(Y)$
我们将 $E\{[X-E(X)][Y-E(Y)]\}$ 称为 $X$ 与 $Y$ 的 协方差,记为 ${\rm Cov} (X,Y)$,协方差反映了 $X,Y$ 的线性相关性:
- ${\rm Cov}(X,Y)>0$,$X,Y$ 正相关
- ${\rm Cov}(X,Y)<0$,$X,Y$ 负相关
- ${\rm Cov}(X,Y)=0$,$X,Y$ 独立
协方差的计算方法:
$$ \begin{align} &E\{[X-E(X)][Y-E(Y)]\}\\ =& E\{ XY-XE(Y)-YE(X)+E(X)E(Y) \}\\ =&E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)\\ =& E(XY)-E(X)E(Y)\\ \therefore &{\rm Cov}(X,Y)=E(XY)-E(X)E(Y) \end{align}\\ $$如果 $X,Y$ 独立,则 $E(XY)=E(X)E(Y)$,可以得到 ${\rm Cov}(X,Y)=0$
协方差的性质
🌟性质①: ${\rm Cov}(X,Y)={\rm Cov}(Y,X)$
🌟性质②: ${\rm Cov}(X,X)=D(X)$
🌟性质③: ${\rm Cov}(aX,bY)=ab\cdot{\rm Cov}(X,Y)$
🌟性质④: ${\rm Cov}(X_1+X_2,Y)={\rm Cov}(X_1,Y)+{\rm Cov}(X_2,Y)$
根据协方差的性质,我们可以得到方差的性质:
$$ D(aX+bY)={\rm Cov}(aX+bY,aX+bY)\\ =a^2 D(X)+2ab{\rm Cov}(X,Y)+b^2 D(Y) $$相关系数
为了消除协方差有量纲的数字特征,引入 相关系数:
$$ \rho_{XY}=\frac{{\rm Cov}(X,Y)}{\sqrt{D(X)D(Y)}} $$若记标准化变量 $X^*=\frac{X-E(X)}{\sqrt{D(X)}}$,$Y^\*=\frac{Y-E(Y)}{\sqrt{D(Y)}}$,则相关系数 $\rho={\rm Cov}(X^\*, Y^\*)$
相关系数用于表征两个变量之间的线性关系密切程度。$\vert \rho_{XY} \vert$ 越大,则 $X,Y$ 相关性越大,若 $\vert \rho_{XY} \vert=0$ 则两个变量不相关。
相关系数的性质:
🌟性质①: $\vert \rho_{XY} \vert \leq 1$
🌟性质②: $\vert \rho_{XY} \vert = 1$ $\Leftrightarrow$ 存在常数 $a,b$,使 $P(Y=a+bX)=1$ (线性相关)
特别地,$\rho_{XY}=1$ 时,$X,Y$ 正相关,$b>0$;$\rho_{XY}=-1$ 时,$X,Y$ 负相关,$b<0$
上面两条性质也可以写成:当 $D(X)D(Y) \neq 0$ 时,有 $[{\rm Cov}(X,Y)]^2\leq D(X)D(Y)$,当且仅当 $X,Y$ 有线性关系时取等号。
🌟性质③: $\rho_{X,Y}=0$ $\Leftrightarrow {\rm Cov}(X,Y)=0$ $\Leftrightarrow E(XY)=E(X)E(Y)$
🌟性质④: ${\rm Cov}(aX,bY)=ab\cdot{\rm Cov}(X,Y)$
🌟性质⑤: ${\rm Cov}(X_1+X_2,Y)={\rm Cov}(X_1,Y)+{\rm Cov}(X_2,Y)$
Tip
例题:抛一枚硬币十次,令 $X,Y$ 分别为正面和反面出现的次数,求相关系数 $\rho_{XY}$
[!NOTE]
解:由题意,$Y=10-X$,那么有:
不相关与独立
$X,Y$ 不相关,则:
$$ \rho_{XY}=\frac{{\rm Cov}(X,Y)}{\sqrt{D(X)D(Y)}}=0 $$等价条件为:
- ${\rm Cov}(X,Y)=0$
- $E(XY)=E(X)E(Y)$
🌟性质: $X,Y$ 相互独立,则 $X,Y$ 不相关,反过来不成立。
证明:当 $X,Y$ 独立时,有 $E(XY)=E(X)E(Y)$,所以 $X,Y$ 不相关。但是不相关并不能推出独立。比如下面这个例子:
用通俗的语言解释就是:当我们说 $X,Y$ 不相关时,我们只是说 $X,Y$ 不存在“线性关系”,但时可能存在其他关系,所以不能得出独立的结论。而 $X,Y$ 独立,指的是 $X,Y$ 不存在任何关系,包括线性关系,所以可以得到不相关。
特殊地,如果 $(X,Y)$ 服从二元正态分布 $N(\mu_1,\mu_2,;\sigma_1^2,\sigma_2^2;\rho)$,根据其联合密度函数,其协方差为:
$$ {\rm Cov}(X,Y)=E\{ (X-\mu_1)(Y-\mu_2) \}=\rho\sigma_1\sigma_2\\ \therefore \rho_{XY}=\rho $$而 $X,Y$ 相互独立的充要条件是 $\rho=0$,所以对于二元正态变量 $(X,Y)$,独立等价于不相关,即 $X,Y$独立 $\Leftrightarrow$ $X,Y$不相关 $\Leftrightarrow$ $\rho=0$
总结如下:
- 不相关:$\rho_{XY}=0$ $\Leftrightarrow {\rm Cov}(X,Y)=0$ $\Leftrightarrow E(XY)=E(X)E(Y)$
- 独立:$P(AB)=P(A)P(B)$