协方差与相关系数

\[\begin{align*} \newcommand{\dif}{\mathop{}\!\mathrm{d}} \newcommand{\p}{\partial} \newcommand{\Cov}{\text{Cov}} \end{align*}\]

协方差

方差的性质中有一条:$D(X+Y)=D(X)+D(Y)+2\cdot \text{tail}$,其中,$\text{tail}=E{[X-E(X)][Y-E(Y)]}$,若 $X,Y$ 独立,则有 $D(X+Y)=D(X)+D(Y)$

我们将 $E{[X-E(X)][Y-E(Y)]}$ 称为 $X$ 与 $Y$ 的 协方差,记为 $\Cov (X,Y)$,协方差反映了 $X,Y$ 的线性相关性:

  • $\Cov(X,Y)>0$,$X,Y$ 正相关
  • $\Cov(X,Y)<0$,$X,Y$ 负相关
  • $\Cov(X,Y)=0$,$X,Y$ 独立

协方差的计算方法:

\[\begin{align} &E\{[X-E(X)][Y-E(Y)]\}\\ =& E\{ XY-XE(Y)-YE(X)+E(X)E(Y) \}\\ =&E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)\\ =& E(XY)-E(X)E(Y)\\ \therefore &\Cov(X,Y)=E(XY)-E(X)E(Y) \end{align}\\\]

如果 $X,Y$ 独立,则 $E(XY)=E(X)E(Y)$,可以得到 $\Cov(X,Y)=0$

协方差的性质

性质1 $\Cov(X,Y)=\Cov(Y,X)$

性质2 $\Cov(X,X)=D(X)$

性质3 $\Cov(aX,bY)=ab\cdot\Cov(X,Y)$

性质4 $\Cov(X_1+X_2,Y)=\Cov(X_1,Y)+\Cov(X_2,Y)$

根据协方差的性质,我们可以得到方差的性质:

\[D(aX+bY)=\Cov(aX+bY,aX+bY)\\ =a^2 D(X)+2ab\Cov(X,Y)+b^2 D(Y)\]

相关系数

为了消除协方差有量纲的数字特征,引入 相关系数

\[\rho_{XY}=\frac{\Cov(X,Y)}{\sqrt{D(X)D(Y)}}\]

若记标准化变量 $X^*=\frac{X-E(X)}{\sqrt{D(X)}}$,$Y^*=\frac{Y-E(Y)}{\sqrt{D(Y)}}$,则相关系数 $\rho=\Cov(X^*, Y^*)$

相关系数用于表征两个变量之间的线性关系密切程度。$\vert \rho_{XY} \vert$ 越大,则 $X,Y$ 相关性越大,若 $\vert \rho_{XY} \vert=0$ 则两个变量不相关。

相关系数的性质:

性质1 $\vert \rho_{XY} \vert \leq 1$

性质2 $\vert \rho_{XY} \vert = 1$ $\Leftrightarrow$ 存在常数 $a,b$,使 $P(Y=a+bX)=1$ (线性相关)

特别地,$\rho_{XY}=1$ 时,$X,Y$ 正相关,$b>0$;$\rho_{XY}=-1$ 时,$X,Y$ 负相关,$b<0$

上面两条性质也可以写成:当 $D(X)D(Y) \neq 0$ 时,有 $[\Cov(X,Y)]^2\leq D(X)D(Y)$,当且仅当 $X,Y$ 有线性关系时取等号。

性质3 $\rho_{X,Y}=0$ $\Leftrightarrow \Cov(X,Y)=0$ $\Leftrightarrow E(XY)=E(X)E(Y)$

性质4 $\Cov(aX,bY)=ab\cdot\Cov(X,Y)$

性质5 $\Cov(X_1+X_2,Y)=\Cov(X_1,Y)+\Cov(X_2,Y)$

例题:抛一枚硬币十次,令 $X,Y$ 分别为正面和反面出现的次数,求相关系数 $\rho_{XY}$

解:由题意,$Y=10-X$,那么有:
$$ \rho_{XY}=\frac{\Cov(X,Y)}{\sqrt{D(X)D(Y)}}=\frac{\Cov(X,10-X)}{\sqrt{D(X)D(10-X)}}\\ \begin{cases} \Cov(X,10-X)=\Cov(X,10)+\Cov(X,-X)\\=E(X\cdot 10)-E(X)\cdot 10-D(X)=D(X)\\ D(10-X)=D(X) \end{cases}\\ \therefore \rho_{XY}=\frac{-D(X)}{\sqrt{D(X)D(X)}}=-1 $$

不相关与独立

$X,Y$ 不相关,则:

\[\rho_{XY}=\frac{\Cov(X,Y)}{\sqrt{D(X)D(Y)}}=0\]

等价条件为:

  1. $\Cov(X,Y)=0$
  2. $E(XY)=E(X)E(Y)$

性质 $X,Y$ 相互独立,则 $X,Y$ 不相关,反过来不成立。

证明:当 $X,Y$ 独立时,有 $E(XY)=E(X)E(Y)$,所以 $X,Y$ 不相关。但是不相关并不能推出独立。比如下面这个例子:

用通俗的语言解释就是:当我们说 $X,Y$ 不相关时,我们只是说 $X,Y$ 不存在“线性关系”,但时可能存在其他关系,所以不能得出独立的结论。而 $X,Y$ 独立,指的是 $X,Y$ 不存在任何关系,包括线性关系,所以可以得到不相关。

特殊地,如果 $(X,Y)$ 服从二元正态分布 $N(\mu_1,\mu_2,;\sigma_1^2,\sigma_2^2;\rho)$,根据其联合密度函数,其协方差为:

\[\Cov(X,Y)=E\{ (X-\mu_1)(Y-\mu_2) \}=\rho\sigma_1\sigma_2\\ \therefore \rho_{XY}=\rho\]

而 $X,Y$ 相互独立的充要条件是 $\rho=0$,所以对于二元正态变量 $(X,Y)$,独立等价于不相关,即 $X,Y$独立 $\Leftrightarrow$ $X,Y$不相关 $\Leftrightarrow$ $\rho=0$

总结如下:

  • 不相关:$\rho_{XY}=0$ $\Leftrightarrow \Cov(X,Y)=0$ $\Leftrightarrow E(XY)=E(X)E(Y)$
  • 独立:$P(AB)=P(A)P(B)$