相关系数及其几何意义
在实际问题中,我们常常要研究两个变量的相关性.例如:研究某行业的变动对另一行业的影响,某生理指数与某疾病的相关性.更一般的,当我们观测多个变量时,要分析多个变量间的相关性,进而根据某种标准,对这些变量进行筛选.当然,两个变量是最基础的情况,故我们首先对两个变量间的相关性.
相关系数:
设为两个向量,它们可能是从两个总体中抽样出来的数据.在数学中,我们希望定量的刻画它们的相关程度.自然地,我们会想到用误差平方和的最小值
( 1 )
来衡量.如果有某个a和使得=0,则可以说x与y完全相似.否则就以的大小来描述它们的相似程度.为求值,我们可对
( 2 )
关于a和求导,并令其等于0,即
解得,
. ( 3 )
将(3)式代入(1)式得:
=,
其中记,
由此还可以得到最小相对误差平方和
.
由于消除了x,y的测量单位带来的影响,所以它比用来衡量x,y的相关程度更为合理,等价的以来作为衡量x与y相关的度量,并称为x,y的相关系数,当越大(从而越小),则x,y越相关,当越小(从而越大),则x与y越不相关.
自然的,我们很容易证明相关系数的一个重要性质:
.
相关系数的几何意义
下面我们将研究相关系数的几何意义,同时,我们将引进无关系数的概念.
在n维欧氏空间中考虑数据向量x,y,在中这两个向量的数积为,于是(1)定义的x,y的相关系数为
,
其中H为中心化矩阵,为Hx和Hy的夹角.我们用,分别记Hx和Hy的单位向量,则有
.
即可得=,
则相关系数的值是由在上的正交投影所决定的,也就是说由向量和的夹角所决定的,由于,以及夹角决定为边所张成的平行四边形的面积,故也可以用这个平行四边形的面积来衡量x,y的相关程度.
为求平行四边形的面积的值,利用施密特正交化,首先求出由张成的2维子空间的法正交基,取
由初等几何知识可知,平行四边形面积的值等于到的投影与到投影之积,即
S=
由=,知:
可见上文中的的几何意义就是单位向量张成的平行四边形的面积之平方.
根据,可等价的用S值来描述x,y的相关程度,为此我们称S为x,y的无关系数,S值越大,x,y越无关,S值越小,x,y越相关.由,显然有
.
由于
S==,
故x,y无关系数之平方和的几何意义是:由Hx,Hy为边所张成的平行四边形之平方与以为边张成的矩形面积之平方的比值.特别的,当Hx与Hy正交时, =1,当=0时,Hx与Hy共线,即Hx与Hy线性相关.
本文来源:https://www.2haoxitong.net/k/doc/2cdab8ee5ef7ba0d4a733b4f.html
文档为doc格式