相关系数及其几何意义

发布时间:2020-03-17 22:19:14   来源:文档文库   
字号:

相关系数及其几何意义

在实际问题中,我们常常要研究两个变量的相关性.例如:研究某行业的变动对另一行业的影响,某生理指数与某疾病的相关性.更一般的,当我们观测多个变量时,要分析多个变量间的相关性,进而根据某种标准,对这些变量进行筛选.当然,两个变量是最基础的情况,故我们首先对两个变量间的相关性.

相关系数:

为两个向量,它们可能是从两个总体中抽样出来的数据.在数学中,我们希望定量的刻画它们的相关程度.自然地,我们会想到用误差平方和的最小值

( 1 )

来衡量.如果有某个a使得=0,则可以说xy完全相似.否则就以的大小来描述它们的相似程度.为求,我们可对

( 2 )

关于a求导,并令其等于0,

解得,

. ( 3 )

(3)式代入(1)式得:

=,

其中记,

由此还可以得到最小相对误差平方和

.

由于消除了x,y的测量单位带来的影响,所以它比用来衡量x,y的相关程度更为合理,等价的以来作为衡量xy相关的度量,并称x,y的相关系数,越大(从而越小),x,y越相关,越小(从而越大),xy越不相关.

自然的,我们很容易证明相关系数的一个重要性质:

.

相关系数的几何意义

下面我们将研究相关系数的几何意义,同时,我们将引进无关系数的概念.

n维欧氏空间中考虑数据向量x,y,中这两个向量的数积为,于是(1)定义的x,y的相关系数为

,

其中H为中心化矩阵,HxHy的夹角.我们用,分别记HxHy的单位向量,则有

.

即可得=,

则相关系数的值是由上的正交投影所决定的,也就是说由向量的夹角所决定的,由于,以及夹角决定为边所张成的平行四边形的面积,故也可以用这个平行四边形的面积来衡量x,y的相关程度.

为求平行四边形的面积的值,利用施密特正交化,首先求出由张成的2维子空间的法正交基,

由初等几何知识可知,平行四边形面积的值等于的投影与投影之积,

S=

=,:

可见上文中的的几何意义就是单位向量张成的平行四边形的面积之平方.

根据,可等价的用S值来描述x,y的相关程度,为此我们Sx,y的无关系数,S值越大,x,y越无关,S值越小,x,y越相关.,显然有

.

由于

S==,

x,y无关系数之平方和的几何意义是:Hx,Hy为边所张成的平行四边形之平方与以为边张成的矩形面积之平方的比值.特别的,HxHy正交时, =1,=0,HxHy共线,HxHy线性相关.

本文来源:https://www.2haoxitong.net/k/doc/2cdab8ee5ef7ba0d4a733b4f.html

《相关系数及其几何意义.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式