第八章直线相关与回归分析

发布时间:2019-08-20   来源:文档文库   
字号:
第十章 一元回归与相关分析

概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营养,湿度等许多因素有关。

相关关系两变量XY均为随机变量,任一变量的每一可能值都有另一变量的一个确定分与之对应。
回归关系X是非随机变量(如施肥)或随机变量(如穗长)Y是随机变量,对X的每一确定值xi都有Y的一个确定分布与之对应。
区别:1.相关中的两个变量地位对称,互为因果;回归中X是自变量,Y是因变量。
两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使y的残差平方和最小(最小二乘法),可得到相同的参数估计式。因此主要讨论X为非随机变量(不包含有随机误差)的情况,所得到的参数估计式也可用于X为随机变量的情况。
2.分析目的不同。回归分析是建立XY之间的数学关系式,用于预测;而相关分析研究XY两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这种共变关系的强弱。
分类:
从两个变量间相关(或回归)的程度分三种:
1完全相关。一个变量的值确定后,另一个变量的值可通过公式求出(函数关系);生物学研究中不太多见。
2不相关变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。 3统计相关(不完全相关)介于上述两情况之间。知道一个变量的值通过某种公式就可以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值,但可或多或少地决定它的分布。科研中最常遇到。
研究一因一果,即一个自变量与一个依变量的回归分析称为一元回归分析 研究多因一果,即多个自变量与一个依变量的回归分析称为多元回归分析
一元回归分析又分为直线回归分析曲线回归分析两种;多元回归分析又分为多元线性回归分析多元非线性回归分析两种。

对两个变量间的直线关系进行相关分析称为直线相关分析 研究一个变量与多个变量间的线性相关称为复相关分析研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析

注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。 2.XY等需研究的因素外,其他的要严格控制一致。(身高与胸围的关系要控
制体重)
3.对子一般在5对以上
4.需限制自变量范围,结果不能随意外延。

第一节 一元线性回归
(一)直线回归方程的建立
对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值: x1y1x2y2……xnyn

为直观看出xy间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图

11.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试计算日龄X与体重Y之间的回归方程。
11.1 大白鼠6-18日龄的体重 1 2 3 4 5 序号
6 9 12 15 18 日龄xi
11 16.5 22 26 29 体重yi
散点图对XY之间的关系有直观的、整体上的印象,但是否有某种规律性,是接近一条直线还是一条曲线等,哪一条直线或曲线可以最好地代表X, Y之间的关系,不能做出判断。
3530252015105013161日龄
11.1 大白鼠日龄—体重关系图
一、 一元正态线性回归统计模型:
对于每个Y的观察值yi来说,由于总是带有随机误差,观察值就应该是在均值的基础上再加上一个随机误差,即:
yixii 11.2
2其中i~NID(0,。随机误差服从正态分布。这是一元正态线性回归的统计模型。
91121

二、 参数α和β的估计
模型中的α和β是参数,一般不知道。由于只能得到有限的观察数据,无法算出准确的α与β的值,只能求出估计值ab,并得到yi的估计值为:
ˆiabxi 11.3 yˆi最小。为了避免使正负ei互相抵消,定义使残差平方和ab应使残差eiyiy(yi1niˆi2达到最小的直线为回归线,即令: y
SSe(yiabxi2,且SSeab的一阶偏导数等于0
i1nSSe0a
SSe0bn(2(yiabxi0i1得: n
(2x(yabx0iiii1整理后,得
nnanbxiyii1i1 n 11.4 nnaxbx2xiyiiii1i1i1解此方程,得:
nn
(xi(yini1xiyii1ni1bnnxi2(xi2/ni1i1aybxn(xi1nix(yiy
i(xi1x2这种方法称为最小二乘法 Sxx(xi1nnix2,称为X的校正平方和;
Syy(yi1niy2,称为Y的总校正平方和;
Sxy(xi1ix(yiy,称为校正交叉乘积和,
则: bSxySxx 11.7
ˆa ya叫样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时, =b叫样本回归系数,表示x 改变一个单位,y平均改变的数量;b 的符号反映了x影响y的性质,b的绝对值大小反映了x 影响y 的程度;

ˆ叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数α+βx的估计值
y回归方程的基本性质:
1
n(yi1iˆi2最小 y2 (yi1niˆi0 y 3.直线通过xy
转化后得到回归方程的另一种形式(中心化形式
ˆybxbxyb(xxy在实际计算时,可采用以下公式:

Sxxxi2i1nn12x.,n12y., n1x.y.nSyyyi2i1nSxyxiyii111.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试计算日龄X与体重Y之间的回归方程。
5.1 大白鼠6-18日龄的体重 1 2 3 4 5 序号
6 9 12 15 18 日龄xi
11 16.5 22 26 29 体重yi 解:把数据代入上述公式,得:
n
n
nxi1i60,xi12i810,yi1i104.5,
yi1n2i2394.25,
xyii1ni1390.5
1Sxx810(6029051Syy2394.25(104.52210.2,
51Sxy1390.560104.5136.5,5bSxySxx136.5/901.5167
aybx104.5/51.5167122.6996即:所求的回归方程为:y = 2.6996 + 1.5167 x 带有统计功能的计算器,只需把数据依次输入,然后按一下键就可得到上述结果。
ˆ 根据直线回归方程可作回归直线,并不是所有的散点都恰好落在回归直线上,说明用
y去估计y是有偏差的。

三、直线回归的偏离度估计
偏差平方和(yi1niˆi2的大小表示了实测点与回归直线偏离的程度,y因而偏差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为:
2(yy/(n2
离回归均方是模型中σ2的估计值。
离回归均方的平方根叫离回归标准误,记为 S yx ,即 Sˆ2/(n2(yyyx
ˆ 与实际观测值y Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值
y偏差的程度,于是把离回归标准误Syx用来表示回归方程的偏离度。
以后将证明
2ˆ2SSySPxy(yy/SS x 利用此式先计算出 ( y y 2 ,然后再求Syx ˆ

四、直线回归的显著性检验
xy变量间即使不存在直线关系,但由n对观测值(xiyi)也可以根据上面的方法求得一个回归方程。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。需要判断直线回归方程的真实性。
先探讨依变量y的变异,然后再作出统计推断。 1 直线回归的变异来源


( y y 的分解图

1 一元回归的方差分析
1 无重复的情况。
y的总校正平方和可进行如下的分解:

ˆy(yyˆ(yy(y
(yi1ni1niˆi(yˆiy]2y[(yiy2i1nnn
ˆi2(yˆiy22(yiyˆi(yˆiy(yiyi1i1ˆi(yˆiy(yiabxi(abxiabx(yiyi1i1nn(yiybxbxi(bxibxi1n
b[(yiy(xixb(xix2]i1i1nnb(SxybSxx0ˆi(yˆiy2 (yiy(yiy22i1i1i1nnn即: SSy = SSe + SSR
y的总校正平方和 残差平方和 回归平方和 自由度: n-1 n-2 1
(yy2反映了y的总变异程度,称为y的总平方和,记为SSy


( y y 2 反映了由于yx间存在直线关系所引起的y的变异程度,称为回归ˆ平方和,记为SSR


( y y2 反映了除yx存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSe
y的总校正平方和分解成了残差平方和与回归平方和。MSe可作为总体方差2的估计量,MSR可作为回归效果好坏的评价。如果MSR仅由随机误差造成的话,说明回归失败,XY没有线性关系;否则它应显著偏大。因此可用统计量
FMSRSSR 11.10 MSeSSe/(n2H0: = 0进行检验。若F < F(1, n-2,则接受H0,否则拒绝。 简化公式: SSRˆy2[b(xx]2(y
b2(xx2b2SSxbSPxy
2SPxySPxy SPxySSxSSx
2 SPxySSeSSySSRSSy SSx
对例11.1作方差分析 解:由以前计算结果:
SSy = 210.2df = 4; SSe = 3.1704, df = 3,

SSR = 210.2 3.1704 = 207.03, df = 1 F207.03195.90
3.1704/3查表得F0.95(1, 3 = 10.13, F0.99(1, 3 = 34.12 F > F0.99(1, 3,拒绝H0,差异极显著。即应认为回归方程有效。

2 有重复的情况:
设在每一个xi取值上对Y作了m次观察,结果记为yi1, yi2, ……yim, 则线性统计模型变为:
yijxiij, i = 1, 2, n, j = 1, 2, m ˆiabxi 估计值仍为:y现在y的总校正平方和可分解为: SSy = SSR + SSLOF + SSpe
其中SSLOF称为失拟平方和,SSpe为纯误差平方和,表达式和自由度分别为:
SSy(yijy..2,i1j1nmdfmn1
ˆiy..2,SSRm(yi1ndf1
ˆi2,SSLOFm(yi.yi1ndfn2
SSpe(yijyi.2,i1j1nmdfmnn可试证明上述分解中的三个交叉项均为0
统计检验步骤为: I. F1MSLOF,它服从F(n-2, mn-n

MSpeF检验差异显著,则可能的原因有:
1)除X以外还有其他变量影响Y的取值,而统计时没有加以考虑; 2)模型不当,即XY之间不是线性关系;
此时无必要再进一步对MSR作检验,而应想办法找出原因,并把它消除后重作回归。
若差异不显著,则把MSLOFMSpe合并,再对MSR作检验: II. F2MSR,它服从F(1, mn-2

SSLOFSSpedfLOFdfpe若差异显著,说明回归是成功的,X, Y间确有线性关系;若差异仍不显著,则回归失败,其可能的原因为:
1XY无线性关系;

2)误差过大,掩盖了X, Y间的线性关系。
如有必要,可设法减小实验误差,或增加重复数重做实验后再重新回归。

二)一元回归的t-检验 由于MSe的自由度为n-2因此上述两方差的自由度也均为n-2有了ab的方差与均值,我们就可构造统计量对它们进行检验: H0 : = 0 HA: 0 (双侧检验)
或: HA: > 0 (或< 0 (单侧检验)
统计量:tbb/SbbSxxMSe

其中,Sb为回归系数标准误。

H0成立时,ta ~ t(n-2,可查相应分位数表进行检验。 对例11.1中的t-检验
H0: =0 2SyybSxySyySxy/SxxSSe解:MSe n2n2n2210.2136.52/901.0583
52tb/Sbb/MSe/Sxx
1.5167/1.0583/901.5167/0.108413.99
查表,t0.995(3 = 5.841 < t 差异极显著,应拒绝H0,即 0,或XY有着极显著的线性关系。
上述统计量还有一个用途:进行两个回归方程间的比较。即检验H0: 1 = 2H0: 1 = 2如果两H0均被接受,则可认为两组数据是抽自同一总体,从而可将两回归方程合并,得到一个更精确的方程。
11.3 两组实验数据如下:
x1 91 93 94 96 98 102 105 108 y1 66 68 69 71 73 78 82 85
x2 80 82 85 87 89 91 95 y2 55 57 60 62 64 67 71 是否可从它们得到统一的回归方程? 解:从原始数据计算可得:
Sxx Syy Sxy MSe b a y x 组别
n 1 8 98.375 74.0 257.875 336.0 294.0 0.1357 1.140 -38.15 2 7 87.0 62.286 162.0 187.429 174.0 0.1080 1.074 -31.15 (1. 首先检验总体方差是否相等:
22H0:122,HA:122

FMSe10.13571.2565 MSe20.1080查表,F0.975(6, 5 = 6.978 > F, 接受H0,可认为两总体方差相等。 计算公共的总体方差:
MSe(n12MSe1(n22MSe2n1n24
60.135750.1080110.1231b1b222Sb1Sb2(2. 检验回归系数12是否相等:H0: 1 = 2 HA: 1 2
tb1b211MSe(Sxx1Sxx21.1401.0740.0661.87660.03517110.1231(257.875162
查表,得t0.975(11 = 2.201 > t, 接受H0,可认为两回归系数相等。 共同总体回归系数的估计值为:
bSxx1b1Sxx2b2Sxy1Sxy22941741.1146
Sxx1Sxx2Sxx1Sxx2257.875162a1a222Sa1Sa2(3. 再检验12是否相等:H0: 1 = 2 HA: 1 2 ta1a22X21X121MSe(n1Sxx1n2Sxx238.1531.151198.37528720.1231(87257.87516272.17023.22556
查表,t0.975(11 = 2.201, t0.975(11t, 接受H0,可认为: 1 = 2
若检验结果为1 2,此题即可结束;但若检验结果为1 = 2,则需把全部原始数据放在一起,重新进行回归:
Sxx = 902.9333, Sxy = 965.4667, Syy = 1035.7333, x= 93.067, y= 68.533,

b =SxySxx= 1.0693,
a =ybx= 30.9787 ˆ30.97871.0693x 从而得到合并的回归方程y
现在证明t检验与前述的F检验是一致的: 前已证明:SSe = Syy b Sxy, SSR = Syy SSe = b Sxy, Sb2MSe SxxbSxyMSRb2F22t2
MSeSbSxxSb
五、点估计与区间估计
前边已经证明ab是α和β的点估计;但作为预测值仅给出点估计是不够的,一般要求给出区间估计,即给出置信区间。 α和β的区间估计
已经证明ab是α和β的点估计,并求出了它们的方差。因此给出置信区间就很容易了:
bMSe/Sxx~t(n2
∴β的95%置信区间为:
bt0.975(n2MSe/Sxx 11.13
同理
a1xMSe(nSxx95%置信区间为:
2~t(n2
1x2at0.975(n2MSe(
(11.14 nSxx这与以前假设检验中的置信区间求法完全一样。若置信水平为99%把分位数相应换为t0.995(n-2即可。
对例11.1中的给出95%置信区间。 解:从前边的计算可知:
a = 2.6996, b = 1.5167, Sxx = 90, MSe = 1.0568, n = 5, x12 查表,得t0.975(3 = 3.182 t0.975(3
MSe1.05683.1820.3448Sxx90221x112t0.975(3MSe(3.1821.0568(4.3887nSxx590
95%置信区间为:

2.6996 4.3887, 即(-1.6891, 7.0883 95%置信区间为:
1.5167 0.3448, 即(1.1719, 1.8615

第二节 相关分析

直线相关分析是根据xy的实际观测值,计算表示两个相关变量xy间线性相关程度和性质的统计量——相关系数r并进行显著性检验。

一、相关系数
1X 7 7 1 6 5 3 8 9 3 1 1 总和50 Y 5 9 6 1 3 1 9 4 6 6 6 总和52 2X 9 8 7 9 6 5 3 3 1 1 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52 3X 1 1 3 3 5 6 7 1 8 9 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52 可见:1XY关系紊乱(2X减小、Y也减小(3X增大、Y减小
作散点图,如果再以XY的平均数作坐标原点,将原散点图划分为四个象限,如果各点均匀分布则 ( x x ( y y 0,落在24象限则小于0——负相关, 落在13象限则大于0——正相关,为消除变异程度(n-1)和单位的影响,需除以标准差。

rxy1(xx(yyn1SxSy(xx(yyn122(xx(yyn1n1(xx(yy(xx(yy22SPxySxxSyy

(x(yxyn(x2(y222xynn22Sxy根据以前的推导结果,有:r性质: r1
SxxSyybSxySyySSSSR1e SyySyyˆ可以准确预测y值。此时若X不是随机变r1时,从上式可看出SSe = 0,即用y量,则Y也不是随机变量了。
r = 0时,SSe = Syy,回归一点作用也没有,即用X的线性函数完全不能预测Y的变化。但这时XY间还可能存在着非线性的关系。
0r1时,情况介于上述二者之间隔。X的线性函数对预测Y的变化有一定作用,
但不能准确预测,这说明Y还受其他一些因素,包括随机误差的影响。
综上,r可以作为XY间线性关系强弱的一种指标。非常直观,接近于1就是线性关系强,接近于0就是线性关系弱;而其他统计量都需要查表后才知检验结果。

二、决定系数和相关系数 前面已经证明了等式: ( y ˆy2(yyˆ2 y2(y 从这个等式:yx直线回归效果的好坏取决于回归平方和 ( y y 2 与离回归平ˆ
方和 ( y yˆ 2 的大小,或者说取决于回归平方和在y的总平方和

(yy2中所占的比例的大小。这个比例越大,yx的直线回归效果就越好,反之则差。
比值 ˆy2/(y(yy2

x y 的决定系数,记为 r2,即
2ˆ(yy r2(yy2
决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有0r21。因为:
22ˆSPSPxySPxy(yyxy r2byxbxy2(yySSxSSySSxSSy
SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为依变量,则回归系数 bxy =SPxy/Ssy 所以决定系数r2等于yx的回归系数与xy的回归系数的乘积。即决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量xy直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于01之间,不能反应直线关系的性质——是同向增减或是异向增减。
另外,r显著即一个显著的回归方程并不一定具有实践上的预测意义

如一个资料x y两个变量间的相关系数r =0.5,在 df = 24 r0.01(24 = 0.496r>r0.01(24,表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量x变量以直线回归的关系来估计的比重只占25%其余的 75% 的变异无法借助直线回归来估计。



计算相关系数:根据公式

三、相关系数的显著性检验

在一般情况下r不是正态分布,直接检验有困难。但当总体相关系数ρ= 0时,r的分布2近似于正态分布,此时用MSe代替就可以对H0:0t检验。这种检验与对回归系数b的检验:H0:0是等价的。可证明如下: bt检验统计量为:t = b/Sb b=Sxy/Sxx,

SbMSeSxxSyybSxyn22Sxy11Syy(1SxxSxxSyy(n2SxxSyy1r2 Sxxn2代入t的表达式,得:
tSxySxxSxxn2n2rn2r~t(n2
2Syy1r21r21r因此可用上述统计量对H0:0作统计检验。
为使用方便,已根据上述公式编制专门的相关系数检验表,可根据剩余自由度及自变量个数直接查出r的临界值。
若必须对ρ≠0的情况作统计检验,可采用反双曲正切变换: Z11r (11.20 ln21r111, 其中ln2(n1n321,n充分大时,可证明Z渐近正态分布N(利用统计量Z可对0,12等进行检验。但这一检验方法用得很少。 求出例11.1相关系数r,并作统计检验。
解:利用以前的计算结果,可得:
rZ
SxySxxSyyrn21r2136.50.9924290210.210.992422
0.992425213.99这里求得的Z值与前面求得的t值是相同的,它们本来就是同一个统计量。 查表,t0.995(3 = 5.841 < t, ∴差异极显著,即XY有极显著的线性关系。
若直接查相关系数检验表,可得:剩余自由度为3,独立自变量为1,α=0.05r临界值0.878, α=0.01的临界值为0.959, ∴差异仍为极显著。 二、 相关系数与回归系数间的关系
XY均为随机变量的情况下,通常可以X为自变量,Y为因变量建立方程,也可反过来,以Y为自变量,X为因变量建立方程。此时它们的地位是对称的。 X为自变量,Y为因变量,回归系b为:bSxy/Sxx Y为自变量,X为因变量,回归系数b’为:b'Sxy/Syy
r22SxySxxSyybb,rbb'
即:相关系数实际是两个回归系数的几何平均值。这正反映了相关与回归的不同:相关是双向的关系,而回归是单向的。
三种对回归方程统计检验的的比较:

1. 对一元线性回归来说,它们的基本公式其实是等价的,因此结果也是一致的。 2. 各有优缺点:对bt检验可给出置信区间;方差分析在有重复的情况下可分解出纯误差平方和,从而可得到进一步的信息;相关系数则既直观,又方便(有专门表格可查),因此使用广泛。
需注意,不论采用什么检验方法,数据都应满足以下三个条件:独立,抽自正态总体,方差齐性。


本文来源:https://www.2haoxitong.net/k/doc/cf4be5ed366baf1ffc4ffe4733687e21ae45ff0d.html

《第八章直线相关与回归分析.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式