文档文库

手机版

投诉建议

首页 > 线性回归方程中的相关系数r

线性回归方程中的相关系数r

发布时间：2019-11-13 12:57:22 来源：文档文库

小中大

字号：

手机查看

线性回归方程中的相关系数r

r=∑(Xi-X的平均数)(Yi-Y平均数)/根号下[∑(Xi-X平均数)^2*∑(Yi-Y平均数)^2]

R2就是相关系数的平方，
R在一元线性方程就直接是因变量自变量的相关系数，多元则是复相关系数

判定系数R^2

也叫拟合优度、可决系数。表达式是:
R^2=ESS/TSS=1-RSS/TSS
该统计量越接近于1，模型的拟合优度越高。
问题：在应用过程中发现，如果在模型中增加一个解释变量， R2往往增大
这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。
——但是，现实情况往往是，由增加解释变量个数引起的R2的增大与拟合好坏无关，R2需调整。
这就有了调整的拟合优度:
R1^2=1-(RSS/(n-k-1))/(TSS/(n-1))
在样本容量一定的情况下，增加解释变量必定使得自由度减少，所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响:
其中：n-k-1为残差平方和的自由度，n-1为总体平方和的自由度。
总是来说，调整的判定系数比起判定系数，除去了因为变量个数增加对判定结果的影响。

R = R接近于1表明Y与X1， X2 ，…，Xk之间的线性关系程度密切；
R接近于0表明Y与X1， X2 ，…，Xk之间的线性关系程度不密切

相关系数就是线性相关度的大小，1为（100%）绝对正相关，0为0%，-1为（100%）绝对负相关

相关系数绝对值越靠近1，线性相关性质越好，根据数据描点画出来的函数-自变量图线越趋近于一条平直线，拟合的直线与描点所得图线也更相近。

如果其绝对值越靠近0，那么就说明线性相关性越差，根据数据点描出的图线和拟合曲线相差越远（当相关系数太小时，本来拟合就已经没有意义，如果强行拟合一条直线，再把数据点在同一坐标纸上画出来，可以发现大部分的点偏离这条直线很远，所以用这个直线来拟合是会出现很大误差的或者说是根本错误的）。

分为一元线性回归和多元线性回归
线性回归方程中,回归系数的含义

一元：
Y^=bX+a b表示X每变动（增加或减少）1个单位,Y平均变动（增加或减少）b各单位
多元：
Y^=b1X1+b2X2+b3X3+a 在其他变量不变的情况下，某变量变动1单位，引起y平均变动量
以b2为例：b2表示在X1、X3（在其他变量不变的情况下）不变得情况下，X2每变动1单位，y平均变动b2单位

就一个reg来说y=a+bx+e
a+bx的误差称为explained sum of square
e的误差是不能解释的是residual sum of square
总误差就是TSS
所以TSS=RSS+ESS

判定系数也叫拟合优度、可决系数。表达式是

该统计量越接近于1，模型的拟合优度越高。

问题：在应用过程中发现，如果在模型中增加一个解释变量， R2往往增大

这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。

——但是，现实情况往往是，由增加解释变量个数引起的R2的增大与拟合好坏无关，R2需调整。

这就有了调整的拟合优度

在样本容量一定的情况下，增加解释变量必定使得自由度减少，所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响:其中：n-k-1为残差平方和的自由度，n-1为总体平方和的自由度。

总是来说，调整的判定系数比起判定系数，除去了因为变量个数增加对判定结果的影响。

顺便补充一下：

一般做回归的时候要求拟合优度（实际值与拟合值相关系数的平方）越高越好，可以通过增加解释变量来实现，可是解释变量多了后很多解释变量的系数T检验不显著了，而且增加很多变量后模型的自由度就减少了，这些情况狂的存在往往使得模型预测不精确；修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度，这样就剔除了变量个数对其影响了。

首先有一个恒等式：TSS = ESS + RSS
即总偏差平方和 = 回归平方和 + 残差平方和

通常情况，我们都是讨论解释变量对总效应的贡献，使用一个叫“拟合优度”（或者叫“判定系数”）的指标
其定义为：

回归平方和 / 总偏差平方和 =ESS/TSS = (TSS-RSS)/TSS =(923-325)/923

如果说随机误差对总效应的贡献，那可以直接 RSS/TSS

因为 1 - (TSS-RSS)/TSS 就可以化为 RSS / TSS

SPSS中pearson（皮尔逊相关系数）看r值还是P值，确定相关性

两个值都要看，r值表示在样本中变量间的相关系数，表示相关性的大小；p值是检验值，是检验两变量在样本来自的总体中是否存在和样本一样的相关性。

SPSS回归系数 SIG

在SPSS软件统计结果中，不管是回归分析还是其它分析，都会看到“SIG”，SIG=significance，意为“显著性”，后面的值就是统计出的P值，如果P值0.01则为差异显著，如果P<0.01,则差异极显著

sig是指的的显著性水平，就是p值，一般来说接近0.00越好，过大的话只能说不显著，sig是F检验的结果，<0.01代表方程通过检验，进行回归分析是有效的

F表示数据的方差，sig表示显著性，也就是对F检验的结果，如果sig>0.05则说明模型受误差因素干扰太大不能接受。R是复相关系数，表示观测值和模型描述值之间的线性相关系数，越大越好。R方通俗的说就是解释率，就是说你的自变量能够解释多少因变量的变化。具体到你这个就是模型不能接受，自变量解释了22.1%,剩下的只能用误差解释。

spss软件的线性回归分析中，输出了一个anova表，表中的回归、残差、平方和、df、均方、F、sig分别代表什么

回归是方法
残差是实测与预计值的差值
平方和有很多个，不同的平方和的意思不一样
df是自由度
均方是方差除以自由度
f是f分布的统计量
sig是p值

anova表中的“回归平方和”表示反应变量的变异中的回归模式中所包含的自变量所能解释的部分。“残差平方和”代表反应变量的变异中没有被回归模型所包含的变量解释的部分。这两个值与样本量及模型中自变量的个数有关，样本量越大，相应变异就越大。df是自由度，是自由取值的变量个数，F为F检验统计量，用于检验该回归方程是否有意义，当Sig对应的值小于0.05（当显著性水平为0.05时）时，说明所建立的回归方程具有统计学意义，即自变量和因变量之间存在线性关系。

多元线性回归分析中，t检验与F检验有何不同

t检验常能用作检验回归方程中各个参数的显著性，而f检验则能用作检验整个回归关系的显著性。各解释变量联合起来对被解释变量有显著的线性关系，并不意味着每一个解释变量分别对被解释变量有显著的线性关系

F检验主要是检验因变量同多个自变量的整体线性关系是否显著，在k个自变量中，只要有一个自变量同因变量的线性关系显著，t检验则是对每个回归系数分别进行单独的检验，以判断每个自变量对因变量的影响是否显著。

计算结果肺活量例子

对数据标准化，即将原始数据减去相应变量的均数后再除以该变量的标准差，计算得到的回归方程称为标准化回归方程，相应得回归系数为标准化回归系数。

标准化回归系数（Beta值）在多元回归中被用来比较变量间的重要性

B是指回归系数，beta是指标准回归系数，beta=B/S(B),beta是用来比较各个系数之间的绝对作用或者贡献的大小，B值是不能判断的绝对贡献的。

t值是对该回归系数B做假设检验的结果，P值小于0.05才可以认为有意义，但是具体问题要具体分析，有的时候要考虑交互作用等

常数项为负 p值0.04，拒绝常数项为0的假设，统计显著，没问题

beta coefficient就是标准回归系数，它是首先把各个自变量进行Z转换（数据值-数据平均值然后除以标准差）之后再进行回归，此时得出的回归系数称为标准化回归系数。Z转换可以把各个自变量的数级、量纲统一标准化，也就可以根据标准化回归系数的大小比较出各个自变量在回归方程中的效应大小。

标准回归系数

standardizedregressioncoefficient或standardregressioncoefficient

消除了因变量y和自变量x1，x2，…xn所取单位的影响之后的回归系数，其绝对值的大小直接反映了xi对y的影响程度

计算方法

对数据标准化，即将原始数据减去相应变量的均数后再除以该变量的标准差，计算得到的回归方程称为标准化回归方程，相应得回归系数为标准化回归系数。

公式

若假定回归方程的形式如下：

Y=b0+b1X1+b2X2+…+bjXj+…+bJXJ(Y是估计值)

其中，回归参数b0,b1,…,bJ通过最小二乘法求得。

则标准化回归系数bj'=bj*(Xj的标准差/Y的标准差)

理解方法

标准化回归系数（Beta值）在多元回归中被用来比较变量间的重要性。但是由于重要性这一词意义的含糊性，这一统计常被误用。

有时人们说重要性，是指同样的条件下，哪一个东西更有效。在提高教学质量上，是硬件条重要还是师资更重要？如果是师资更重要，那么同样的物力投在师资上就可以更快地提高教学质量。但是这里要比较的两者必须有同样的测量单位，如成本（元）。如果变量的单位不同，我们不能绝对地说那个变量更重要。不同单位的两个东西是不能绝对地比出高低轻重来。要想进行绝对地比较，就需要两个东西有着共同的测度单位，否则无法比较。

而标准化回归系数说的重要性则与上面的意义不同，这是一种相对的重要性，与某一特定的情况下，自变量间的离散程度有关。比如说，虽然我们不能绝对地说出教育和年资在决定收入上那一个一定是重要的，但如果现在大家的教育程度比较相似，那么在收入的决定上，工作年数就是决定因素；反之，如果工作年数没有太大区别，那么教育就成为了重要原因。这里的重要性是相对的，是根据不同情况而改变的。再举一个通俗的例子，研究者研究的是遗传因素和后天因素对于人成长的影响。那么在一个社会境遇悬殊巨大的环境中，有人在贫民窟成长，有人在贵族学校上学，那么我们会发现人格的大部分差异会从后天环境因素得到解释，而遗传的作用就相对较小；相反，如果儿童都是在一个相差不大的环境中长大的，你会发现，遗传会解释大部分的人格差异。这种意义上的重要性，不仅与这一自变量的回归系数有关系，而且还与这个自变量的波动程度有关系：如果其波动程度较大，那么就会显得较为重要；否则，就显得不太重要。标准化回归系数正是测量这种重要性的。从标准化回归系数的公式中也可看出，Beta值是与自变量的标准差与成正比的，自变量波动程度的增加，会使它在这一具体情况下的重要性增加。

但是如果将两种重要性混同，就会得到误导性结论。如环境因素的Beta值比遗传因素的Beta值大，就认为在个体的人格发展上应更注意环境因素，而轻视遗传因素，在目前对于Beta值的错误观念非常流行，甚至是一些高手中。

标准化回归系数的比较结果只是适用于某一特定环境的，而不是绝对正确的，它可能因时因地而变化。举例来说，从某一次数据中得出，在影响人格形成的因素中，环境因素的Beta值比遗传因素的Beta值大，这只能说明数据采集当时当地的情况，而不能加以任何不恰当的推论，不能绝对地不加任何限定地说，环境因素的影响就是比遗传因素大。事实上，如果未来环境因素的波动程度变小，很可能遗传因素就显得更为重要。数据的情况千差万别，变量的相对重要性也可能完全不同但都符合当时的实际情况。

F是组方差值，
sig是差异性显著的检验值，该值一般与0.05或0.01比较，若小于0.05或者0.01 则表示差异显著
df是自由度
一般的sig 没有特别注明的都是指双侧检验，如果特别注明有单侧，那就是单侧的
所谓双侧的意思是有可能在大于，有可能小于的，
而单侧的意思是只有一边或者大于，或者小于的
关于求法还是看相关统计学教材吧里面讲起来比较复杂

你的分析结果有T值，有sig值，说明你是在进行平均值的比较。也就是你在比较两组数据之间的平均值有没有差异。

从具有t值来看，你是在进行T检验。T检验是平均值的比较方法。
T检验分为三种方法：
1. 单一样本t检验（One-sample t test），是用来比较一组数据的平均值和一个数值有无差异。例如，你选取了5个人，测定了他们的身高，要看这五个人的身高平均值是否高于、低于还是等于1.70m，就需要用这个检验方法。

2. 配对样本t检验（paired-samples t test），是用来看一组样本在处理前后的平均值有无差异。比如，你选取了5个人，分别在饭前和饭后测量了他们的体重，想检测吃饭对他们的体重有无影响，就需要用这个t检验。
注意，配对样本t检验要求严格配对，也就是说，每一个人的饭前体重和饭后体重构成一对。

3. 独立样本t检验（independent t test），是用来看两组数据的平均值有无差异。比如，你选取了5男5女，想看男女之间身高有无差异，这样，男的一组，女的一组，这两个组之间的身高平均值的大小比较可用这种方法。
总之，选取哪种t检验方法是由你的数据特点和你的结果要求来决定的。

t检验会计算出一个统计量来，这个统计量就是t值，
spss根据这个t值来计算sig值。因此，你可以认为t值是一个中间过程产生的数据，不必理他，你只需要看sig值就可以了。sig值是一个最终值，也是t检验的最重要的值。

sig值的意思就是显著性（significance），它的意思是说，平均值是在百分之几的几率上相等的。
一般将这个sig值与0.05相比较，如果它大于0.05，说明平均值在大于5%的几率上是相等的，而在小于95%的几率上不相等。我们认为平均值相等的几率还是比较大的，说明差异是不显著的，从而认为两组数据之间平均值是相等的。
如果它小于0.05，说明平均值在小于5%的几率上是相等的，而在大于95%的几率上不相等。我们认为平均值相等的几率还是比较小的，说明差异是显著的，从而认为两组数据之间平均值是不相等的。

总之，只需要注意sig值就可以了。

T值表示的是t值检验 sig是检验值一般不用看T值，只看sig的值是否小于0.05.如果是，说明通过检验了，说明两者在总体中存在相关关系。
如果你是做论文用下这样的统计，只需了解这些就可以了。

T值是t检验得出来的检验结果，t检验是一种差异性的检验，用于二组正态分布的数值形变量的检验，是一种差异性检验，检验二组是否存在差别。其值越大，差异越显著。
SIG是统计中用的P值，是根据T值的大小查表得出来的数值，他一般与0.05进行比较，小于0.05认为二组的差别显著，大于0.05则差别不显著。

R表示的是拟合优度，它是用来衡量估计的模型对观测值的拟合程度。它的值越接近1说明模型越好。但是，你的R值太小了。
T的数值表示的是对回归参数的显著性检验值，它的绝对值大于等于ta/2(n-k)（这个值表示的是根据你的置信水平，自由度得出的数值）时，就拒绝原假设，即认为在其他解释变量不变的情况下，解释变量X对被解释变量Y的影响是显著的。
F的值是回归方程的显著性检验，表示的是模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著做出推断。若F>Fa(k-1,n-k),则拒绝原假设，即认为列入模型的各个解释变量联合起来对被解释变量有显著影响，反之，则无显著影响。

单尾双尾检测

通常假设检验的目的是两总体参数是否相等，以两样本均数比较为例，
　　无效假设为两样本所代表的总体均数相等；
　　备择假设为不相等（有可能甲大于乙，也有可能甲小于乙）既两种情况都有可能发生．
　　而研究者做这样的假设说明（１）他没有充分的理由判断甲所代表的总体均数会大于乙的或甲的会小于乙的；（２）他只关心甲乙两个样本各自所代表的总体均数是否相等？至于哪个大不是他关心的问题．这时研究者往往会采用双侧检验．
　　如果研究者从专业知识的角度判断甲所代表的总体均数不可能大于（或小于）乙的，这时一般就采用单侧检验．
　　例如：要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率，就属于单侧检验．因为根据医学知识知道经常锻炼的中学男生心率不会高于一般中学男生，因此在进行假设检验时应使用单侧检验．

单尾检验和双尾检验的区别在于他们拒绝H0的标准。单尾检验允许你在差异相对较小时拒绝H0，这个差异被规定了方向。另一方面，双尾检验需要相对较大的差异，这个差异不依赖于方向。

所有的研究者都同意单尾检验与双尾检验不同。一些研究者认为，双尾检验更为严格，比单尾检验更令人信服。因为双尾检验要求更多的证据来拒绝H0，因此提供了更强的证据说明处理存在效应。另一些研究者倾向于使用单尾检验，因为它更为敏感，即在单尾检验中相对较小的处理效应也可能是显著的，但是，它可能不能达到双尾检验的显著性要求。

那么我们是应该使用单尾检验还是双尾检验？？通常，双尾检验被用于没有强烈方向性期望的实验研究中，或是存在两个可竞争的预测时。例如，当一种理论预测分数增加，而另一种理论预测分数减少时，应当使用双尾检验。应当使用单尾检验的情况包括在进行实验前已经有方向性预测，或强烈需要做出方向性预测时。

Ho 假设检验（Hypothesis Testing）假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。

　　生物现象的个体差异是客观存在，以致抽样误差不可避免，所以我们不能仅凭个别样本的值来下结论。当遇到两个或几个样本均数（或率）、样本均数（率）与已知总体均数（率）有大有小时，应当考虑到造成这种差别的原因有两种可能：一是这两个或几个样本均数（或率）来自同一总体，其差别仅仅由于抽样误差即偶然性所造成；二是这两个或几个样本均数（或率）来自不同的总体，即其差别不仅由抽样误差造成，而主要是由实验因素不同所引起的。假设检验的目的就在于排除抽样误差的影响，区分差别在统计上是否成立，并了解事件发生的概率。

在质量管理工作中经常遇到两者进行比较的情况，如采购原材料的验证，我们抽样所得到的数据在目标值两边波动，有时波动很大，这时你如何进行判定这些原料是否达到了我们规定的要求呢？再例如，你先后做了两批实验，得到两组数据，你想知道在这两试实验中合格率有无显著变化，那怎么做呢？这时你可以使用假设检验这种统计方法，来比较你的数据，它可以告诉你两者是否相等，同时也可以告诉你，在你做出这样的结论时，你所承担的风险。假设检验的思想是，先假设两者相等，即：μ＝μ0，然后用统计的方法来计算验证你的假设是否正确。

1.小概率原理

　　如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。

2.假设的形式

　　H0——原假设，H1——备择假设

　　双尾检验：H0:μ = μ0，

　　单尾检验：，H1:μ < μ0，H1:μ > μ0假设检验就是根据样本观察结果对原假设（H0）进行检验，接受H0，就否定H1；拒绝H0，就接受H1。

检验过程是比较样本观察结果与总体假设的差异。差异显著，超过了临界点，拒绝H0；反之，差异不显著，接受H0。

克朗巴哈系数（Cronbach's α）是一个统计量，是指量表所有可能的项目划分方法的得到的折半信度系数的平均值，是最常用的信度测量方法。它最先被美国教育学家Lee Cronbach在1951年命名。

计算公式：

其中K为样本数，σ2X为总样本的方差，σ2Yi为目前观测样本的方差。

通常Cronbachα系数的值在0和1之间。如果X系数不超过0.6，一般认为内部一致信度不足；达到0.7-0.8时表示量表具有相当的信度，达0.8-0.9时说明量表信度非常好。Cronbachα系数的一个重要特性是它们值会随着量表项目的增加而增加，因此，Cronbach α系数可能由于量表中包含多余的测量项目而被人为地、不适当地提高。还有一种可以和Cronbachα系数同时使用的系数。系数能够帮助评价，在计算Cronbachα系数的过程中，平均数的计算是否掩盖了某些不相关的测量项目。不同的研究者对信度系数的界限值有不同的看法，有学者认为，在基础研究中Cronbachα系数至少应达到0.8才能接受，在探索研究中Cronbach α系数至少应达到0.7才能接受，而在实务研究中，Cronbach α系数只需达到0.6即可。