1.2 回归分析(二)
明目标、知重点 1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度.
1.常见的非线性回归模型有
幂函数曲线y=axb,指数曲线y=aebx.
倒指数曲线word/media/image4_1.png,对数曲线y=a+bln x.
2.非线性函数可以通过变换转化成线性函数,得到线性回归方程,再通过相应变换得到非线性回归方程.
探究点一 非线性回归模型
思考1 有些变量间的关系并不是线性相关,怎样确定回归模型?
答 首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用回归方程来建立两个变量之间的关系,这时可以根据已有的函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.
思考2 如果两个变量呈现非线性相关关系,怎样求出回归方程?
答 可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.
例1 某地区不同身高的未成年男性的体重平均值如下表:
试建立y与x之间的回归方程.
解 根据上表中数据画出散点图如图所示.
由图看出,样本点分布在某条指数函数曲线y=word/media/image7_1.png的周围,于是令z=ln y.
画出散点图如图所示.
由表中数据可得z与x之间的线性回归方程:
=0.663+0.020x,则有=e0.663+0.020x.
反思与感悟 根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线y=word/media/image11_1.png的周围,其中c1和c2是待定参数;可以通过对x进行对数变换,转化为线性相关关系.
跟踪训练1 在彩色显影中,由经验知:形成染料光学密度y与析出银的光学密度x由公式y=word/media/image12_1.png(b<0)表示.现测得试验数据如下:
试求y对x的回归方程.
解 由题给的公式y=word/media/image12_1.png,两边取自然对数,便得ln y=ln A+,与线性回归方程相对照,只要取u=,v=ln y,a=ln A.就有v=a+bu.
题给数据经变量置换u=,v=ln y变成如下表所示的数据:
可得ln =0.548-,
即=e0.548-=e0.548·e-≈1.73e-,
这就是y对x的回归方程.
探究点二 非线性回归分析
思考 对于两个变量间的相关关系,是否只有唯一一种回归模型来拟合它们间的相关关系?
答 不一定.我们可以根据已知数据的散点图,把它与幂函数、指数函数、对数函数、二次函数图象进行比较,挑选一种拟合比较好的函数,作为回归模型.
例2 对两个变量x,y取得4组数据(1,1),(2,1.2),(3,1.3),(4,1.37),甲、乙、丙三人分别求得数学模型如下:
甲 y=0.1x+1,
乙 y=-0.05x2+0.35x+0.7,
丙 y=-0.8·(0.5)x+1.4,试判断三人谁的数学模型更接近于客观实际.
解 甲模型,当x=1时,y=1.1;
当x=2时,y=1.2;
当x=3时,y=1.3;当x=4时,y=1.4.
乙模型,当x=1时,y=1;当x=2时,y=1.2;
当x=3时,y=1.3;当x=4时,y=1.3.
丙模型,当x=1时,y=1;当x=2时,y=1.2;
当x=3时,y=1.3;当x=4时,y=1.35.
观察4组数据并对照知,
丙的数学模型更接近于客观实际.
跟踪训练2 根据统计资料,我国能源生产自1986年以来发展很快.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:
根据有关专家预测,到2010年我国能源生产总量将达到21.7亿吨左右,则专家所选择的回归模型是下列四种模型中的哪一种 .(填序号)
①y=ax+b(a≠0);②y=ax2+bx+c(a≠0);③y=ax(a>0且a≠1);④y=logax(a>0且a≠1).
答案 ①
1.散点图在回归分析中的作用是( )
A.查找个体个数
B.比较个体数据大小关系
C.探究个体分类
D.粗略判断变量是否相关
答案 D
2.变量x与y之间的回归方程表示( )
A.x与y之间的函数关系
B.x与y之间的不确定性关系
C.x与y之间的真实关系形式
D.x与y之间的真实关系达到最大限度的吻合
答案 D
3.变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( )
A.1 B.-0.5
C.0 D.0.5
答案 C
4.某矿山采煤的单位成本Y与采煤量x有关,其数据如下:
则Y对x的相关系数为 .
答案 -0.559 3
[呈重点、现规律]
1.对于可确定具有非线性相关关系的两个变量,可以通过对变量进行变换,转化为线性回归问题去解决.
2.可以通过计算相关系数r判断模型拟合的好坏程度.
由于2004对应的x=55,代入回归直线方程可得=1 322.506(百万),即2004年的人口总数估计为13.23亿.
下面对其进行线性相关性检验:
(1)作统计假设H0∶x与y不具有线性相关;
(2)由0.01与n-2=9的附表中查得r0.01=0.735;
(3)根据公式得相关系数r=0.998;
(4)因为|r|=0.998>0.735,即|r|>r0.01,
所以有99%的把握认为x与y之间具有线性相关关系,回归直线方程为=527.591+14.453x,用这个方程去估计我国2004年的人口数是有意义的.
本文来源:https://www.2haoxitong.net/k/doc/782b284f8662caaedd3383c4bb4cf7ec4bfeb63c.html
文档为doc格式