1.1 回归分析
1.2 相关系数
word/media/image1.gif明目标、知重点word/media/image2.gif 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.掌握建立线性回归模型的步骤.
word/media/image3.gif
1.线性回归方程
在线性回归方程y=a+bx中,b=d2b0bbf4f4e4b8ab5c61e3918066c1a1.png
(4007c8b864a115f37e9a68fe968c462c.png
2.相关系数
(1)相关系数r的计算公式
r=e3759dd6b3e4f336f0ec15dbd6055005.png
(2)相关系数r的取值范围是[-1,1],|r|值越大,变量之间的线性相关程度越高;|r|值越接近0,变量之间的线性相关程度越低.
(3)当r>0时,b>0,称两个变量正相关;
当r<0时,b<0,称两个变量负相关;
当r=0时,b=0,称两个变量线性不相关.
word/media/image4.gif
[情境导学]
“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?
探究点一 线性回归方程
思考1 两个变量之间的关系分几类?
答 分两类:①函数关系,②相关关系.
函数关系是一种确定性关系,而相关关系是一种非确定性关系.
上面所提的“名师”与“高徒”之间的关系就是相关关系.
思考2 什么叫回归分析?
答 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
思考3 对具有线性相关关系的两个变量进行回归分析有哪几个步骤?
答 基本步骤为画散点图,求线性回归方程,用线性回归方程进行预测.
例1 若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
求根据女大学生的身高预测体重的回归方程,并预测一名身高为172 cm的女大学生的体重.
解 (1)画散点图
选取身高为变量x,体重为变量y,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.
word/media/image5.gif
由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线y=bx+a来近似刻画它们之间的关系.
(2)建立回归方程
由计算器可得b=0.849,a=-85.712.
于是得到回归方程为y=0.849x-85.712.
(3)预测和决策
当x=172时,y=0.849×172-85.712=60.316(kg).
即预测一名身高为172 cm的女大学生的体重约为60.316 kg.
反思与感悟 在使用回归方程进行预测时要注意:
(1)回归方程只适用于我们所研究的样本的总体;
(2)我们所建立的回归方程一般都有时间性;
(3)样本取值的范围会影响回归方程的适用范围;
(4)不能期望回归方程得到的预测值就是预测变量的精确值.
跟踪训练1 某班5名学生的数学和物理成绩如表:
(1)画出散点图;
(2)求物理成绩y对数学成绩x的线性回归方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
解 (1)散点图如图.
word/media/image6.gif
(2)4007c8b864a115f37e9a68fe968c462c.png
cce0594fc8a89da461a5795269434137.png
751e55293c4bc17bd2baff1aa349313e.png
=25 054.
751e55293c4bc17bd2baff1aa349313e.png
∴b=fe91824b1267e21e4ba6c16d3544e592.png
∴a=cce0594fc8a89da461a5795269434137.png
∴y对x的线性回归方程是y=0.625x+22.05.
(3)当x=96时,y=0.625×96+22.05≈82.
所以,可以预测他的物理成绩是82.
探究点二 相关系数
思考1 给出n对数据,按照公式求出的线性回归方程,是否一定能反映这n对数据的变化规律?
答 如果数据散点图中的点都大致分布在一条直线附近,这条直线就能反映这n对数据的变化规律,否则求出的方程没有实际意义.
思考2 怎样通过相关系数刻画变量之间的线性相关关系?
答 |r|值越接近1,变量之间的线性相关程度越高;|r|值越接近0,变量之间的线性相关程度越低;当r=0时,两个变量线性不相关.
例2 下面的数据是从年龄在40岁到60岁的男子中随机抽出的6个样本,分别测定了心脏的功能水平y(满分100),以及每天花在看电视上的平均时间x(小时).
(1)求心脏功能水平y与每天花在看电视上的平均时间x之间的样本相关系数r;
(2)求心脏功能水平y与每天花在看电视上的平均时间x的线性回归方程,并讨论方程是否有意义;
(3)估计平均每天看电视3小时的男子的心脏功能水平.
解 n=6,4007c8b864a115f37e9a68fe968c462c.png
cce0594fc8a89da461a5795269434137.png
eacd913ee7e3e2ec3bbc259f1fac7c6b.png
≈19.766 8,
f8b7ebce3eb797e973c0006c6ae1fc3e.png
≈964.807 7,
eacd913ee7e3e2ec3bbc259f1fac7c6b.png
(1)心脏功能水平y与每天花在看电视上的平均时间x之间的相关系数:r≈32368d5b3dc8aad594a57972b959ef2c.png
(2)b≈007eb212215c4c4dece72bcd94cd2eaa.png
由(1)知y与x之间有较强的线性关系,这个方程是有意义的.
(3)将x=3代入线性回归方程y=87.600 5-6.305 0x,可得y≈68.7,即平均每天看电视3小时,心脏功能水平约为68.7.
反思与感悟 求解两个变量的相关系数及它们的线性回归方程的计算量较大,需要细心、谨慎地计算.如果会使用含统计的科学计算器,能简单得到53c7e8497304443eeda6a63391992882.png
跟踪训练2 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x(g/L)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据.
(1)画散点图;
(2)求线性回归方程;
(3)求相关系数r.
解 (1)
word/media/image7.gif
(2)列表:
4007c8b864a115f37e9a68fe968c462c.png
=b928e185f9df7b631a93ba75081c5066.png
a=cce0594fc8a89da461a5795269434137.png
∴线性回归方程为y=22.648+0.264 3x.
(3)ffdafef6d158efda67dd52b57cb7e6b1.png
=3d93fa5a7bb48036063867f763df8925.png
由此可以看出甲醛浓度与缩醛化度两个变量之间有较强的线性相关关系.
word/media/image8.gif
1.下列变量之间:①人的身高与年龄;②产品的成本与生产数量;③商品的销售额与广告费;④家庭的支出与收入.
其中不是函数关系的有( )
A.1个 B.2个 C.3个 D.4个
答案 D
2.已知线性回归方程为y=bx+a,其中a=3且样本点中心为(1,2),则线性回归方程为( )
A.y=x+3 B.y=-2x+3
C.y=-x+3 D.y=x-3
答案 C
解析 ∵y=bx+3过(1,2),可计算得b=-1.
3.已知一个线性回归方程为y=1.5x+45,xi∈{1,7,5,13,19},则cce0594fc8a89da461a5795269434137.png
答案 58.5
4.一唱片公司欲知打歌费用x(十万元)与唱片销售量y(千张)之间的关系,从其所发行的唱片中随机抽取了10张,得如下的资料:251d00271b864ba7ccaf6367e3626cb6.png
答案 0.3
解析 由公式r=8e118372110f826fe2bd188b4500d1ac.png
[呈重点、现规律]
1.对具有相关关系的两个变量进行统计分析,可从散点图观察大致呈条状分布,可以求线性回归方程并进行预报.
2.通过计算相关系数可以判定两个变量的线性相关程度.
word/media/image9.gif
一、基础过关
1.在下列各量之间,存在相关关系的是( )
①正方体的体积与棱长之间的关系;
②一块农田的水稻产量与施肥量之间的关系;
③某户家庭用电量与电价之间的关系.
A.②③ B.①③ C.① D.②
答案 D
2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的线性回归方程为y=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(4007c8b864a115f37e9a68fe968c462c.png
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
答案 D
解析 由线性回归方程为y=0.85x-85.71知y随x的增大而增大,所以y与x具有正的线性相关关系;由最小二乘法建立回归方程的过程知y=bx+a=bx+cce0594fc8a89da461a5795269434137.png
3.某产品的广告费用x与销售额y的统计数据如下表:
根据上表可得回归方程y=bx+a中的b为9.4,据此模型预测广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
答案 B
解析 ∵4007c8b864a115f37e9a68fe968c462c.png
又y=bx+a必过(4007c8b864a115f37e9a68fe968c462c.png
∴42=94f7b8d3c31ae0e329bed2998dfaf493.png
∴线性回归方程为y=9.4x+9.1.
∴当x=6(万元)时,y=9.4×6+9.1=65.5(万元).
4.已知对一组观察值(xi,yi)作出散点图后确定具有线性相关关系,若对于y=bx+a,求得b=0.51,4007c8b864a115f37e9a68fe968c462c.png
A.y=0.51x+6.65 B.y=6.65x+0.51
C.y=0.51x+42.30 D.y=42.30x+0.51
答案 A
5.对于回归分析,下列说法错误的是( )
A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的,也可以是负的
C.回归分析中,如果r2=1,说明x与y之间完全相关
D.样本相关系数r∈(-1,1)
答案 D
解析 相关系数r的范围是[-1,1].
6.对具有线性相关关系的变量x和y,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条线性回归方程为________.
答案 y=-10+6.5x
解析 由题意知4007c8b864a115f37e9a68fe968c462c.png
7.某个服装店经营某种服装,在某周内纯获利y(元)与该周每天销售这种服装件数x之间的一组数据如下表:
(1)求样本点的中心;
(2)画出散点图;
(3)求纯获利y与每天销售件数x之间的回归方程.
解 (1)4007c8b864a115f37e9a68fe968c462c.png
(2)散点图如下:
word/media/image10.gif
(3)因为9817448cf2c85bb37b80255aaa6d817e.png
所以b=03adfe6e7bcc7395b03399cf8fa3abf0.png
=e4fb995d5bfcc1e5c5f5c120699b0309.png
a=cce0594fc8a89da461a5795269434137.png
所以y=4.75x+51.36.
二、能力提升
8.已知x与y之间的几组数据如下表:
假设根据上表数据所得线性回归方程y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.b>b′,a>a′ B.b>b′,a<a′
C.b<b′,a>a′ D.b<b′,a<a′
答案 C
解析 b′=2,a′=-2,
由公式b=c350ca0dfb533515ba84977970406a1d.png
b=395220691f780148c416c2ea9856fe5d.png
∴b<b′,a>a′.选C.
9.下表是x和y之间的一组数据,则y关于x的回归方程必过( )
A.点(2,3) B.点(1.5,4)
C.点(2.5,4) D.点(2.5,5)
答案 C
解析 回归方程必过样本点的中心(4007c8b864a115f37e9a68fe968c462c.png
10.若线性回归方程中的回归系数b=0,则相关系数r=________.
答案 0
解析 b=603ac601ad5a6b62a5bb15799a5d3cd1.png
r=4102d41709cc8fdb9a703d5a9acf4b92.png
若b=0,则r=0.
11.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下:
若加工时间y与零件个数x之间有较好的相关关系.
(1)求加工时间与零件个数的回归方程;
(2)试预测加工10个零件需要的时间.
解 (1)由表中数据得4007c8b864a115f37e9a68fe968c462c.png
bac39cf2fa38db671a4a76bf74984cb8.png
从而得b=0.7,a=cce0594fc8a89da461a5795269434137.png
因此,所求的线性回归方程为y=0.7x+1.05.
(2)将x=10代入回归方程,得
y=0.7×10+1.05=8.05(小时),
即加工10个零件的预测时间为8.05小时.
12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
(1)求线性回归方程y=bx+a,其中b=-20,a=cce0594fc8a89da461a5795269434137.png
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解 (1)4007c8b864a115f37e9a68fe968c462c.png
cce0594fc8a89da461a5795269434137.png
∵b=-20,a=cce0594fc8a89da461a5795269434137.png
∴a=80+20×8.5=250,
∴线性回归方程y=-20x+250.
(2)设工厂获得的利润为L元,则
L=x(-20x+250)-4(-20x+250)
=-20(x-d9ee51f40e841771eb974099f585c8a3.png
∴该产品的单价应定为d9ee51f40e841771eb974099f585c8a3.png
三、探究与拓展
13.某运动员训练次数与运动成绩之间的数据关系如下:
(1)作出散点图;
(2)求出线性回归方程;
(3)计算相关系数并进行相关性检验;
(4)试预测该运动员训练47次及55次的成绩.
解 (1)作出该运动员训练次数x与成绩y之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系.
word/media/image11.gif
(2)列表计算:
由上表可求得4007c8b864a115f37e9a68fe968c462c.png
41acd666b2b795f13de819c0e32b942b.png
∴b=d9775d8a298c0f22991f8ac85fc886bd.png
a=cce0594fc8a89da461a5795269434137.png
∴线性回归方程为y=1.041 5x-0.003 88.
(3)计算相关系数r=0.992 7,因此运动员的成绩和训练次数两个变量有较强的相关关系.
(4)由上述分析可知,我们可用线性回归方程y=1.041 5x-0.003 88作为该运动员成绩的预测值.
将x=47和x=55分别代入该方程可得y=49和y=57.故预测该运动员训练47次和55次的成绩分别为49和57.
本文来源:https://www.2haoxitong.net/k/doc/c4b8fe82c4da50e2524de518964bcf84b8d52dda.html
文档为doc格式