统计案例分析及典型例题

发布时间:   来源:文档文库   
字号:

统计案例分析及典型例题

§抽样方法


基础自测

1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是.答案200个零件的长度
2.某城区有农民、工人、知识分子家庭共计2004户,其中农民家庭1600户,工人家303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的.答案①②③
3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为.答案3918
4.某工厂生产ABC三种不同型号的产品,其相应产品数量之比为235,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n=.答案80






1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.
抽签法和随机数表法设计抽样方案.抽签法:
第一步:将18名志愿者编号,编号为123,…,18.
第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;第三步:将18个号签放入一个不透明的盒子里,充分搅匀;第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法:
第一步:将18名志愿者编号,编号为010203,…,18.
第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;
第三步:从数7开始,向右读,每次取两位,凡不在0118中的数,或已读过的数,都跳过去不作记录,依次可得到120715130209.



第四步:找出以上号码对应的志愿者,就是志愿小组的成员.
2某工厂有1003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施.1)将每个人随机编一个号由00011003.2)利用随机数法找到3个号将这3名工人剔除.(3将剩余的1000名工人重新随机编号由00011000.
000
4)分段,取间隔k=110=100将总体均分为10段,每段含100个工人.
5)从第一段即为0001号到0100号中随机抽取一个号l.
6)按编号将l100+l200+l,…,900+l10个号码选出,这10个号码所对应的工人组成样本.
314分)某一个地区共有5个乡镇,人口3万人,其中人口比例为325233万人中抽取一个300
的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法并写出具体过程.
应采取分层抽样的方法.3过程如下:
1)将3万人分为五层,其中一个乡镇为一层.52)按照样本容量的比例随机抽取各乡镇应抽取的样本.



32
300×15=60(人)300×15=40(人)
52300×15=100(人)300×15=40(人)
3300×15=60(人)10
因此各乡镇抽取人数分别为60人,40人,100人,40人,60.123)将300人组到一起即得到一个样本.14



练习:

一、填空题
1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为.答案151020
2.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别.
答案系统抽样,简单随机抽样



3.下列抽样实验中,最适宜用系统抽样的是(填序号).
①某市的4个区共有2000名学生,且4个区的学生人数之比为3282,从中抽200人入样
②某厂生产的2000个电子元件中随机抽取5个入样③从某厂生产的2000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案
4.2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法.答案分层抽样法
5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等



答案①②③
6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是.答案6
7.(天津文,11一个单位共有职工200人,其中不超过45岁的有120人,超过45的有80.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量25的样本,应抽取超过45岁的职工.答案10
8.将参加数学竞赛的1000名学生编号如下000100020003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为00010002…,0020从第一部分随机抽取一个号码为0015则第40个号码为.答案0795
9.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取用分层抽样抽取.1)∵20100=15



7020
10=2=14=4
555
∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4.2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14.
3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.
10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.
总体容量为6+12+18=36.当样本容量是n时,由题意知,系统抽样的间隔为36,分n
nn
层抽样的比例是36,抽取工程师36×6=n(人)
6
n
抽取技术人员36×12=n(人)
3
n
抽取技工36×18=n(人).
2
所以n应是6的倍数,36的约数即n=6,12,18,36.
当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为n35,因1n35必须是整数,所以n只能取6,即样本容量为6.
1


总体分布的估计与总体特征数的估计





基础自测

1.一个容量为20的样本,已知某组的频率为,则该组的频数为.答案5
2.2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到
右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为.答案
3.在抽查产品的尺寸过程中,将其尺寸分成若干组,ab)是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h,则|a-b|=.答案m
h
4.2008·山东文,9从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为.
分数54321



人数2010303010
答案2
105

5.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为岁~18岁的男生体重(kg,得到频率分布直方图如下:

根据上图可得这100名学生中体重在[,)的学生人数是.答案40

典型例题:

1在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5130日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为234641,第三组的频数为12,请解答下列问题:
1)本次活动共有多少件作品参加评比



2)哪组上交的作品数量最多有多少件
3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高
1
1)第三组的频率为2344=
6415

又因为第三组的频数为12,∴参评作品数为12=60.
1
5
2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×
6
234641
=18(件).
51
3)第四组的获奖率是10=,第六组上交的作品数量为60×=3(件)
234641189
6
∴第六组的获奖率为2=,显然第六组的获奖率高.
39
414分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30min抽取一包产品,称其重量,分别记录抽查数据如下:
甲:10210199981039899乙:110115908575115110.1)这种抽样方法是哪一种2)将这两组数据用茎叶图表示;



3)将两组数据比较,说明哪个车间产品较稳定.
1)因为间隔时间相同,故是系统抽样.2茎叶图如
下:

5
3)甲车间:平均值:
x1
1=7
102+101+99+98+103+98+99=100方差:s2=17
102-1002+101-1002++99-1002
1]≈6.乙车间:
平均值:x2=17
110+115+90+85+75+115+110=100方差:s2=17
110-1002+115-1002++110-1002
2]≈4.x1=x2s21s22,∴甲车间产品稳定.
27
9
1113
14




练习:
1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是,,第一小组的频数为5.

1)求第四小组的频率;
2)参加这次测试的学生人数是多少
3)在这次测试中,学生跳绳次数的中位数落在第几小组内1)第四小组的频率=1-++=.(2设参加这次测试的学生人数是n,则有n=第一小组频数第一小组频率
=5÷=50(人).
3)因为×50=5,×50=15,×50=20,×50=10,即第一、第二、第三、第四小组的频数分别为5152010,所以学生跳绳次数的中位数落在第三小组内.




练习:

一、填空题
1.下列关于频率分布直方图的说法中不正确的是.①直方图的高表示取某数的频率
②直方图的高表示该组上的个体在样本中出现的频率③直方图的高表示该组上的个体数与组距的比值
④直方图的高表示该组上的个体在样本中出现的频率与组距的比值答案①②③
2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:68998;乙:107779.则这两人的射击成绩稳定.答案

4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.
设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y则从频率分布直方图中可分析出xy分别为.



答案,35

6.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图若甲、乙两人的平均成绩
分别是xx,则xx稳定.答案


7.(上海,9已知总体的各个体的值由小到大依次为2337ab12,,,20,且总体的中位数为.若要使该总体的方差最小,则ab的取值分别是.答案

二、解答题
10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示)图中从左到右各小长方形面积之比为24171593,第二小组频数为12.




1)第二小组的频率是多少样本容量是多少
2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少
3)在这次测试中,学生跳绳次数的中位数落在哪个小组内请说明理由.
1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:
4
24171593
=.
又因为频率=第二小组频数
样本容量
12
所以样本容量=第二小组频数==150.
第二小组频率0.08
2)由图可估计该学校高一学生的达标率约为
17159324171593
×100%=88%.
3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.





线性回归方程
基础自测

1.下列关系中,是相关关系的为(填序号).①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②
2.为了考察两个变量xy之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t
②直线l1,l2相交,但是交点未必是(s,t③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合



答案
3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度
③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:
①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
ˆx+aˆ,可以估计和预测变量的取值和变化趋势.ˆ=bˆ及回归系数b③通过回归直线y
其中正确命题的序号是.答案①②③
ˆ=x=25时,yˆ的估计值为.5.已知回归方程为y
答案





1下面是水稻产量与施化肥量的一组观测数据:施化肥量15202530354045
水稻产量3203303604104604704801)将上述数据制成散点图;
2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗水稻产量会一直随施化肥量的增加而增长吗1)散点图如下:

2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.
214分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出
的关系,该市统计部门随机调查了10个家庭,得数据如下:



家庭编号12345678910
xi(收入)










千元
yi(支出)










千元
1)判断家庭平均收入与月平均生活支出是否相关2)若二者线性相关,求回归直线方程.1)作出散点图:
5观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系.7
2x=1
10+++++++++=,
y=
1
10
+++++++++=9





ˆ=b
xynxy
iii1
n
n
6
x
i1
2i
nx2
ˆ=63a13
ˆ=6x+3.∴回归方程y14
3下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨)标准煤的几组对照数据.

x3456
y


34

1)请画出上表数据的散点图;
ˆx+aˆ=bˆ2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y
3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:3×+4×3+5×4+6×=1)散点图如下图:




562.5344.5
2x=34=,=y=44
xy
i1
4
ii
=3×+4×3+4×5+6×=.

i1
4
xi2
=32+42+52+62=86
bˆ=
xy
i1
4
ii
4xy

i1
4
xi24x2
=66.543.524.5=
8644.5
ˆx=所求的线性回归方程为yˆ=+.ˆ=y-ba
3)现在生产100吨甲产品用煤y=×100+=
∴降低=(标准煤.



1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,,并作了统计.











气温

748

542
507
813
574
701
432
1)试画出散点图;
2)判断两个变量是否具有相关关系.1)作出散点图如图所示,

(2由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:

温度(x010205070





y
由资料看yx呈线性相关,试求回归方程.x=30,y=66.776.085.50112.3128.0=.
ˆ=b
xy
i1
5
5
ii
5xy
9.
5x2
x
i1
2i
ˆx=9×30=.ˆ=y-ba
ˆ=9x+.∴回归方程为y

3.某企业上半年产品产量与单位成本资料如下:
月份产量(千件)单位成本(元)
1273
2372
3471
4373



5469
6

568
1)求出线性回归方程;
2)指出产量每增加1000件时,单位成本平均变动多少3)假定产量为6000件时,单位成本为多少元
6
6
1n=6xi=21yi=426x=,y=71,
i1
i1

i1
6
xi2
=79xiyi=1481
i1
6
ˆ=b
xy
i1
6
6
ii
6xy
=1
6x2
48163.5717963.52
=.
x
i1
2i
ˆx=71+×=.ˆ=y-ba
ˆx=2)因为单位成本平均变动bˆ=0,且产量x的计量单位是千件,ˆ=aˆ+b回归方程为y
所以根据回归系数b的意义有:
产量每增加一个单位即1000件时,单位成本平均减少元.(3当产量为6000件时,x=6,代入回归方程:



ˆ=(元)y
当产量为6000件时,单位成本为元.


一、填空题
1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序.

答案a,c,b
ˆ=,则下列说法正确的有.2.回归方程y
y=x
15是回归系数a③是回归系数ax=10时,y=0答案1



3.2009.湛江模拟)某地区调查了29岁儿童的身高,由此建立的身高y(cm与年龄
ˆ=+,下列叙述正确的是.x(的回归模型为y
①该地区一个10岁儿童的身高为cm②该地区29岁的儿童每年身高约增加cm③该地区9岁儿童的平均身高是cm
④利用这个模型可以准确地预算该地区每个29岁儿童的身高答案
4.三点(3107201124)的回归方程是.
ˆ=+答案y
5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,yx
ˆ=+.若该地区的人均消费水平为千元,估计该地区的人均相关关系,得到回归直线方程y
消费额占人均工资收入的百分比约为.答案83%
6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,xi=52,yi=228,=478,xiyi=1849,则其线性回归
xi2
i1
i1
8
8
88
i1i1
方程为.
ˆ=+答案y



7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是.答案①③④
8.已知关于某设备的使用年限x与所支出的维修费用y(万元),有如下统计资料:
使
2
x
3
4
5
6






y

ˆx+aˆ=bˆ表示的直线一定过定点.yx呈线性相关关系,则回归直线方程y
答案45二、解答题
9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:

A
学生
B
C
D
E



学科
数学8075706560
物理7066686462
1)数学成绩和物理成绩具有相关关系吗
2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点.1)数学成绩和物理成绩具有相关关系.
2)以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图如下:

由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近.10.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:
x
115
m
2
11080135105
销售价格y(


22


元)
1)画出数据对应的散点图;
2)求线性回归方程,并在散点图中加上回归直线.1)数据对应的散点图如图所示:

2x=109,y=,xi2=60975,
i1
5
x
i1
5
i
yi
=12952,
ˆ=b
xy
i1
5
5
ii
5xy
2
5x2
x
i1
2i
ˆx2ˆ=y-ba
∴所求回归直线方程为
ˆ=2x+2.y
11.某公司利润y与销售总额x(单位:千万元)之间有如下对应数据:



x10151720252832
y1

2

1)画出散点图;2)求回归直线方程;
3)估计销售总额为24千万元时的利润.1)散点图如图所示:

2x=1(10+15+17+20+25+28+32=21,
7
y=17
(1+++2+++=,
x
i17
7
2i
=102+152+172+202+252+282+322=3447,
x
i1
i
yi
=10×1+15×+17×+20×2+25×+28×+32×=,
ˆ=b
xy
i1
7
7
ii
7xy

i1
.1
=346.37212,2
3447721
xi27x2



ˆx=yˆˆ=y-bax=24(千万元)代入方程得,
ˆ=(千万元).y
∴估计销售总额为24千万元时,利润为千万元.
12.某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:
x24568
y

3040605070
1)画出散点图;2)求回归直线方程;
3)试预测广告费支出为10百万元时,销售额多大1)根据表中所列数据可得散点图如下:


2)列出下表,并用科学计算器进行有关计算:



i12345
xi24568
yi3040605070
xiyi

60160300300560
250
因此,x=25=5,=50,y=55

i1
5
xi2
=145,=13500,xiyi=1380.
yi2
i1
i1
55
于是可得:bˆ=
xy
i1
5
5
ii
5xy5x2
3805550=1145=;
555
x
i1
2i
ˆx=×5=.ˆ=y-ba
ˆ=+.因此,所求回归直线方程为:y
ˆ=×10+=(百万元3根据上面求得的回归直线方程,当广告费支出为10百万元时,y
即这种产品的销售收入大约为百万元.




§统计案例



基础自测
ˆx中,回归系数bˆ0的大小ˆ=aˆ+b1.对有线性相关关系的两个变量建立的回归直线方程y
关系为.(填序号)
①大于或小于②大于③小于④不小于答案
2.如果有90%的把握说事件AB有关系,那么具体计算出的数据2.(“>”,“<”,=”填空答案
3.对两个变量yx进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是.①模型Ⅰ的相关系数r②模型Ⅱ的相关系数r③模型Ⅲ的相关系数r④模型Ⅳ的相关系数r



答案
4.下列说法中正确的有:①若r0,则x增大时,y也相应增大;②若r0,则x增大时,y也相应增大;③若r=1r=-1,则xy的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.答案①③

114分)调查33950岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:


总计

管炎
吸烟43162205
不吸烟13121134
合计56283339
试问:1)吸烟习惯与患慢性气管炎是否有关2)用假设检验的思想给予证明.



1根据列联表的数据,得到

2
=
n(adbc2
(ab(ac(db(dc
2
339(43121162132=
20556283134
=6
所以有99%的把握认为“吸烟与患慢性气管炎有关”.92证明假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={2}≈,即A为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14

2一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:
转速x(/1614128

11
y(件)
9
8
5
1)对变量yx进行相关性检验;



2)如果yx有线性相关关系,求回归直线方程;
3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内1x=,y=,
4
x
i1
i
yi
=4384xy=

i1
4
xi2
=660yi2=291
i1
4
所以r=
(
xy
i1
4
ii
4xy
x
i1
4
2i
4x2(
y
i1
4

2i
4y2
==
438412.5
(660625(291272.2525.5656.25

.50254.25.62
因为r,所以yx有很强的线性相关关系.
ˆ=1.2y
ˆ110,3)要使y
所以x3.
所以机器的转速应控制在3/秒以下.





3下表是某年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,y表示相应的年均价格,求y关于x的回归方程.
使用年
1
x
2
3
4
5
6
7
8
9
10
年均价y元)
2
1
1
1
765538484290226204
651943494087
作出散点图如图所示.

可以发现,各点并不是基本处于一条直线附近,因此,yx之间应是非线性相关关系.
ˆˆˆx+aˆ=bˆ=ebxaˆ,则zˆ,题中与已学函数图象比较,用y来刻画题中模型更为合理,令zˆ=lny
数据变成如下表所示:



x12345678910
z

相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.

ˆ,由表中数据可得r.|r|.认为xz之间具有线性相关关系,由表中数据得bˆ,a
+
ˆ,yˆ=为所求.所以zˆ=+,最后回代zˆ=lny



1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:

不太主动参加班级

积极参加班级工作
工作
合计



学习积极性高18725
学习积极性一般61925
合计242650
1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少
2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系说明理由.
1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽
2412
到积极参加班级工作的学生的概率是P1=50=25又因为不太主动参加班级工作且学习
积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P2=19.
50
2)由2统计量的计算公式得2=50(181967≈,由于>,所以可以有%的把握认为
24262525
2
“学生的学习积极性与对待班级工作的态度有关系”.
2.某个体服装店经营某种服装,一周内获纯利y(元)与该周每天销售这种服装的件数x之间的一组数据如下:




x3456789
y

7
66697381899091
已知=280,=45309,xiyi=3487,此时=.
xi2
yi2
i1
i1
i1
77
1)求x,y;
2判断一周内获纯利润y与该周每天销售件数x之间是否线性相关,如果线性相关,求出回归直线方程.
1x=1(3+4+5+6+7+8+9=6,
7
y=17
(66+69+73+81+89+90+91.
7
7
7
(2根据已知=280,=45309,xiyi=3487,
xi2
yi2
i1
i1
i1
得相关系数r=
34877679.86(28076(45309779.86
2
2
.
由于>,所以纯利润y与每天销售件数x之间具有显著线性相关关系.利用已知数据可求得回归直线方程为
ˆ=+.y


3.某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:

x123510203050100200
y


检验每册书的成本费y与印刷册数的倒数1之间是否具有线性相关关系,如有,求出yxx的回归方程.
首先作变量置换,令u=1,题目所给数据变成如下表所示的10对数据:
x
u1

y

然后作相关性检验.经计算得r8>,从而认为uy之间性相关关系.
ˆ,ˆ,b由公式得a
线
ˆ=+,所以y
最后回代u=1,x
8.973ˆ=+可得y,
x



这就是题目要求的yx的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.



一、填空题
1.对于独立性检验,下列说法中正确的是.2的值越大,说明两事件相关程度越大2的值越小,说明两事件相关程度越小2≤时,有90%的把握说事件AB无关2>时,有99%的把握说事件AB有关答案①②④
2.工人月工资y(元)依劳动生产率x(千元)变化的回归方程为ˆy
=50+80x,下列判断正确的是.
①劳动生产率为1000元时,工资为130
②劳动生产率提高1000元时,工资平均提高80③劳动生产率提高1000元时,工资平均提高130④当月工资为210元时,劳动生产率为2000



答案
3.下面是2×2列联表:


y1y2合计
x1a2173
x2222547
合计b46120
则表中ab的值分别为.答案5274
4.实验测得四组(x,y的值为(12233445,则yx之间的回归直线方程为.
ˆ=x+1答案y
115.在一次试验中,当变量x的取值分别为1,1时,变量y的值分别为2345234
y1的回归曲线方程为.
x
1
ˆ=+1答案y
x
6.在一次对性别与说谎是否有关的调查中,得到如下数据:





说谎不说谎合计
6713
8917
合计141630
根据表中数据,得到如下结论中不正确的是.①在此次调查中有95%的把握认为是否说谎与性别有关②在此次调查中有99%的把握认为是否说谎与性别有关③在此次调查中有%的把握认为是否说谎与性别有关④在此次调查中没有充分的证据显示说谎与性别有关答案①②③
7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如2×2列联表:


理科文科



1310
720
已知P2≥)≈,P2≥)≈.
50(13201072
根据表中数据,得到=
23272030
2
.
则认为选修文科与性别有关系出错的可能性为.答案5%
8.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后14天的结果如下表所示:

死亡存活合计
第一种剂量141125
第二种剂量61925
合计203050
进行统计分析时的统计假设是:.答案小白鼠的死亡与剂量无关



二、解答题
9.在一次飞机航程中调查男女乘客的晕机情况,其二维条形图如图:1)写出2×2列联表;2)判断晕机与性别是否有关1

晕机不晕机合计
107080
102030
合计2090110
22=110(10207010≈>,故有%的把握认为“晕机与性别有关”.
20903080
2
10.某地10户家庭的年收入和年饮食支出的统计资料如下表:

年收入
2
x(万元)
4
4
6
6
6
7
7
8
10



支出y(万元)










1)根据表中数据,确定家庭的年收入和年饮食支出之间是否具有相关关系;若具有相关关系求出yx的回归直线
方程;
2)如果某家庭年收入为9万元,预测其年饮食支出.
1)由题意知,年收入x为解释变量,年饮食支出y为预报变量,作散点图(如图所示).从图中可以看出,样本点呈条状分
布,年收入和年饮食支出有比较好的线性相关关系,因此可以用回归直线方程刻画它们之间的关系.x=6y=
10
10
10

i1
xi2
=406
i1
yi2
=xiyi=
i1
ˆx=从而得到回归直线方程为yˆ=+.ˆ=y-bbˆ≈,a
ˆ=.因此,某家庭年收入9万元,其年饮食支出大约为万元.2)当x=9时,y
11.测得某国家10对父子身高(单位:英寸)如下:




60
高(x
62
64
65
66
67
68
70
72
74



66

70
高(y
1)对变量yx进行相关性检验;
2)如果yx之间具有线性相关关系,求回归直线方程;3)如果父亲的身高为73英寸,估计儿子的身高.1x=y=
10
10

i1
xi2
=44794yi2=44
i1
xy=4x2=4,
y
2
4,xiyi=44.
i1
10
所以r=
(
xy
i1
10
ii
10xy
x
i1
10
2i
10x2(
y
i1
10

2i
10y2
==

44842.4104476.27
(4479444622.4(44941.9344903.4

79.726611.748
4.


因为r,所以yx之间具有线性相关关系.
ˆxaˆbˆ.(2设回归直线方程为y
ˆb
xy
i1
10
10
ii
10xy10x2
842.444762.7=444479444622.4
x
i1
2i
79.72=1716.
.6
ˆx=6×≈7.ˆyba
ˆ=6x+7.故所求的回归直线方程为y
ˆ=6×73+7,(3x=73英寸时,y
所以当父亲身高为73英寸时,估计儿子的身高约为英寸.
12.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关你所得到的结论在什么范围内有效根据题目所给的数据作出如下的列联表:

色盲不色盲合计
38442480
6514520



合计449561000
根据列联表作出相应的二维条形图:

386
从二维条形图来看,在男人中患色盲的比例为480,要比女人中患色盲的比例520.
其差值为
386
480520
≈,差值较大.
因而,我们可以认为“患色盲与性别是有关的”.根据列联表所给的数据可以有
a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1000,
n(adbc2
=
(ab(cd(ac(bd
2

1000(3851464422=
48052044956
.
由>,所以我们有%的把握认为患色盲与性别有关系,这个结论只对所调查的480名男人和520名女人有效.

单元检测十一


本文来源:https://www.2haoxitong.net/k/doc/c0457ec0b5daa58da0116c175f0e7cd185251804.html

《统计案例分析及典型例题.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式