统计学第三版答案
第一章
1. 什么是统计学?怎样理解统计学与统计数据的关系?
答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。
2.简要说明统计数据的来源
答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。
3.简要说明抽样误差和非抽样误差
答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品
(2)变量:口味(如可用10分制表示)
(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。
(4)从匹配样本的观察值中推断两品牌口味的相对好坏。
第二章、统计数据的描述
思考题
1描述次数分配表的编制过程
答:分二个步骤:
(1) 按照统计研究的目的,将数据按分组标志进行分组。
按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。
按数量标志进行分组,可分为单项式分组与组距式分组
单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。
统计分组应遵循“不重不漏”原则
(2) 将数据分配到各个组,统计各组的次数,编制次数分配表。
2.解释洛伦兹曲线及其用途
答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。
3. 一组数据的分布特征可以从哪几个方面进行测度?
答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。
4 怎样理解均值在统计中的地位?
答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,
具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。
5 对比率数据的平均,为什么采用几何平均?
答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。
6. 简述众数、中位数和均值的特点和应用场合。
答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。
7 为什么要计算离散系数?
答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。
练习题:
1. 频数分布表如下:
服务质量等级评价的频数分布
服务质量等级 | 家庭数(频率) | 频率% |
A | 14 | 14 |
B | 21 | 21 |
C | 32 | 32 |
D | 18 | 18 |
E | 15 | 15 |
合计 | 100 | 100 |
条形图(略)
2 (1)采用等距分组:
n=40 全距=152-88=64 取组距为10
组数为 64/10=6.4 取6组
频数分布表如下:
40个企业按产品销售收入分组表
按销售收入分组 (万元) | 企业数 (个) | 频率 (%) | 向上累积 | 向下累积 | ||
企业数 | 频率 | 企业数 | 频率 | |||
100以下 100~110 110~120 120~130 130~140 140以上 | 5 9 12 7 4 3 | 12.5 22.5 30.0 17.5 10.0 7.5 | 5 14 26 33 37 40 | 12.5 35.0 65.0 82.5 92.5 100.0 | 40 35 26 14 7 3 | 100.0 87.5 65.0 35.0 17.5 7.5 |
合计 | 40 | 100.0 | — | — | — | — |
(2) 某管理局下属40个企分组表
按销售收入分组(万元) | 企业数(个) | 频率(%) |
先进企业 良好企业 一般企业 落后企业 | 11 11 9 9 | 27.5 27.5 22.5 22.5 |
合计 | 40 | 100.0 |
3 采用等距分组
全距=49-25=24
n=40 取组距为5,则组数为 24/5=4.8 取5组
频数分布表:
按销售额分组(万元) | 频数(天数) |
25-30 30-35 35-40 40-45 45-50 | 4 6 15 9 6 |
合计 | 40 |
4. .(1)排序略。
(2)频数分布表如下:
100只灯泡使用寿命非频数分布
按使用寿命分组(小时) | 灯泡个数(只) | 频率(%) |
650~660 | 2 | 2 |
660~670 | 5 | 5 |
670~680 | 6 | 6 |
680~690 | 14 | 14 |
690~700 | 26 | 26 |
700~710 | 18 | 18 |
710~720 | 13 | 13 |
720~730 | 10 | 10 |
730~740 | 3 | 3 |
740~750 | 3 | 3 |
合计 | ||
直方图(略)。
(3)茎叶图如下:
65 | 1 | 8 | ||||||||||||||||||||||||
66 | 1 | 4 | 5 | 6 | 8 | |||||||||||||||||||||
67 | 1 | 3 | 4 | 6 | 7 | 9 | ||||||||||||||||||||
68 | 1 | 1 | 2 | 3 | 3 | 3 | 4 | 5 | 5 | 5 | 8 | 8 | 9 | 9 | ||||||||||||
69 | 0 | 0 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 3 | 3 | 4 | 4 | 5 | 5 | 6 | 6 | 6 | 7 | 7 | 8 | 8 | 8 | 8 | 9 | 9 |
70 | 0 | 0 | 1 | 1 | 2 | 2 | 3 | 4 | 5 | 6 | 6 | 6 | 7 | 7 | 8 | 8 | 8 | 9 | ||||||||
71 | 0 | 0 | 2 | 2 | 3 | 3 | 5 | 6 | 7 | 7 | 8 | 8 | 9 | |||||||||||||
72 | 0 | 1 | 2 | 2 | 5 | 6 | 7 | 8 | 9 | 9 | ||||||||||||||||
73 | 3 | 5 | 6 | |||||||||||||||||||||||
74 | 1 | 4 | 7 | |||||||||||||||||||||||
5 等距分组
n=65 全距=9-(-25)=34 取组距为5,组数=34/5=6.8, 取 7组
频数分布表:
按气温分组 | 天数 |
-25 --- -20 -20 --- -15 -15 --- -10 -10 --- -5 -5 --- 0 0 --- 5 5 --- 10 | 8 8 10 14 14 4 7 |
合计 | 65 |
7 (1)茎叶图如下:
A班 | 树茎 | B班 | ||
数据个数 | 树 叶 | 树叶 | 数据个数 | |
0 | 3 | 59 | 2 | |
1 | 4 | 4 | 0448 | 4 |
2 | 97 | 5 | 122456677789 | 12 |
11 | 97665332110 | 6 | 011234688 | 9 |
23 | 98877766555554443332100 | 7 | 00113449 | 8 |
7 | 6655200 | 8 | 123345 | 6 |
6 | 632220 | 9 | 011456 | 6 |
0 | 10 | 000 | 3 | |
(3) A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低
8. 箱线图如下:(特征请读者自己分析)
9.(1)=274.1(万元);Me =272.5 ;QL=260.25;QU =291.25。
(2)(万元)。
10.甲企业平均成本=19.41(元),
乙企业平均成本=18.29(元);
原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
11.=426.67(万元);
=116.48(万元)
13(1)离散系数,因为它消除了不同组数据水平高低的影响。
(2)成年组身高的离散系数:;
幼儿组身高的离散系数:;
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
14 .表给出了一些主要描述统计量
方法A | 方法B | 方法C | |||
平均 | 165.6 | 平均 | 128.73 | 平均 | 125.53 |
中位数 | 165 | 中位数 | 129 | 中位数 | 126 |
众数 | 164 | 众数 | 128 | 众数 | 126 |
标准偏差 | 2.13 | 标准偏差 | 1.75 | 标准偏差 | 2.77 |
极差 | 8 | 极差 | 7 | 极差 | 12 |
最小值 | 162 | 最小值 | 125 | 最小值 | 116 |
最大值 | 170 | 最大值 | 132 | 最大值 | 128 |
先考虑平均指标,在平均指标相近时考虑离散程度指标。
应选择方法A,其均值远高于其他两种方法,同时离散程度与其他两组相近。
15.(1)风险的度量是一个不断发展的问题,在古典金融理论中,主要采用标准差这个统计测度来反映,现代金融中,采用在险值(value at risk)。
(2)无论采用何种风险度量,商业类股票较小
(3)个人对股票的选择,与其风险偏好等因素有关。
第四章
1.总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象。从总体中随机抽取容量为n的样本,它的分布称为样本分布。由样本的某个函数所形成的统计量,它的分布称为抽样分布(如样本均值、样本方差的分布)
2.重复抽样和不重复抽样下,样本均值的标准差分别为:
因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数
3.解释中心极限定理的含义
答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。
第四章、参数估计
1. 简述评价估计量好坏的标准
答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数的估计量有和,如果,称是无偏估计量;如果和是无偏估计量,且小于,则比更有效;如果当样本容量,,则是相合估计量。
2.说明区间估计的基本原理
答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。
3.解释置信水平为95%的置信区间的含义
答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。
4.简述样本容量与置信水平、总体方差、允许误差的关系
答:以估计总体均值时样本容量的确定公式为例:
样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。
2. 解:由题意:样本容量为
(1) 若
(2)
(3) 若
2. 解:由题可得:
尽管采用不重复抽样,但因为样本比例很小(不到0.5%),其抽样误差与重复抽样下近似相同,采用重复抽样的抽样误差公式来计算。
为大样本,则在的显著性水平下的置信区间为:
当,置信区间为(2.88,3.76)
当,置信区间为(2.80,3.84)
当,置信区间为(2.63,4.01)
5解:假设距离服从正态分布,
平均距离的95%的置信区间为=(7.18,11.57)
7解:由题意:。
因为均超过5,大样本
(1)总体中赞成比率的显著性水平为的置信区间为
当时,
置信区间为(50.7%,77.3%)
(2)如果要求允许误差不超过10%,置信水平为95%,则应抽取的户数:
8.此题需先检验两总体的方差是否相等:
在5%的显著性水平下,
,不拒绝原假设
认为两总体方差是相同的。
(1)
即(1.93,17.669)
(2)
即(0.27,19.32)
11.大样本的情况
(1)90%置信度下
(3.021%,16.979)
(2)95%置信度下
(1.684%,18.316%)
12.解:由题可计算:
两个总体方差比在95%的置信区间为:
14.解:由题意:
则必须抽取的顾客数为:
第五章、假设检验
思考题
1.1.理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则.
答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有:
(1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假设。再确定原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。
2.第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?
答:第类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为。第类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为。在其他条件不变时,增大,减小;增大,减小。
3.什么是显著性水平?它对于假设检验决策的意义是什么?
答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。
4.什么是p值?p值检验和统计量检验有什么不同?
答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平,来控制犯第一类错误的上限,p值可以有效地补充提供地关于检验可靠性的有限信息。值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。
5.什么是统计上的显著性?
答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“非偶然的
练习题
3.解(1)第一类错误是,供应商提供的炸土豆片的平均重量不低于60克,但店方拒收并投诉。
(2)第二类错误是,供应商提供的炸土豆片的平均重量低于60克,但店方没有拒收。
(3)顾客会认为第二类错误很严重,而供应商会将第一类错误看得较严重。
4.解:提出假设
已知
(1) 检验统计量为
(2) 拒绝规则是:若,拒绝;否则,不拒绝
(3) 由得:,拒绝,认为改进工艺能提高其平均强度。
5解: 设为如今每个家庭每天收看电视的平均时间(小时)
需检验的假设为:
调查的样本为:
大样本下检验统计量为:
在0.01的显著性水平下,右侧检验的临界值为
因为,拒绝,可认为如今每个家庭每天收看电视的平均时间增加了
6. 解:提出假设
已知:
检验统计量
拒绝,可判定电视使用寿命的方差显著大于VCR
7. 解:提出假设:
,独立大样本,则检验统计量为:
而2.33 因为,拒绝,平均装配时间之差不等于5分钟
8. 解:匹配小样本 提出假设:
由计算得:,检验统计量为
,不拒绝,不能认为广告提高了潜在购买力的平均得分。
9. 解:提出假设:
已知:
大样本,则检验统计量为:
而,因为,拒绝,可认为信息追求者消极度假的比率显著小于非信息追求者。
10. 解:提出假设:
由题计算得:
检验统计量为:,而
,所以拒绝,认为两种机器的方差存在显著差异。
第七章 相关与回归分析
思考题
1. 相关分析与回归分析的区别与联系是什么?
答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。
3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?
答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:,或。总体回归函数是确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估计出的因变量与自变量之间的函数关系:或。回归分析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数是确定的,而样本回归函数的系数是随机变量;总体回归函数中的误差项不可观察的,而样本回归函数中的残差项是可以观察的。
4. 什么是随机误差项和残差?它们之间的区别是什么?
答:随机误差项表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:
5.为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?
答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是BLUE。
15. .为什么在多元回归中要对可决系数进行修正?
答:在样本容量一定下,随着模型中自变量个数的增加,可决系数会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。
16.在多元线性回归中,对参数作了t检验后为什么还要作方差分析和F检验?
答:t检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和F检验就是对回归方程的整体统计显著性进行的检验方法。
练习题
1. 解:设简单线性回归方程为:
(1) 采用OLS估计:
回归系数经济意义:销售收入每增加1万元,销售成本会增加0.786万元。
(2) 可决系数为:
回归标准误:
(3) 检验统计量为:
所以是显著不为零
(4) 预测:
95%的预测区间为:
即( 664.579 ,674.153)
2.
(1)
(2)负相关关系
(3)
(4)估计的斜率系数为-7.0414,表示航班的正点率每提高1%,百万名乘客的投诉次数会下降:7.0414*0.01=0.070414次。
(5)如果,则次
3.
Results of multiple regression for y | |||||||
Summary measures | |||||||
Multiple R | 0.9521 | ||||||
R-Square | 0.9065 | ||||||
Adj R-Square | 0.8910 | ||||||
StErr of Est | 3.3313 | ||||||
ANOVA Table | |||||||
Source | df | SS | MS | F | p-value | ||
Explained | 3 | 1937.7485 | 645.9162 | 58.2048 | 0.0000 | ||
Unexplained | 18 | 199.7515 | 11.0973 | ||||
Regression coefficients | |||||||
Coefficient | Std Err | t-value | p-value | Lower limit | Upper limit | ||
Constant | 32.9931 | 3.1386 | 10.5121 | 0.0000 | 26.3991 | 39.5870 | |
x1 | 0.0716 | 0.0148 | 4.8539 | 0.0001 | 0.0406 | 0.1026 | |
x2 | 16.8727 | 3.9956 | 4.2228 | 0.0005 | 8.4782 | 25.2671 | |
x3 | 17.9042 | 4.8869 | 3.6637 | 0.0018 | 7.6372 | 28.1711 | |
4.
5.
7. 解
(1)样本容量:
(2)
(3)
(4),
(5)用F检验:,
整体对有显著影响,但不能确定单个对y的贡献。
本文来源:https://www.2haoxitong.net/k/doc/d2135603e87101f69e31955e.html
文档为doc格式