统计学期末复习

发布时间:2020-08-21 01:48:00   来源:文档文库   
字号:

2、解释分类数据、顺序数据、数值型数据的含义

分类数据,是只能归于某一类别的非数字型数据,他是对数据分类的结果,数据表现为类别,是用文字表述的。

顺序数据,是只能归于某一有序别的非数字型数据。

数字型数据,是按数字尺度测量的观察值,其结果表现为具体的数值。

2、按照统计数据的收集方法,可以将其分为观测数据和实验数据。(会区分)

观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。

实验数据:是在实验中控制实验对象而收集的数据

6、非抽样误差的类型有?

(1)抽样框误差(2)回答误差(3)无回答误差(4)调查员误差(5)测量误差

8、直方图与条形图有何区别

区别:1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。2)由于分组数据具有连续性,直方图的各矩形通常是连续排练,而条形图则是分开排列。3)条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

9、饼图和环形图有什么不同

饼图是用圆形及圆内扇形的面积来表示数值大小的图形,它主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。

环形图与饼图类似,但它们之间也有区别。环形图中间有一个“空洞”,总体或样本中的每一部分数据由环中的一段表示。饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于我们进行比较研究。

13、简述中心极限定理的内容

设从均值为μ、方差为σ²(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值¯的抽样分布近似服从均值为μ、方差为σ²/n的正态分布。

14、假设检验和参数估计有什么相同点和不同点?

解:参数估计与假设检验是统计推断的两个组成部分。

相同点:它们都是利用样本对总体进行某种推断。

不同点:推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在假设检验中,则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。

15、置信区间的理解,有以下几点需要注意:

1)如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平的95%的置信区间。

16简述评价估计量好坏的标准

1)无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。

2)有效性:是指估计量的方差尽可能小。对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。

3)一致性:是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。

17、简述样本量与置信水平、总体方差、估计误差的关系。

1)估计总体均值时样本量n

2)样本量n与置信水平1-α、总体方差、估计误差E之间的关系为

置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量越大;

与总体方差成正比,总体的差异越大,所要求的样本量也越大;

与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量越小。

18、从一个标准差为5的总体中采用重复抽样方法抽出一个样本量为40的样本,样本均差为251)样本均值的抽样标准差等于多少?

2)在95%的置信水平下,估计误差是多少?

解: 1 已知σ = 5n = 40 = 25

= 5 /√40 0.79

2 已知

估计误差 E = 1.96×5÷√40 1.55

19、某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克,现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量如下:

已知食品包重服从正态分布,要求:

1)确定该种食品平均重量的95%的置信区间。

2)如果规定食品重量低于100克属于不合格,确定该批食品合格率的95%的置信区间。

解: 1)本题为一个大样本正态分布,σ未知。已知N=50µ =1001-α=0.95

每组组中值分别为9799101103105,即此50包样本平均值= 97+99+101+103+105/5 = 101

样本标准差为:

= √{(97-101)²×2+(99-101)²×3+(101-101)²×34+(103-101)²×7+(105-101)²×4}÷(50-1 1.666

其置信区间为:101±1.96×1.666÷√50=100.87,101.77)

2)∵ 不合格包数(<100克)为2+3=5包,5/50 = 10%(不合格率),即P = 90%

该批食品合格率的95%置信区间为:

= 0.9 ±1.96×√(0.9×0.1)÷50= 0.9 ±1.96×0.042

=0.82,0.98

20、某居民小区共有居民500户,小区管理者准备采用一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞同,18户反对。

1)求总体中赞成该项改革的户数比例的置信区间(α=0.05

2)如果小区管理者预计赞成的比例能达到80%,估计误差不超过10%,应抽取多少户进行调查(α=0.05

1N=50P=32/50=0.64α=0.05α/2 =0.025 ,则1.96

置信区间:P±√{P1-P/N= 0.64±1.960.64×0.36/50

= 0.64±1.96×0.48/7.07=0.64±0.133=(0.507,0.773)

2)已知丌=0.8 , E = 0.1, α=0.05,α/2 =0.025 ,则1.96

N= ²丌(1-)/E²= 1.96²×0.8×0.2÷0.1²≈62

21、左单侧检验(下限检验)H。:u1000,H1u1000(越大越好)

右单侧检验(上限检验)H。:u5%H1:u5%(越小越好)

22、已知某炼铁厂的含碳量服从正态分布N4.550.108²),现在测定了9炉铁水,其平均含碳量为4.484。如果估计方差没有变化,可否认为现在生产的铁水平均含碳量为4.55(α=0.05)? 已知μ0=4.55,σ²=0.108²,n=9=4.484

这里采用双侧检验,小样本,σ已知,使用Z统计。

假定现在生产的铁水平均含碳量与以前无显著差异。则

H0 :μ =4.55 H1 :μ 4.55

ɑ=0.05,α/2 =0.025 ,查表得临界值为1.96

计算检验统计量:

= (4.484-4.55)/(0.108/9)

= -1.833

决策:∵Z值落入接受域,∴在 =0.05的显著性水平上接受H。。

结论:有证据表明现在生产的铁水平均含碳量与以前没有显著差异,可以认为现在生产的铁水平均含碳量为4.55

23、某地区小麦的一般生产水平为亩产250公斤,其标准差是30公斤。现用一种化肥进行试验,从25个小区抽样,平均产量为270公斤。这种化肥是否使小麦明显增产(α=0.05)?

解:已知μ0 =250,σ = 30N=25=270

这里是小样本分布,σ已知,用Z统计量。右侧检验,α =0.05,则Zα=1.645

提出假设:假定这种化肥没使小麦明显增产。

H0:μ≤250

H1: μ 250

计算统计量: Z = -μ0/(σ/N= 270-250/30/25= 3.33

结论:Z统计量落入拒绝域,在α =0.05的显著性水平上,拒绝H0,接受H1

决策:有证据表明,这种化肥可以使小麦明显增产。

24、相关分析就是对两个变量之间线性关系的描述与度量,它主要解决的问题包括:

1)变量之间是否存在关系?

2)如果存在关系,它们之间是什么样的关系?

3)变量之间的关系强度如何?

4)样本所反映的变量之间的关系能否代表总体变量之间的关系?

25、简述相关系数的性质。

1r的取值范围是[-1,1],即-1r1

2r具有对称性。

3r的数值大小与xy的原点及尺度无关。

4)r仅仅是xy之间线性关系的一个度量,它不能用于描述非线性关系。

(5)r虽然是两个变量之间线性关系的一个度量,去不一定意味着xy一定有因果关系。

26、回归分析主要解决以下几个方面的问题:

1)从一组样本数据出发,确定变量之间的数学关系式。

2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。

3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。

本文来源:https://www.2haoxitong.net/k/doc/3d94d06c453610661ed9f4fc.html

《统计学期末复习.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式