4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:
2 4 7 10 10 10 12 12 14 15
要求:(1)计算汽车销售量的众数、中位数和平均数。(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。 (4)说明汽车销售量分布的特征。
解:
Statistics | ||
汽车销售数量 | ||
N | Valid | 10 |
Missing | 0 | |
Mean | 9.60 | |
Median | 10.00 | |
Mode | 10 | |
Std. Deviation | 4.169 | |
Percentiles | 25 | 6.25 |
50 | 10.00 | |
75 | 12.50 | |
4.2 随机抽取25个网络用户,得到他们的年龄数据如下:
19 | 15 | 29 | 25 | 24 |
23 | 21 | 38 | 22 | 18 |
30 | 20 | 19 | 19 | 16 |
23 | 27 | 22 | 34 | 24 |
41 | 20 | 31 | 17 | 23 |
要求;(1)计算众数、中位数:
1、排序形成单变量分值的频数分布和累计频数分布:
网络用户的年龄 | |||||
| Frequency | Percent | Cumulative Frequency | Cumulative Percent | |
Valid | 15 | 1 | 4.0 | 1 | 4.0 |
16 | 1 | 4.0 | 2 | 8.0 | |
17 | 1 | 4.0 | 3 | 12.0 | |
18 | 1 | 4.0 | 4 | 16.0 | |
19 | 3 | 12.0 | 7 | 28.0 | |
20 | 2 | 8.0 | 9 | 36.0 | |
21 | 1 | 4.0 | 10 | 40.0 | |
22 | 2 | 8.0 | 12 | 48.0 | |
23 | 3 | 12.0 | 15 | 60.0 | |
24 | 2 | 8.0 | 17 | 68.0 | |
25 | 1 | 4.0 | 18 | 72.0 | |
27 | 1 | 4.0 | 19 | 76.0 | |
29 | 1 | 4.0 | 20 | 80.0 | |
30 | 1 | 4.0 | 21 | 84.0 | |
31 | 1 | 4.0 | 22 | 88.0 | |
34 | 1 | 4.0 | 23 | 92.0 | |
38 | 1 | 4.0 | 24 | 96.0 | |
41 | 1 | 4.0 | 25 | 100.0 | |
Total | 25 | 100.0 |
|
| |
从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。
(2)根据定义公式计算四分位数。 Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25
和27都只有一个,因此Q3也可等于25+0.75×2=26.5。
(3)计算平均数和标准差; Mean=24.00;Std. Deviation=6.652
(4)计算偏态系数和峰态系数: Skewness=1.080;Kurtosis=0.773
(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。
为分组情况下的直方图:
为分组情况下的概率密度曲线:
分组:
1、确定组数:,取k=6
2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取5
3、分组频数表
网络用户的年龄 (Binned) | |||||
| Frequency | Percent | Cumulative Frequency | Cumulative Percent | |
Valid | <= 15 | 1 | 4.0 | 1 | 4.0 |
16 - 20 | 8 | 32.0 | 9 | 36.0 | |
21 - 25 | 9 | 36.0 | 18 | 72.0 | |
26 - 30 | 3 | 12.0 | 21 | 84.0 | |
31 - 35 | 2 | 8.0 | 23 | 92.0 | |
36 - 40 | 1 | 4.0 | 24 | 96.0 | |
41+ | 1 | 4.0 | 25 | 100.0 | |
Total | 25 | 100.0 |
|
| |
分组后的均值与方差:
Mean | 23.3000 |
Std. Deviation | 7.02377 |
Variance | 49.333 |
Skewness | 1.163 |
Kurtosis | 1.302 |
分组后的直方图:
4.6 在某地区抽取120家企业,按利润额进行分组,结果如下:
按利润额分组(万元) | 企业数(个) |
200~300 300~400 400~500 500~600 600以上 | 19 30 42 18 11 |
合 计 | 120 |
要求:(1)计算120家企业利润额的平均数和标准差。 (2)计算分布的偏态系数和峰态系数。
解:
Statistics | ||
企业利润组中值Mi(万元) | ||
N | Valid | 120 |
Missing | 0 | |
Mean | 426.6667 | |
Std. Deviation | 116.48445 | |
Skewness | 0.208 | |
Std. Error of Skewness | 0.221 | |
Kurtosis | -0.625 | |
Std. Error of Kurtosis | 0.438 | |
4.9 一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想?
解:应用标准分数来考虑问题,该应试者标准分数高的测试理想。
ZA===1;ZB===0.5 因此,A项测试结果理想。
4.11 对10名成年人和10名幼儿的身高进行抽样调查,结果如下:
成年组 | 166 169 l72 177 180 170 172 174 168 173 |
幼儿组 | 68 69 68 70 7l 73 72 73 74 75 |
要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么?
均值不相等,用离散系数衡量身高差异。
(2)比较分析哪一组的身高差异大?
成年组 | 幼儿组 | ||
平均 | 172.1 | 平均 | 71.3 |
标准差 | 4.201851 | 标准差 | 2.496664 |
离散系数 | 0.024415 | 离散系数 | 0.035016 |
幼儿组的身高差异大。
7.3从一个总体中随机抽取n=100的随机样本,得到x=104560,假定总体标准差σ=86414,构建总体均值μ的95%的置信区间。解: 已知n =100, =104560,σ = 85414,1- =95% ,
由于是正态总体,且总体标准差已知。总体均值 在1- 置信水平下的置信区间为
104560 ± 1.96×85414÷√100= 104560 ±16741.144
7.4 从总体中抽取一个n=100的简单随机样本,得到=81,s=12。
样本均值服从正态分布:或置信区间为:, ==1.2
(1)构建的90%的置信区间。==1.645,置信区间为:(81-1.645×1.2,81+1.645×1.2)=(79.03,82.97)
(2)构建的95%的置信区间。==1.96,置信区间为:(81-1.96×1.2,81+1.96×1.2)=(78.65,83.35)
(3)构建的99%的置信区间。==2.576,置信区间为:(81-2.576×1.2,81+2.576×1.2)=(77.91,84.09)
7.5利用下面的信息,构建总体均值的置信区间
(1)=25,σ=3.5,n=60,置信水平为95% (2)=119.6,s=23.89,n=75,置信水平为95%
(3)=3.419,s=0.974,n=32,置信水平为90%
解:∵
∴ 1) 1- =95% , 其置信区间为:25±1.96×3.5÷√60= 25±0.885
2) 1- =98% ,则 =0.02, /2=0.01, 1- /2=0.99,查标准正态分布表,可知: 2.33
其置信区间为: 119.6±2.33×23.89÷√75= 119.6±6.345
3) 1- =90%,1.65 其置信区间为: 3.149±1.65×0.974÷√32= 3.149±0.284
7.7 某大学为了解学生每天上网的时间,在全校7 500名学生中采取重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据
3.3 | 3.1 | 6.2 | 5.8 | 2.3 | 4.1 | 5.4 | 4.5 | 3.2 |
4.4 | 2.0 | 5.4 | 2.6 | 6.4 | 1.8 | 3.5 | 5.7 | 2.3 |
2.1 | 1.9 | 1.2 | 5.1 | 4.3 | 4.2 | 3.6 | 0.8 | 1.5 |
4.7 | 1.4 | 1.2 | 2.9 | 3.5 | 2.4 | 0.5 | 3.6 | 2.5 |
求该校大学生平均上网时间的置信区间,置信水平分别为95%。
解:(1)样本均值=3.32,样本标准差s=1.61;
(2)抽样平均误差: 重复抽样: ==1.61/6=0.268
不重复抽样: ==
=0.268×=0.268×0.998=0.267
(3)置信水平下的概率度: =0.95,t===1.96
(4)边际误差(极限误差): =0.95, =
重复抽样: ==1.96×0.268=0.525
不重复抽样: ==1.96×0.267=0.523
(5)置信区间: =0.95,
重复抽样: ==(2.79,3.85)
不重复抽样: ==(2.80,3.84)
7.8从一个正态总体中随机抽取样本量为8的样本,各样本值分别为:10、8、12、15、6、13、5、11.,求总体均值μ的95%的置信区间
解:本题为一个小样本正态分布,σ未知。 先求样本均值: = 80÷8=10
再求样本标准差:= √84/7 = 3.4641
于是 , μ的置信水平为1-α的置信区间是 ,
已知1-α=25,n = 8,则α=0.05,α/2=0.025,查自由度为n-1 = 7的 分布表得临界值 2.45
所以,置信区间为: 10±2.45×3.4641÷√7
7.11 某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得
每包重量(g) | 包数 |
96~98 98~100 100~102 102~104 104~106 | 2 3 34 7 4 |
合计 | 50 |
已知食品包重量服从正态分布,要求:
(1)确定该种食品平均重量的95%的置信区间。 解:大样本,总体方差未知,用z统计量
样本均值=101.4,样本标准差s=1.829
置信区间: =0.95, ==1.96
==(100.89,101.91)
(2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95%的置信区间。
解:总体比率的估计大样本,总体方差未知,用z统计量
样本比率=(50-5)/50=0.9
置信区间: =0.95, ==1.96
= =(0.8168,0.9832)
7.18某小区共有居民500户,小区管理着准备采用一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。
(1)求总体中赞成该项改革的户数比例的置信区间
(2)若小区管理者预计赞成的比例能达到80%,估计误差不超过10%,应抽取多少户进行调查?
解:1)已知N=50,P=32/50=0.64,α=0.05,α/2 =0.025 ,则1.96
置信区间:P±√{P(1-P)/N}= 0.64±1.96√0.64×0.36/50= 0.64±1.96×0.48/7.07=0.64±0.133
2)已知丌=0.8 , E = 0.1, α=0.05,α/2 =0.025 ,则1.96
N= ²丌(1-丌)/E²= 1.96²×0.8×0.2÷0.1²≈62
8.1已知某炼铁厂的含碳量服从正态分布N(4.55,0.108²),现在测定了9炉铁水,其平均含碳量为4.484,如果估计方差没有变化,可否认为现在生产的铁水平均含碳量为4.55?
解: 已知μ0=4.55,σ²=0.108²,N=9,=4.484,
这里采用双侧检验,小样本,σ已知,使用Z统计。 假定现在生产的铁水平均含碳量与以前无显著差异。则,
H0 :μ =4.55 ; H1 :μ ≠4.55 α=0.05,α/2 =0.025 ,查表得临界值为1.96
计算检验统计量: = (4.484-4.55)/(0.108/√9)= -1.833
决策:∵Z值落入接受域,∴在 =0.05的显著性水平上接受H0。
结论:有证据表明现在生产的铁水平均含碳量与以前没有显著差异,可以认为现在生产的铁水平均含碳量为4.55。
8.2 一种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。已知该元件寿命服从正态分布,=60小时,试在显著性水平0.05下确定这批元件是否合格。
解:H0:μ≥700;H1:μ<700 已知:=680 =60
由于n=36>30,大样本,因此检验统计量: ==-2
当α=0.05,查表得=1.645。因为z<-,故拒绝原假设,接受备择假设,说明这批产品不合格。
8.3某地区小麦的一般生产水平为亩产250公斤,其标准差为30公斤,先用一种花费进行试验,从25个小区抽样,平均产量为270公斤。这种化肥是否使小麦明显增产?
解:已知μ0 =250,σ = 30,N=25, =270 这里是小样本分布,σ已知,用Z统计量。右侧检验,α =0.05,则Zα=1.645
提出假设:假定这种化肥没使小麦明显增产。 即 H0:μ≤250 H1: μ > 250
计算统计量: Z = (-μ0)/(σ/√N)= (270-250)/(30/√25)= 3.33
结论:Z统计量落入拒绝域,在α =0.05的显著性水平上,拒绝H0,接受H1。
决策:有证据表明,这种化肥可以使小麦明显增产。
10..1从3个总体中各抽取容量不同的样本数据,结果如下。检验3个总体的均值之间是否有显著差异
方差分析:单因素方差分析 | ||||||
SUMMARY | ||||||
组 | 观测数 | 求和 | 平均 | 方差 | ||
样本1 | 5 | 790 | 158 | 61.5 | ||
样本2 | 4 | 600 | 150 | 36.66667 | ||
样本3 | 3 | 507 | 169 | 121 | ||
方差分析 | ||||||
差异源 | SS | df | MS | F | P-value | F crit |
组间 | 618.9167 | 2 | 309.4583 | 4.6574 | 0.040877 | 8.021517 |
组内 | 598 | 9 | 66.44444 | |||
总计 | 1216.917 | 11 |
|
|
|
|
10.。2下面是来自5个总体的样本数据
方差分析:单因素方差分析 | ||||||
SUMMARY | ||||||
组 | 观测数 | 求和 | 平均 | 方差 | ||
样本1 | 3 | 37 | 12.33333 | 4.333333 | ||
样本2 | 5 | 50 | 10 | 1.5 | ||
样本3 | 4 | 48 | 12 | 0.666667 | ||
样本 | 5 | 80 | 16 | 1.5 | ||
样本5 | 6 | 78 | 13 | 0.8 | ||
方差分析 | ||||||
差异源 | SS | df | MS | F | P-value | F crit |
组间 | 93.76812 | 4 | 23.44203 | 15.82337 | 1.02E-05 | 4.579036 |
组内 | 26.66667 | 18 | 1.481481 | |||
总计 | 120.4348 | 22 |
|
|
|
|
10.3 一家牛奶公司有4台机器装填牛奶,每桶的容量为4L。下面是从4台机器中抽取的样本数据:
机器l | 机器2 | 机器3 | 机器4 |
4.05 | 3.99 | 3.97 | 4.00 |
4.01 | 4.02 | 3.98 | 4.02 |
4.02 | 4.01 | 3.97 | 3.99 |
4.04 | 3.99 | 3.95 | 4.0l |
4.00 | 4.00 | ||
4.00 | |||
取显著性水平a=0.01,检验4台机器的装填量是否相同?
解:不相同。
ANOVA | |||||
每桶容量(L) | |||||
| 平方和 | df | 均方 | F | 显著性 |
组间 | 0.007 | 3 | 0.002 | 8.721 | 0.001 |
组内 | 0.004 | 15 | 0.000 |
|
|
总数 | 0.011 | 18 |
|
|
|
11.6 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:
地区 | 人均GDP(元) | 人均消费水平(元) |
北京 辽宁 上海 江西 河南 贵州 陕西 | 22 460 11 226 34 547 4 851 5 444 2 662 4 549 | 7 326 4 490 11 546 2 396 2 208 1 608 2 035 |
要求:
(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(a=0.05)。
(6)如果某地区的人均GDP为5 000元,预测其人均消费水平。
(7)求人均GDP为5 000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:有很强的线性关系。
相关性 | |||
| 人均GDP(元) | 人均消费水平(元) | |
人均GDP(元) | Pearson 相关性 | 1 | .998(**) |
显著性(双侧) |
| 0.000 | |
N | 7 | 7 | |
人均消费水平(元) | Pearson 相关性 | .998(**) | 1 |
显著性(双侧) | 0.000 |
| |
N | 7 | 7 | |
**. 在 .01 水平(双侧)上显著相关。 | |||
(3)回归方程:回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
系数(a) | ||||||
模型 |
| 非标准化系数 | 标准化系数 | t | 显著性 | |
B | 标准误 | Beta | ||||
1 | (常量) | 734.693 | 139.540 |
| 5.265 | 0.003 |
人均GDP(元) | 0.309 | 0.008 | 0.998 | 36.492 | 0.000 | |
a. 因变量: 人均消费水平(元) | ||||||
(4)人均GDP对人均消费的影响达到99.6%。
模型摘要 | ||||
模型 | R | R 方 | 调整的 R 方 | 估计的标准差 |
1 | .998(a) | 0.996 | 0.996 | 247.303 |
a. 预测变量:(常量), 人均GDP(元)。 | ||||
(5)F检验:
ANOVA(b) | ||||||
模型 |
| 平方和 | df | 均方 | F | 显著性 |
1 | 回归 | 81,444,968.680 | 1 | 81,444,968.680 | 1,331.692 | .000(a) |
残差 | 305,795.034 | 5 | 61,159.007 |
|
| |
合计 | 81,750,763.714 | 6 |
|
|
| |
a. 预测变量:(常量), 人均GDP(元)。 | ||||||
b. 因变量: 人均消费水平(元) | ||||||
回归系数的检验:t检验
系数(a) | ||||||
模型 |
| 非标准化系数 | 标准化系数 | t | 显著性 | |
B | 标准误 | Beta | ||||
1 | (常量) | 734.693 | 139.540 |
| 5.265 | 0.003 |
人均GDP(元) | 0.309 | 0.008 | 0.998 | 36.492 | 0.000 | |
a. 因变量: 人均消费水平(元) | ||||||
(6)某地区的人均GDP为5 000元,预测其人均消费水平为2278.10657元。
(7)人均GDP为5 000元时,人均消费水平95%的置信区间为[1990.74915,2565.46399],预测区间为[1580.46315,2975.74999]。
本文来源:https://www.2haoxitong.net/k/doc/b80bf13f0b4c2e3f57276318.html
文档为doc格式