中 国 人 民 大 学
同等学力申请硕士学位课程考试试题
课程代码:123105 课程名称:抽样技术与方法
非概率抽样又称为非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法,其最主要的特征是抽取样本时并不依据随机原则。包含有判断选样、方便抽样、自愿样本、配额抽样等。
在分层随机抽样中,对于给定的费用,使估计量的方差V(st)达到最小,或者对于给定的估计量方差V,使总费用达到最小的各层样本量的分配,称为最优分配。
是有放回的按规模大小成比例的概率抽样。其抽选样本的方法有代码法、拉希里方法等。
PPS 抽样是按概率比例抽样,属于概率抽样中的一种。是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。
指调查中每个样本单元的设计权数是相同的,也就是说每个单元最终入样的概率是相等的。在不考虑非抽样误差的情况下,可以认为自加权样本完全代表总体,因为每个样本单元都代表了总体中相同数目的单元。(此时可以使用标准统计方法来进行点估计。此外,自加权样本往往方差较小,样本统计量更稳健)
一项调查的误差来自多个方面,抽样调查因为只调查总体中的一小部分,用部分的调查结果推断总体,所以存在着抽样误差,但这只是所有误差中的一部分。对于抽样调查,误差包括抽样误差和非抽样误差。有些情况下,全面调查由于参与的人员众多、涉及范围大,因此虽然没有抽样误差,但在数据采集和数据汇总整理的过程中却有产生其他误差的更大可能性,所以调查规模并不是越大越好。与全面调查相比,抽样调查的工作量小,这就为使用素质较高的工作人员并对他们进行深入的培训创造了条件。此外,如果能对调查过程实施更为细致的监督、检查和指导,可以使抽样调查所得到的数据质量比同样的全面调查数据质量更高,从而使调查的总误差更小。
如果每一层都满足比率估计量有效的条件,则除非Rh=R,都有分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。
实际使用时,如果各层的样本量都较大,且有理由认为各层的比率Rh差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层比率Rh差异很小,则联合比率估计更好些。此外,联合比估计不像分别比那样需要已知每层的辅助信息Xh。
要求计算:
(1)该住宅区总的用水量及95%的置信区间;
(2)若要求估计的相对误差不超过10%,应抽多少户作为样本?
(3)以95%的可靠性估计超过用水标准的户数;
(4)若认为估计用水超标户的置信区间过宽,要求缩短一半应抽多少户作为样本?
【解】已知N=1000,n=100,f== =0.1, =12.5, s2 =1252
(1)估计该住宅区总的用水量Y为: =N=1000*12.5=12500吨
估计该住宅区总的用水量Y的方差和标准差为:
V()=N2v()=N2s2=10002**1252=11268000
s()=SQRT(v())=≈ 3356.7842
因此,在95%的置信度下,该住宅总的用水量的置信区间估计为:
±z0.025s()=12500±1.96*3356.7842≈12500±6579
即,我们可以以95%的把握认为该住宅总的用水量在 5921吨~19079吨之间。
(2)根据题意,要求估计的相对误差不超过10%,即r≤0.1,假定置信度为95%
根据公式:n0==≈3078
由于=3.078>0.05,所以需要对n0进行修正:
n==≈755
若要求估计的相对误差不超过10%,应抽不少于755户作为样本。
或:n0=1/(1/N+d2/(zα/22s2)) ≈755 (d=r=1.25)
(3)令超过用水标准的户数为A,样本中超过用水标准的户数为a = 40,估计超过用水标准的比例p为:p=a/n=40/100=40%
估计超过用水标准的比例p的方差和标准差为:
v(p)= p(1-p)= *40%*60%≈0.002182
s(p)= =≈4.67%
在95%的可靠性下,超过用水标准的比例p的估计区间为:
p±z0.025 s(p)=40%±1.96*4.67%
因此,我们有95%的把握认为,超过用水标准的比例p在30.85%-49.15%之间,超过用水标准的户数的点估计为:1000*40%=400户,超过用水标准的户数在1000*30.85%户~1000*49.15%户之间,即309户~492户之间。
或:p±z0.025代入得(0.3089,0.4911)
(4)若要置信区间的宽度缩小为原来一半,即要求应抽取的户数n满足方程
z0.025 = 1/2 * z0.025≈0.045766代入数据解得
n=306.25≈306户。
样本区号 | 区居住面积(米2) | 人口数 |
1 | 2835326 | 604746 |
2 | 1670996 | 456035 |
3 | 1835226 | 470981 |
4 | 2895058 | 585257 |
试对市区人均居住面积作点估计和置信度为95%的区间估计。
【解】设居住面积为Y,人口数为X,N=12,n=4,f=n/N=1/3。人均居住面积点估计值为=r= = ≈4.363米2/人.
sy2=== [(2835326-4.363*604746)2+(1670996-4.363*456035)2+(1835226-4.363*470981)2+(2895058-4.363*585257)2)≈ 101742707182.336373
V()=V(r)≈=≈*≈0.24215
s()=≈0.492
因此置信度为95%的区间估计为:4.363±1.96*0.492,即(3.3987,5.3273)
也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。(概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。)
具体说来,概率抽样具有以下几个特点:(1)按一定的概率以随机原则抽取样本。(2)每个单元被抽中的概率是已知的,或是可以计算出来的。(3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。
概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。
因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。
又称抽样后分层,是对一个总体先进行简单随机抽样或系统抽样,抽取一个样本量为n的样本,然后对样本中的单元按某些特征进行分层并进行分层抽样估计。
是不放回的与单元大小成比例的概率抽样(该抽样方法是在总体抽取样本时,借助总体单元大小或规模(Mi)的辅助变量来确定单元入样概率(Zi)或包含概率(πi, πij)的方法)
在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料,就需要采用随机化的方式来获取回答信息并进行估计的技术,我们称之为随机化回答。
总体的具体表现是抽样框。通常,抽样框是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
抽样框有不同类型:名录框(总体中所有单元实际的名录清单,如在校学生名单、企业名册、电话号码簿等)、区域框(其单元由地理区域构成的集合,抽样总体由这些地理区域组成)、自然框(把相关的自然现象概念(如时间、距离等)作为抽样框使用)。抽样框对抽样调查具有十分重要的作用。1)首先,抽样框是代表总体进行抽样的,抽样框的缺陷会造成目标总体与调查总体不一致,在估计中出现偏差;2)其次,抽样框中的联系资料是用来确定总体单元所在的位置和联系地址的,如果出现错误,可能会产生无法联系而造成无回答;3)抽样框中的辅助资料可以用来进行分层等以改进抽样设计或改进估计方法,以提高抽样效率。因此完备的抽样框是做好抽样调查的前提条件。
良好抽样框的标志是具有充分的辅助信息、目标总体和抽样总体完全重合,也就是目标总体单元和抽样总体单元完全呈一一对应的关系。具体来讲:1)关联性,指抽样框与目标总体的对应程度,要求两者之间尽可能地关联;2)准确性,涵盖误差尽可能小,分类是否准确?联系资料是否完整?辅助资料是否齐全等;3)时效性,抽样框是否及时更新;4)最后还可以从建立抽样框的费用进行评估。
由于不等概率抽样往往不满足自加权,因此在多阶段抽样中,最后一阶按等概率(如SRS等)抽取最终单元(USU),其它阶段采用PPS,且各阶段样本量对不同单元都等于常数,则所得样本是自加权的。
(1)估计该村具有自行车的户数及其估计精度;
(2)估计该村具有自行车的总人数及其估计精度。
【解】由已知得:N=200,n=50,f=n/N=0.25总体中具有自行车户数的比例为P
(1)这次简单随机抽样得到的P的估计值=8/50=0.16,即具有自行车的户数估计值=Np=0.16*200=32. 所以总体比例P在95%情况下的置信区间可以写为:
p±z0.025 其中v(p)= ≈ 0.002057,v()=v(Np)=N2v(p)=82.28
故P的置信区间:
0.16±1.96*=0.16±0.0889。所以户数的置信区间为:
200*(0.16±0.0889)即[14,50]
(2)有自行车家庭人数M,则n0=8, ==4.375, 从而具有自行车的总人数估计值为==32*4.375=140。
s2=≈1.696
则V()=s2=*1.696=0.159,因此V()=V()=2V()=322*0.159=162.816
s()=≈13
层 | Nh | Sh2 |
中 | 300 | 2500 |
小 | 600 | 400 |
大 | 100 | 1000 |
(1)若欲估计就餐总人数的误差不超过4000人,可靠性为95%,采用最优分配应抽多少家餐馆作为样本(假设每层每户的调查费用相等);
(2)若不按比例抽样在数据上比较复杂,其费用相当于调查50家餐馆,因此从效益上看改为按比例抽样是否值得?
【解】根据如上表格按中、小、大依次分层:N1=300,N2=600,N3=100,N=1000,S12=2500,S22=400,S32=1000
(1)总人数绝对误差限dy=4000,所以st的绝对误差限为d=dy/N=4. W1=0.3,W2=0.6,W3=0.1考虑每层每户调查费用相等,所以使用内曼分配,从而抽取餐馆数:
n= = ≈≈ 173
即应抽取173家餐馆作为样本。
(2)如果采用比例分配,则
n0==≈≈207
由于n0-n=207-173=34<50,所以从效益上看改为按比例抽样更值得。
是将总体中的各单元按一定标准划分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便抽样的方法抽取样本单元。
为一个特定的抽样设计(包括抽样方法以及对总体目标量的估计方法)估计量的方差与相同样本量下不放回简单随机抽样(SRSWOR)的估计量的方差之比,即
Deff =所考虑的抽样设计估计量的方差/相同样本量下简单随机抽样估计量的方差
如果deff < 1,则所考虑的抽样设计比简单随机抽样的效率高;反之,如果deff > 1,则所考虑的抽样设计比比简单随机抽样的效率低。 deff对复杂抽样时确定样本量有很大作用,在一定精度条件下,简单随机抽样所需的样本量n’比较容易得到,如果可以估计复杂抽样的deff,那么复杂抽样所需的样本量为: n = n’*deff
将总体中若干个基本单元合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有基本单元全部实施调查,这样的抽样方法称为整群抽样。
沃纳模型论及总体是简单的二元总体,即总体中的每个单元或者属于A类或者不属于A类(即基于敏感特征设立两个对立的问题),除此之外,别无他属。
我们向被调查人员提出两个问题,要求其回答“是”或者“不是”,调查人员并不知道被调查者回答了哪个问题,只知道两个问题被提出的概率为P和1-P,这样就可以使被调查者确信其回答不会泄露本人隐私。
概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。概率抽样包括等概率抽样(单元之间被抽中的概率相等)与不等概率抽样两种。概率抽样有几个特点:1)按一定的概率以随机原则抽取样本。2)每个单元被抽中的概率是已知的,或是可以计算出来的。3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。估计量不仅与样本单元的观测值有关,也与其入样概率有关。概率抽样的优点:能得到总体目标量的估计值,并能计算出每个估计值的抽样误差,从而得到对总体目标量进行推断的可靠程度。另外,也可以按照要求的精确度,计算必要的样本单元数目。这两大优点为调查方案的评估提供了有力的依据。与非概率抽样相比,概率抽样比较复杂,对调查人员的专业技术要求高,调查费用较高,但其优点是其他调查方法无可替代的,所以概率抽样成为抽样调查中最主要的方式。
非概率抽样:抽取样本时不依据随机原则。常见的非概率抽样方法有:判断选样(由调查人员人为确定样本单元)、方便抽样(例如“拦截式”调查,比较适合探索性研究)、自愿样本(比如网上调查)、配额抽样(将总体中的各单元按一定标准化分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便抽样的方法抽取样本单元)。非概率抽样的优点是操作简单,不需要抽样框,经济、快速,调查数据的处理也容易,所以有广阔的应用空间。非概率抽样的局限是不能计算抽样误差,不能从概率的意义上控制误差,样本数据不能对总体情况进行推断。同时由于抽取样本时具有较大的随意性,从而导致被调查单元间存在系统性差异。
在抽样调查中,辅助信息可以用于抽样的设计、目标量的估计,还可以用于调查数据的处理。
1) 抽样设计:在抽样设计阶段,许多抽样方法都需要利用辅助信息。如分层抽样需要利用辅助信息进行分层,把总体各单元按相应规则分到各个层中。好的分层应该做到去定合理的层数、层界,单元应该分别归属于哪层,每层样本量多少等(如不等概抽样中单元规模这个辅助信息)。可以说,进行任何抽样设计都需要辅助信息,抽样框是辅助信息集中的体现,辅助信息内容越多、质量越高,就为进行良好的抽样设计提供更多更好的素材,具有充分的辅助信息也是良好抽样框的重要标志。(有些辅助信息在抽样前不知道,事后分层等…)
2) 估计:在抽样估计阶段(即估计量设计阶段),可以利用辅助信息改进估计方法,提高估计的精度,这一点在比率估计和回归估计中表现明显(举例,如比率估计等引入辅助变量x;事后分层等)
3) 关于数据调整:一个是对入样单元进行权数的计算和调整;另一个是利用辅助信息减小调查中无回答的偏差,提高了估计的精度。(如调查中男女比率差异,按性别辅助信息引入分层等)
(1)试估计该小区住户的平均月支出,并给出95%置信度下的区间估计。
(2)若要求估计的相对误差不超过10%,则需抽出多少户家庭进行调查?
【解】由已知得:N=7000,n=200, =1800,s2=640000,s=800, f=n/N≈0.02857
(1)该小区住户的平均月支出估计值为==1800
v()=s2= * 640000 ≈ 3108.576
95%置信度下的区间估计为:
±z0.025 = 1800±1.96* = 1800±109.28
因此区间估计为:[1690.72, 1909.28]
(2)n0= z0.0252 * s2/(r22) = = ≈ 75.88
则需抽取76户家庭进行调查。
层 | Wh | h | sh | ph |
1 | 0.35 | 3.1 | 2 | 0.54 |
2 | 0.55 | 3.9 | 3.3 | 0.39 |
3 | 0.1 | 7.8 | 11.3 | 0.24 |
设n=1000
(1)采用按比例分层抽样的方法估计和P并计算其标准误;
(2)采用奈曼分配的方法估计和P并计算标准误;
(3)将按比例分配和奈曼分配与简单随机抽样相比能提高效率多少。
【解】
(1)根据题中已知条件,采用按比例分层抽样的方法估计为:
=prop==0.35*3.1+0.55*3.9+0.1*7.8=4.01
估计的方差和标准误差为 :
vprop(st)= ≈ (0.35*22+0.55*3.32+0.1*11.32)≈0.0201585
sprop(st)= =≈0.141981
估计P及其方差和标准误差为:
pprop==0.35*0.54+0.55*0.39+0.1*0.24=0.4275
v(pprop)≈≈ (0.35*0.54*0.46+0.55*0.39*0.61+0.1*0.24*0.76)≈0.000218
s(pprop)= =≈0.014765
(2)采用Neyman分配的方法估计和P的方法和与(1)是一样的,即
=st==0.35*3.1+0.55*3.9+0.1*7.8=4.01
pprop==0.35*0.54+0.55*0.39+0.1*0.24=0.4275
但是采用Neyman分配估计和P的方差的方法不同,分别为:
v(st)= 2 -≈ (0.35*2+0.55*3.3+0.1*11.3)2≈0.013286
s(st)= =≈0.115265
v(pst)≈= (0.35* + 0.55* + 0.1*)≈0.000236
s(pst)= ==0.015362
(3)由于Vsrs()= 2≈ ()≈0.0201585+0.0017329=0.0218914
比例分配的设计效应为deffprop= v(prop)/ Vsrs()=≈0.9208,所以与简单随机抽样相比比例分配能提高效率1-deffprop=7.92%;
内曼分配的设计效应为deffopt= v(st)/ Vsrs()=≈0.6069,所以与简单随机抽样相比内曼分配能提高效率1-deffopt=39.31%.
目标总体也可简称为总体,是指所有研究对象的总体,或者是研究人员希望从中获取信息的总体,它是研究对象中所有性质相同的个体所组成。
抽样总体是指从中抽取样本的总体。通常情况下,抽样总体应该与目标总体完全一致,但实践中两者不一致的情况却时常发生。
也叫类型抽样法,是将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。
在抽样时,对同一个总体按照同样的抽样方法,独立或非独立地来进行两个或两个以上样本的抽取,并使得每个子样本对总体参数都提供一个有用的估计,则被抽取的子样本称为交叉子样本。交叉子样本方法最早是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis,1936年)所提出,最初用于总体参数的估计,以后扩大应用于抽样和非抽样误差的估计。
针对样本中含有稀少项目很少或没有(设比例为P)的情况(调查产生比较大的偏差),事先根据调查精度和成本的要求,制定出样本中出现稀少项目的单元个数为n,然后一个一个地随机抽取样本,直到样本中具有这种属性的单元个数为n为止,然后对样本容量X的分布及P的估计的方法。
总体方差是未知的,但是确定存在的。估计量方差可以由样本数据计算出来,但只是总体的近似反映,未必等于真实值。
在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料,就需要采用随机化回答技术。
其基本特点是1)被调查者对所调查的问题采取随机回答的方式,调查人员无法从被调查者的回答中得知对方是否具有某种特征。这样,就可以在一定程度上消除被调查者的担心和顾虑,使他们参与调查,并提供真实情况。2)另一方面,调查人员通过对所有调查结果的汇总。利用概率原理进行推算,又可以得到总体中具有该特征人数比例的估计值,从而实现调查的目的。因而,随机化回答技术被认为是对敏感性问题进行调查,并对总体的特征比例进行数量推算的有效方法。
个人对随机化回答技术有如下理解:1)从理论上讲,随机化回答技术既可以用于访问调查,也可以用于邮寄问卷等其他方式的调查。但是,随机化回答问卷的设计比其他一般性调查问卷的设计要复杂。例如,在邮寄问卷调查中,被调查者很可能因为看不懂问卷而不知如何回答,在访问调查中,调查人员可以详细地向被调查者说明随机化回答技术的原理,并讲解如何回答这种类型的问卷,必要时还可以进行示范,帮助被调查者理解和掌握。所以,与其他调查方法相比,访问调查在使用随机化回答技术方面有更多的便利条件。2) 传统的随机化回答技术(如Warner)都是针对单变量数据的,其主要目的是为了获得具有敏感特性回答的概率估计。然而,被调查者的辅助信息却在一些情况下格外有用,以至于可以将其与肯定回答相联系。Maddala( 1983)以及Scheers和Dayton (1988)便将这些带有辅助信息的解释变量纳入随机化回答模型中。其优点在于可以减少标准误差,并可以确立协变量信息与敏感特性的总体概率之间关系。传统的随机化回答模型的另一个主要缺点是只能获得与总体水平有关的结论——总体概率的估计和相关置信区间。这与当时仅对单变量数据进行相关与无关随机化回答方法的发展目的一致,但却不能满足于调查者对单位水平参数的研究,这也导致无法对一些产生敏感特性的原因进行剖析。
此外在具体设计与操作上应该注意:1)要使被调查者充分理解这种方法的特点,特别是一定要让被调查者明白,他究竟回答的是哪一个问题,别人是不知道的,因此在正式抽取并回答问题前,要让被调查者作几次试验;2)所提问题必须简单明了,防止有不同的理解。3)在应用西蒙斯模型时,无关问题的选择特别重要。一定要隐蔽性强的,即调查人无从猜测被调查人对该问题回答的答案。
层 | Nh | Sh | h |
1 | 60 | 2 | 3 |
2 | 30 | 4 | 5 |
3 | 10 | 15 | 12 |
现令n=40,要求
(1)样本在各层中进行的按比例分配;
(2)样本在各层中进行的最优分配;
(3)计算最优分配较按比例分配的得益;
(4)计算按比例分配较简单随机抽样的得益。
【解】由已知得:L=3,n=40,N==100, f=n/N=40/100=0.4
(1)由nh=nNh/N=Nhf 得n1=0.4*60=24, n2=0.4*30=12, n3=0.4*10=4,
Vprop(st)= =*(0.6*4+0.3*16+0.1*225)=0.4455
(2)由内曼分配nh= * n,代入得=60*2+30*4+10*15=390
n1=*40 ≈ 12.30 ≈ 12
n2=*40≈ 12.30 ≈ 12
n3=*40≈ 15.38 ≈ 15
Vopt(st)= -=
*(0.6*2+0.3*4+0.1*15)2-*(0.6*4+0.3*16+0.1*225)= 0.38025-0.297=0.08325
(3)由1,2得最优分配较按比例分配的得益为1- Vopt(st)/ Vprop(st)=1-≈81.31%
(4)由于S2≈+, ==(0.6*3+0.3*5+0.1*12)=4.5从而简单随机抽样方差
Vsrs(st)= S2=+= Vprop(st)+
=0.4455+*(0.6*1.52+0.3*0.52+0.1*7.52)= 0.4455+0.10575=0.55125
按比例分配较简单随机抽样的得益为:1- Vprop(st)/ Vsrs(st)=19.18%
【解】按Warner模型,我们假定(p:卡片A的比例;1-p:卡片B的比例;n:样本量;n1:回答是的人数;n2:回答否的人数;πA:总体中具有卡片A特征的人数的比例;)
由已知得P=4/5, n=320,则
点估计式: A= () – () = * - *=-= ≈ 0.4792
πA的方差估计量:
V(A)= A (1-A)/n + ≈ 0.000780+0.001389 = 0.002169
从而95%的区间估计式为A±Z0.025 = A±1.96*=
0.4792±0.09128,因此该比例的置信区间为[0.3879,0.5705]
抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
在分层抽样中,若每层的样本量nh都与层的大小Nh成比例,即= 或记为fh=f,h=1,2,…,L 则称样本量的这种分配方式为比例分配。(比例分配的分层抽样是一种等概率抽样)
将总体中的所有单元(抽样单元)按一定顺序排列,在规定的范围内随机抽取一个单元作为初始单元,然后按事先规定好的规则确定其他样本单元,这种抽样方法称为系统抽样。(典型的系统抽样是先从数字1~k中随机抽取一个数字r作为初始单元,以后依次取第r+k,r+2k,…单元。)
是1967年由西蒙斯(Simmons)提出的。其设计思想仍是基于沃纳的相关问题随机化选答的思想,只是在设计中,改用无关的问题代替了沃纳模型中的敏感性问题的对立问题。通常选用与敏感性问题无关并且容易获得的样本特点作为无关问题进行提问(如生日、性别等)。比传统的‘去敏感化’技术更具有保密性,因此更容易获得调查者的配合,适宜于调查敏感性程度很高的问题。
样本量又称“样本容量”,指一个样本的必要抽样单位数目。在组织抽样调查时,抽样误差的大小直接影响样本指标代表性的大小,而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。(样本量直接影响抽样误差、调查的费用、调查所需的时间、调查访员的数量以及其他一些重要的现场操作的限制条件。样本量过大,会造成人力、物力和财力的浪费;样本量过小,会造成抽样误差增大,影响抽样推断的可靠程度。)因此,在抽样设计时,必须决定样本单位数目,因为适当的样本单位数目是保证样本指标具有充分代表性的基本前提。
影响样本容量的因素:研究目的、个体变异、检验水准、对精确度的要求、(把握度/置信度)等。具体描述为:
1)抽样推断的可靠程度。要求推断的可靠程度越高,概率度的数值越大,抽样单位数也就要求多些;反之,则可少抽一些。
2)总体标志变异程度。方差大, 需要多抽一些;方差小, 可少抽一些。
3)极限误差的大小。极限误差大可以少抽些,极限误差小则应多抽些。
4)抽样方法与组织方式。在相同条件下,重复抽样需要多抽一些,不重复抽样可少抽一些。
5)实际调查运作的限制( 人力、物力和财力的可能条件)。客户提供的经费能支持多大的样本?调查持续的时间有多长?需要多少访员?能招聘到的访员有多少?
在确定调查最终所需的样本量时,还必须考虑样本量计算统计科普公式没有涉及到的这些限制。
不等概抽样适用于如下情况:
1) 抽样单元在总体中所占的地位不一致。例如,对某市商业销售额进行调查时,以商场为抽样单元。虽然大型或特大型的商场数量不多,但占总销售额的份额较大;而小商店数量多,市场份额却不大。对于这种情况,将大型商场和小商店同等对待并不合理;另外,由于规模和管理水平的原因,对大型商场的调查往往比较容易,可以做得细致一些,而对小商店的调查往往比较困难,也没有必要对占市场份额不大的这部分单元花太大的精力做过多的调查,因此在调查时,大型商场应该处于更重要的地位。
2) 调查的总体单元与抽样总体的单元不一致。例如某大型单位准备对职工家庭情况进行调查,一种自然的办法是以人事部门的职工花名册作为抽样框进行抽样,该单位中的少数家庭有两名职工在该单位工作,如果对职工进行简单随机抽样,则双职工家庭被抽中的概率大,而调查者希望对家庭进行等概率抽样。除了对抽样框进行整理,将双职工家庭中的一名成员从抽样框中剔除,还可以对职工采用不等概抽样,一种做法是对每名职工记录其家庭成员在该单元工作的人数,然后对每名职工按与人数成反比的概率进行抽样。
3) 改善估计量。不等概抽样可用于对估计量进行改善,例如简单随机抽样比率估计量是渐进无偏的,要使其成为无偏估计,只要每个大小为n的样本被抽中的概率与其辅助变量的和成比例(例如水野法),这时的比率估计量就是无偏估计量,这个样本并不是简单随机样本,而是一个不等概抽样获得的样本。
不等概抽样除了应用于上述几种情况,还广泛应用于整群抽样、多阶段抽样中初级单元规模相差较大的情形。
不等概抽样的优点主要是大大提高了估计精度,但使用它有前提条件,即必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率,这在抽样设计及估计时都是必须的。
【解】由已知得:r=0.417,cy=0.09,cx=0.085, =0.79,N=2000,n=36,f=n/N=36/2000=0.018
V()=V(r)≈= ≈ 0.00001536
从而恩格尔系数95%置信度的区间估计为:r±z0.025=0.417±1.96*
即[0.4093, 0.5478]
描述总体特性的指标称为总体参数,简称参数。总体的均值、方差等都是总体参数。(总体参数4种类型总体均值、总体总值、总体比例、总体比率等)
分层随机抽样中,各层中每个单位费用一样(即Ch=C)时样本单位的最优分配方法。设nh为各层的样本含量,Nh为h层单位总数,Sh为h层标准差,n为样本总含量(固定),内曼(Neyman)1934年证明,当nh=nNhSh/ 时,这种分配为最优分配即V(st) 达到最小值。
不等概率抽样是指在抽取样本之前给总体的每一个单元赋予一定的被抽中概率(最常用的是按总体单元的规模大小来确定抽选的概率)。不等概率抽样分为放回与不放回两种情况。
假设总体单元数为N,样本容量为n,N=nk,且总体中的N个单元已按某种确定顺序编号为1,2,…,N。抽样程序是先从k个单元编号中随机抽出一个单元编号,然后每隔k个单元编号抽出一个单元编号,直到抽出n个单元编号为止,则这种等距抽样称为直线等距抽样。
不完备抽样框是指抽样框中包含的单元与目标总体的单元不一致,例如属于调查对象的单元在抽样框中不存在,不属于调查对象的单元却出现在抽样框中。不完善抽样框还包括这样的情况,抽样框中的辅助信息与现实情况严重偏离,造成样本抽取的‘误导’。使用不完善的抽样框是产生非抽样误差的一个重要原因。
可能的情况及影响包含:
1) 丢失目标总体单元。
指抽样框没能覆盖所有总体单元。丢失单元会造成总量估计偏低,也会造成均值(或比例)估计的偏差。
2) 包含非目标总体单元。
指抽样框中包含一些本不属于调查对象的非目标总体单元。包含非目标单元使得抽样总体单元个数大于目标总体单元个数,造成总量估计偏高。
3) 复合联结。
指抽样框中的单元与目标总体单元不完全呈一一对应关系,一个抽样框单元联结多个目标单元的情形,或一个目标单元联结多个抽样框单元。如果复合联结的情况严重,将会造成样本的实际抽取与设计要求发生偏离,从而对估计结果产生影响。
4) 不正确的辅助信息。有些抽样设计需要抽样框提供辅助信息,如分层抽样、不等概抽样、比率估计和回归估计等。如果这些辅助信息不完全或不正确,不仅不能提高估计的效率,有时反而会降低估计的准确性。
抽样调查中产生偏差的原因主要有抽样误差(随机误差)及非抽样误差(或系统性误差)两大类。
前者是由样本结构与总体结构的随机差异而导致产生的,它虽然不可避免,但可以用公式计算,其大小可以通过调整样本容量或改变抽样方式加以控制。
后者按来源性质不同分为三种:
1) 抽样框误差:即由不完善的抽样框引起的误差。首先把握抽样框误差的类型,在此基础上探讨减少抽样框误差的途径。对不完善抽样框进行补救大致分为三种类型:第一种利用核查或其它有关资料,掌握误差情况,对不完善的抽样框进行调整,或对不完善抽样框所得的估计量进行调整;第二种是事先制定一些规则,对发现的抽样框问题进行现场处理;第三种是使用多个抽样框进行抽样。
2) 无回答误差:即由于种种原因没有从被调查单元获得调查结果,造成调查数据缺失。可以采用措施有:问卷设计具有吸引力,引起被调查者参与的兴趣;充分利用调查组织者的权威性和社会影响力,激发被调查者的参与意识;确定准确的调查方位;采取有助于消除被调查者冷漠、担心或怀疑的措施(如预先通知、调查前解释说明等);注意调查人员挑选;做好调查人员培训,增强调查人员责任心;注意调查过程的监控;奖励措施;再次调查;替换被调查单元。此外,尽量避免敏感问题的调查,如无法避免,可采用随机化回答技术(如Warner、Simons模型等)。对无回答数据采用再抽样调查、加权调整、相关推估法、插补调整等方式进行数据调整。
3) 计量误差:即所获得的调查数据与其真值之间不一致造成的误差。减少计量误差需要对调查全过程进行质量控制。包含有调查设计方面(设计出更好的调查问卷和抽样程序);现场准备方面(招聘访问员、培训访问员、编写调查手册);调查结果审核方面(有效性审核、一致性审核、数据分布审核,审核工作可以在搜集数据、数据搜集完毕后(重点在一致性审核和离群值的检测)等任何阶段进行)
层 | 各单元标志值 | |||||
1 | 2 | 4 | 5 | 5 | 6 | 8 |
2 | 8 | 8 | 10 | 14 | 14 | 18 |
3 | 16 | 16 | 16 | 18 | 22 | 26 |
令n=10,设各层中每单元的费用相等。
(1)按最优分配抽取样本计算st及v(st);
(2)计算Deff因子;
(3)若达到以上同样的精度采用简单随机抽样的样本量应为多少?
【解】由已知得N=18,n=10, L=3,W1,2,3=6/18=1/3, 1=5, 2=12, 3=19,S12=4,S22=16,S32=17.2,f=10/18=0.556
(1)由于W相同,所以nk=nSh/≈
从而n1=10*2/10.147≈1.97≈2
n2=10*4/10.147≈3.94≈4
n3=10*/10.147≈4.08≈4
st= = (5+12+19)/3=12
V(st)= - = 10.1472/90-(4+16+17.2)/54≈0.4551
(2)由1得S2= = * 774 ≈ 45.53
Deff = Var(st)/((1-f)S2/n) = ≈ 0.225
(3)设简单随机抽样的样本量为n’,则n=n’.deff,因此
n’=n/deff=10/0.225≈44.44即简单随机抽样的样本量应为44.
统计量是统计理论中用来对数据进行分析、检验的变量。统计量根据样本的n个单元值计算出一个量,也叫估计量,用于对总体参数的估计。(与总体参数相对应,常用估计量有均值估计、总值估计、比例估计、比率估计等)
是全面调查和抽样调查相结合的一种新型的调查方法,也可以说是一种特殊的分层抽样。目录抽样是一种对高度偏斜总体(总体次数分布呈高度偏态分布,总体内部差异较大,由指标值较大而数目较少单位(通常称为重点单位)和指标值较小而数目较多单位两部分组成)实施抽样调查的有效方法。目录抽样主张按上述两部分分为两层,少数指标值较大单位构成重点单位层,大量指标值较小单位构成抽样调查层。前者进行全面调查,后者进行抽样调查,最后综合使用两层的调查结果给出总体目标量的估计。
假设总体单元数为N,样本容量为n,N≠nk,总体中的N个单元已按某种确定顺序编号为1,2,…,N,如将这些编号看成首尾相连的一个环,并从1到N中按简单随机抽样方式抽取一个单元编号作为随机起点r,然后每隔k抽取一个单元编号,直到抽满n个单元为止,则这种等距抽样称为循环等距抽样,又称圆形等距抽样。
简单随机抽样也称为单纯随机抽样、纯随机抽样、SRS抽样 ,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
简单随机抽样的特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。
(1)简单随机抽样要求被抽取的样本的总体个数N是有限的。
(2)简单随机样本数n小于等于样本总体的个数N。
(3)简单随机样本是从总体中逐个抽取的。
(4)简单随机抽样是一种不放回的抽样。
(5)系统抽样的每个单元入样的可能性均为n/N。
简单随机抽样具有一定局限性:
1、事先要把研究对象编号,比较费时、费力。
2、总体分布较为分散,会使抽取的样本的分布也比较分散,给研究带来困难
3、当样本容量较小时,可能发生偏向,影响样本的代表性。
4、当已知研究对象的某种特征将直接影响研究结果时,要想对其加以控制,就不能采用简单随机取样法。
简单随机抽样(Simple random sampling)是其它抽样方法的基础,因为它在理论上最容易处理,而且当总体单位数N不太大时,实施起来并不困难。但在实际中,若N相当大时,简单随机抽样就不是很容易办到的。首先它要求有一个包含全部N个单位的抽样框;其次用这种抽样得到的样本单位较为分散,调查不容易实施。因此,在实际中直接采用简单随机抽样的并不多。通常适用于总体个数较少的情况。
样本居民小组 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
居民数 | 40 | 39 | 12 | 52 | 37 | 33 | 41 | 14 |
房间数 | 58 | 72 | 26 | 98 | 74 | 57 | 76 | 48 |
要求:
(1)估计平均每个居民拥有的房间数并计算估计精度;
(2)该条街共有多少房间及其估计的精度;
说明你上述使用的估计量是有偏的还是无偏的。
【解】由已知设房间数为Y,居民数为X,n=8,N=100,f=n/N=0.08, =33.5, =63.625
(1)平均每个居民拥有的房间数估计值为=r==509/268≈1.90
V()=V(r)≈= ≈ 0.0008208
从而95%置信度下区间估计为1.90±1.96*,即[1.844,1.956]
(2)=N==12.5*(58+72+26+98+74+57+76+48)=6362.5
V()=N2 ≈ 10000***3247.875 ≈ 533579.4643
从而95%置信度下区间估计为6362.5±1.96*,即[4930.79,7794.21]
由于使用了有偏(渐进无偏)的比率估计,因此上述使用的估计量是有偏的。
估计量分布的方差称为估计量方差,它是从平均的意义上说明估计值与待估参数的差异状况,这也是我们对抽样方案进行评价的标准之一。(从这个意义上说,一个抽样设计方案比另一个抽样方案好,是因为它的估计量方差小)V()=E[-E()]2 (是由于抽样的随机性而产生的一种随机性误差,没有系统性)
在分层抽样设计中,层界为分层的分界点,层数指分层的数量。分层抽样的L层由L-1个层界来确定。
是对比率的分子和分母分别加权计算出总体均值或总体总量的分层估计量,然后用对应的分层估计量来构造比估计,即先‘加权’后‘比’,这样所得的估计量称为联合比率估计。
多阶段抽样是先将一个很大的总体划分为若干个子总体,即一阶单位,再把一阶单位划分为若干个更小的单位,称为二阶单位,照此继续下去划分出更小的单位,依次称为三阶单位、四阶单位等。然后分别按随机原则逐阶段抽样。(抽样过程分阶段进行,每个阶段使用的抽样方法往往不同)
二重抽样的主要作用是提高抽样效率、节约调查经费,具体有下列几个方面:
1)用于从总体所有基本单元中筛选确定出主调查对象。2)用于经常性调查。3)用于了解陌生总体内在结构或分布的大致情况,为抽样方法和抽样组织形式的选择提供依据。4)为分层抽样推断提供层权资料。5)为比率估计和回归估计提供辅助资料。6)在经常性的多项目抽样调查中,用于解决不同调查项目需要不同样本容量的问题。7)用于研究样本轮换中的某些问题。8)降低无回答偏倚。
二重抽样的主要特点是先后进行两次抽样,每次抽取一个样本。实际进行时,两次抽样也可以同时进行,只是对样本中大多数个体或者单元仅调查一些简单的辅助信息,进行详细调查的只是这些样本中的一部分。第一步抽样通常从总体中抽取一个比较大的样本,称为第一重样本。对第一重样本的调查主要是获取有关总体的主要辅助信息,为下一步的第二重抽样估计提供条件。第二重抽样抽取的样本相对较小,对它的调查才是主要调查。通常这个第二重样本是从第一重样本中抽取的。
在实践中,需要注意:1)在抽取第一重样本时需要增加一定的费用,只有当利用这些信息进行分层抽样,在比率估计和回归估计时提高精度的得益大于所增加的费用时,采用二重抽样才是合算的;2)二重抽样与二阶段抽样的区别在于阶段抽样中下一阶段的抽样不是在本阶段的样本单位中进行,而是从已中选的样本中抽取更次一级的观察单位;
二重抽样可用在抽样框缺乏辅助信息,而又要对总体进行分层或筛选部分总体的情况;由于条件的限制不能收集整个样本信息时,可用二重抽样抽取子样本的方法来收集更详细的信息。类似地,此方法也可用于在一项调查中不同问题的数据收集费用差异很大的情形。
层 | Nh | h | Sh2 |
1 | 50000 | 0.13 | 0.25 |
2 | 23000 | 0.72 | 2.89 |
3 | 20000 | 3.34 | 72.25 |
4 | 5300 | 18.03 | 1225 |
5 | 1500 | 68.85 | 9025 |
6 | 120 | 786 | 40000 |
7 | 80 | 434 | 18900 |
合计 | 100000 | =4.1773 | =286.66 |
(1)设样本量为3000,将第6层和第7层规模较大的200户农户全部收入样本,从其余5层抽取2800个农户,要求估计量方差最小,试求样本量的分配。
(2)目标量是总产量,试求其方差估计量之值。
【解】由已知得:N=100000,n=3000, n1~2=200,
各层标准差为S1=0.5,S2=1.7,S3=8.5,S4=35,S5=95,S6=200,S7≈137.48
(1) 由于6-7层200户全部收入样本(即实施普查,该两层不存在抽样误差),所以我们只需要考虑1-5层情况。通过内曼分配计算1-5层的最优样本分配量:
h= * (n-n6~7),代入=50000*0.5+23000*1.7+20000*8.5+5300*35+1500*95=562100
依次求得n1=≈125,n2=*2800≈195,n3=*2800≈847,
n4=*2800≈924,n5=*2800≈710
从而在如上分配下方差达到最小为:Vmin(st)= -=*(0.5*0.5+0.23*1.7+0.2*8.5+0.053*35+0.015*95)2-*(0.5*0.25+0.23*2.89+0.2*72.25+0.053*1225+0.015*9025)
≈0.01128- 0.002155=0.009125
(2)总产量的无偏估计为v(st)= ≈50000*(50000-125)*0.25/125+23000*(23000-195)*2.89/195+20000*(20000-847)*72.25/847+5300*(5300-924)*1225/924+1500*(1500-710)*9025/710≈91247388.73
卡片A:我曾经有过偷盗行为;
卡片B:我的身份证号码尾号为奇数。
卡片A、B在卡片总数中的比例各为1/2,且已知身份证号码尾号为奇数的人数比例为1/2。一共调查了500人,结果回答“是”的人数为256,试估计人群中有过偷盗行为的人数比例和估计误差。
【解】由已知得卡片A在总数比例p=0.5, 身份证号码尾号为奇数比例πB=0.5,调查人数n=500,回答‘是’的人数n1=256,由西蒙斯模型点估计公式得人群中有过偷窃行为的人数比例为: A= (– (1-p) πB)/p = (0.512-0.5*0.5)/0.5=0.524
A的方差估计量:V(A)= [][1-] = *0.512*0.488≈0.001999
从而标准差为S(A)= ≈0.04471,在95%置信度下其估计范围是:
0.524±1.96*0.04471≈0.524±0.08763
偏差是指按照某一抽样方案反复进行抽样,估计值的数学期望与待估参数之间的离差。
B()=E()-θ(偏于某个方向的系统性误差)
又称比估计,用样本比率作为总体比率(在形式上总是表现为两个变量总值或均值之比)的估计。如:R = r = =
当N≠nk时(若N很大时,偏差可忽略不计,若偏差不可忽略时,可采用循环等距或修正直线等距),在1~N中取一随机数r,r/k得商和余数,将余数i作为起点。余数为1的概率0.4;余数为2的概率0.3;余数为3的概率0.3,则E(sy)=0.4(1)+0.3(2)+0.3(3)= .
二阶段抽样和二重抽样两者都是分阶段抽样方法,但是两者的差异比较明显:
1) 使用目的不同:二阶段抽样一般用于大规模、抽样调查面广的情况(或总体范围大,无法直接抽取样本等);二重抽样往往在事先没有总体辅助信息(分层权重、比率估计和回归估计相关等)情况下使用。
2) 抽样方式不同:两阶段抽样首先是从总体N个单元(初级单元)中抽出n个样本单元,但并不对这n个样本单元中的所有小单元(二级单元)都进行调查,而是在其中再抽出若干个二级单元进行调查;二重抽样则不同,要对第一重样本进行调查以获取总体的某些辅助信息,并且要利用这些辅助信息进行排序、分层、抽样或估计。
3) 抽样框不同:二阶段抽样不需要编制所有群内单元的抽样框。抽取初级单元时,只需要编制初级单元的抽样框,对被抽中的初级单元,再去编制二级单元抽样框,以此类推,每阶段只需编制该阶段的抽样框,不同阶段抽样单位往往是不同的;二重抽样的第二重样本则往往是第一重样本的子样本,两次抽样的单位是相同的。也就是说,二重抽样要有一份最终单位的完整名册(总体所有单位的抽样框),而两阶段抽样只需要第一阶段单位名册(第一阶段抽样框),然后在中选的第一阶段单元中构造第二阶段抽样的抽样框。
4) 使用方式:二阶段抽样每一阶段抽样可以相同,可以不同,它通常与分层抽样、整群抽样、系统抽样结合使用。二重抽样通常与分层抽样结合使用。
0 | 0.9 | 0 | 0 | 0.3 | 0.1 | 0.5 | 3.1 | 2.8 | 2.7 |
2.8 | 2.6 | 2.3 | 3.5 | 2.4 | 3.8 | 4.1 | 4.9 | 6.0 | 5.4 |
2.3 | 2.9 | 2.1 | 6.3 | 8.2 | 5.4 | 6.5 | 6.6 | 6.1 | |
要求:
(1)估计总的粮食播种面积;
(2)用相继差的方法计算的相对标准误;
(3)用简单随机抽样的方法计算的相对标准,与上述结果进行比较分析。
【解】由已知得N=290, n=29,k=10,f=n/N=0.1, r==94.6/29≈3.262
s2=≈152.848276/28≈5.459
(1)估计总的粮食播种面积为: =Nsy=Nr=N*=10*(0+0.9+…+6.6+6.1)=946
(2)相继差方法估计的方差:
V()=N2V(sy)=N2≈45*56.99=2564.55
从而s()) =≈50.64
(3)V()=N2=≈90*5.459≈491.298
从而s()) =≈22.17
是指在调查中出于各种原因,调查人员没能从入选样本的单元获得所需要的信息,由于数据缺失造成估计量的偏误。(这种情况一般发生在调查对象为人的时候)无回答偏差是一种重要的非抽样误差,对调查数据的质量有重要影响)。
在分层随机抽样中,对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,即先‘比’后‘加权’,此时所得的估计量称为分别比率估计。
对称等距抽样是指按选定的有关标志,将总体中的各单位依次排序为:1 2 3 … d; d+1 d+2 d+3 … 2d;……(n-1)d+1 (n-1)d+2 (n-1)d+3 … nd。其中每d个单位称为一个部分,可将总体共分为n部分,对称等距抽样是在总体第一部分抽取第i个单位,在第二部分抽到第2d-i+1单位,第三部分抽取第2d+i单位,在第四个部分抽取4d-i+1单位,……。这种随机起点对称等距抽样可以概括为:在总体奇数部分抽取第kd+i单位(k=0,2,4,……),在总体偶数部分抽取第kd-i+1单位(k=2,4,……)。
分层抽样可以提高估计效率,简述如下:
1) 由于每层都进行抽样,这使得样本在总体中分布更加均匀、更具代表性。如为了了解我国居民的人均年收入水平,倘若采用简单随机抽样的方法来实施调查,对于某些人口数较少的省市或民族地区,很可能会出现样本量过小甚至没有样本点的现象。
2) 由于抽样在每一层中独立进行,所以一则允许各层选择适合本层的不同抽样方法;二则可同时对各自总体(层)进行参数估计,而不仅仅是对整个总体的参数进行估计。这在大区域且依托行政管理机构实施的调查里,优势更为明显。
3) 由于各层的总体方差因层内单元之间差异小,其加权平均肯定小于总体方差,而抽样精度与此成正比,所以分层抽样可以提高估计精度。事实上,只要准确选择分层依据的指标,则分层抽样的精度既高于简单随机抽样,也高于其他抽样方式。
(1)试估计该校大学生最近这一学期用于购书的总支出,并给出95%的置信区间;
(2)若要求在置信度95%(对应的t=1.96)下,估计的相对误差不超过10%,则应该抽出多少学生进行调查?
【解】由已知得:N=6000,n=78,f=n/N=0.013, =102.30,s2=13712
(1)总支出的简单估计量为=N=6000*102.30=613800
()=v(N)=N2s2=60002**13712≈6246343384.615385
s()=≈79033.81
所以总支出95%的置信区间为:Y±z0.025*s()=613800±79033.81
即[534766.19, 692833.81]
(2)n0= =≈503.34≈503
由于n0/N≈0.084>0.05,所以对其进行修正:
n==≈464
是由于抽取样本的随机性造成的样本值与总体值之间的差异,是随机抽样特有的误差,只要采用抽样调查,抽样误差就不可避免。(控制抽样误差的根本方法是改变样本量)
样本相关系数是指样本中变量之间的线性相关程度。样本相关系数准确性与很多因素都有关,如抽样方法,样本的容量。样本相关系数的计算公式如下:
r(X,Y)= 其中Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。r的取值范围为-1≤r≤1,当r接近±1时表明观察的数据线性相关较强,当r接近0时表明观察数据无线性相关。当用样本相关系数来反映总体的变量之间是否相关,在样本容量比较小时通常需要进行相关系数的检验。
估计量的方差(V())是衡量估计量精度的度量。影响估计量方差的因素主要是样本量(n)、总体大小(N)和总体方差S2。考虑V()=S2,(其中总体方差S2=)),通常N很大时,当f<0.05时,可将1-f近似取为1,由于总体方差是我们无法改变的,因此在简单随机抽样的条件下,只有通过加大样本量来提高估计量的精度。此外,抽样的方式方法也会影响精度,对于简单随机抽样而言,放回抽样的误差大于不放回抽样。
设我们关心的主要变量Y,另一个与Y相关的辅助变量为X,对简单随机抽样的一个样本中每一个单元获得了Y和X的调查值yi和xi,而X的总体总值(也记为X)已知。实际调查中,这样的辅助变量一般有以下几种常见情况:1)同一个变量的上期调查结果往往隐含着当期与上期的变化不会太大的假设;2)与主要变量之间整体上存在某种比值关系,及隐含着两者比值关系的变化不会有太大的假设。
辅助变量的特点可以归纳为如下:1)辅助变量必须与主要变量高度相关;2)辅助变量与主要变量之间的相关关系整体上相当稳定;3)辅助变量的总体总值必须是已知的或是容易获得的;4)辅助变量的信息质量更好,或信息更容易取得即调查成本更低。使用比率估计量进行主要变量的总体特征估计的做法颇为普遍,比率估计一般仅限于用来估计主要变量的总体值和总体总值。
比率估计的应用条件包含:1)比估计是有偏估计,要求的样本量较大;2)研究变量与辅助变量之间有较好的相关关系。
是相对于抽样误差而言的,它的产生不是由于抽样的随机性,而是由于其他多种原因引起的估计值与总体参数之间的差异。
同抽样误差相比,非抽样误差有如下特点:(1)非抽样误差不是由于抽样的随机性带来的,所以在抽样调查中,它不可能随着样本量的增大而减小。(2)在抽样调查中,由于非抽样误差的影响,往往造成估计量的有偏。(3)有些非抽样误差难以识别和测定。(4)产生非抽样误差的渠道众多,成因复杂,对调查数据质量和估计结果的负面影响非常大。非抽样误差按其来源、性质的不同,可以分为抽样框误差、无回答误差和计量误差等三类
也叫类型抽样法,是将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。
划分层需要满足组内差异小、组间差异大的分组原则,从而使得1)层内单元具有相同性质;2)层内单元指标值相近,而层间差异尽可能大;3)抽样组织实施方便(如按行政管理机构设置进行分层等)
分层抽样适用于总体单位数量较多、内部差异大调查对象(如区域跨度很大的如全球性、全国性调查等)。分层抽样有三个必要条件:1)每层都抽样;2)各层都独立地抽样;3)各层的抽样都是简单随机抽样。
当总体排列有周期性波动时,等距抽样的精度可能很高也可能很差,我们应注意克服周期性波动对总体趋势的影响,且需要慎重选择k值。这时可采用交叉子样本(随机组法)等方式改变影响。
某住宅区调查居民的用水
【解】按捕获再捕获抽样,由已知得:第一次抽样数n1=200,第二次抽样数n2=100,m=32
R=X=200*100/32=625(按比率估计的有偏估计)
按查普曼(chapman)估计得: =-1=201*101/33 - 1≈614
由塞贝尔(Seber)方差估计:v()==201*101*168*68/(*34)≈6263.6694,由此s()=≈79.14。
因此在95%置信度下,置信区间为:
±1.96* s()=614±1.96*79.14≈614±155,即[459, 769]
简单随机抽样也称为单纯随机抽样、纯随机抽样、SRS抽样 ,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。(SRS是一种最基本的抽样方法,是其他抽样方法的基础)
按层内差异小,层间差异大的分层原则,分层标志的选择及层数的确定的合理性会影响估计量的精度;一般来说,在不考虑费用等因素情况下,所分层数越多,估计量精度越高(同时考虑增加层数提高的精度和费用之间的平衡,即增加层数提高精度及因此增加的费用相比是否合算);样本量也会影响估计量精度,样本量越大,估计量精度越高,样本量越小,估计量精度越低。
捕获-再捕获这一类抽样方法最初起源于对野生动物的调查,方法的步骤是:先抽取一定的样本,把这些单元做上记号,然后放回总体,使其与原总体的单元进行混合;再抽取一个样本,以观察其中做记号单元所占的比例,对总体单元数进行估计。
该方法是一种跨越概率抽样与非概率抽样的抽样技术,“跨越”一词是说这种技术超出概率抽样与非概率抽样的理论而又兼具两种抽样技术的特点。一方面,概率抽样一般基于有限总体规模,而且总体规模N已知,一旦总体的大小N本身无法知晓,诸如样本容量、抽样比之类的指标就无法得到,从而抽样设计以及估计量的计算都将无法进行,而捕获-再捕获技术恰恰超越了这一点,“竟然”可以用来估计总体规模的大小。另一方面,在进行捕获-再捕获的抽样设计过程中的许多步骤,比如两次抽样的容量大小以及估计总体大小的前提的假定,虽然都有研究人员的经验判断成分渗透在内,却一般都能给出估计的误差大小,这一点显然超出了非概率抽样的范畴。
捕获再捕获抽样应用场合:总体单元数N是未知的,是需要估计的目标。如估计一个池塘中鱼的数量,一个森林中鸟类的数量,群众集会的参加人数等。
(1)如果采用直线等距抽样,试说明抽样方法;这种方法存在什么问题,采用什么方法来处理,提出你的建议方法和实施步骤;
(2)取样后令Yi=1(代表成活)Yi=0(代表未活)得=24,试估计成活率及其精度;
(3)若要求估计相对标准为0.05,则应抽多少棵树作为样本?
【解】由已知得:N=1000, n=30, f=n/N=0.03
(1)如果采用直线等距抽样,首先将1000株树依次编为1~1000号,然后计算抽样间距k=[]=[33.3]=33,然后在1~33中随机抽取一个数字(设置为m,m位于1~33之间),则样本点依次为m,m+33,m+66,…,m+33*(j-1),可以看到m在1~10之间可抽取31个样本与计划的样本量不一致。受此影响,每个总体单元的入样概率依赖于起始点而不等,这意味着假如采用直线等距抽样就有可能产生偏倚。为了处理此问题,我们可以使用拉希里提出的圆形等距抽样方法。具体为:将总体中的单元按某种顺序编号(1~1000),将这些编号看成首位相接的一个环,并从1~1000中按简单随机抽样方式抽取一个单元作为随机起点r,然后每个k(如上33)抽取一个单元编号,直到抽满30个单元为止。其中入样编号可以表示为:
I=r+(j-1)k, 当r+(j-1)k-N<0
I=min{r+(j-1)k, r+(j-1)k-N},当r+(j-1)k-N≥0
(2)估计成活率=p====0.8
V()== *0.8*(1-0.8)≈0.005352
s()=≈0.0732
(3)n0====384.16≈384,由于n0/N=0.384>0.05,故对n0进行修正为:n==≈277.
有放回抽样是简单随机抽样的操作方式之一。把总体中的抽样单位从1至N编号,每抽取一个号码后再将它放回总体。对于任意一次抽取而言,由于总体容量不变,所以N个号码被抽中的机会均等。
分层抽样的分层原则:层内差异小、层间差异大。在总体分层后的总体方差=层内方差+层间方差。从其概念上看,分层抽样的实质是在各层间做全面调查,而在各层内做抽样调查。因此,在分层抽样的条件下,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。因此从其组织形式上看所谓的分层抽样是先将总体分层,然后在每层中抽取样本,遵循扩大层间方差,缩小层内方差的原则对总体进行分层,就可以提高估计的精度。
整群抽样的分群原则是扩大群内方差,缩小群间方差,以提高整群抽样的抽样效率。用方差分析的原理说明如下:当总体划分为群以后,总体方差可以分解为群间方差和群内方差两部分,这两部分是此消彼长的关系:若群间方差大则群内方差小;反之,群间方差小则群内方差大。由于整群抽样对入选群中的所有单元都进行调查,因此影像整群抽样误差大小的主要因素是群间方差。为了提高整群抽样估计的精度,划分群时应使群内方差尽可能大,群间方差尽可能小。换句话说,划分群时应使同一群内各单元之间的差异尽可能大,以避免同一群内各单元提供重复信息。
整群抽样分群原则与分层抽样中划分层的原则恰好相反。由此看来,整群抽样和分层抽样是针对不同总体结构而提出的两种不同抽样方式。当然对于一些复杂结构的总体,也可以把两种抽样方式结合起来,以发挥各自的特长。
不放回抽样(sampling without replacement)即每次从总体中抽取一个单位,经调查记录后不再将其放回总体中,因此,每抽一个单位,总体单位数就减少一个,前后每个单位被抽中的概率不同,如第一个样本单位被抽中的概率为1/N,第二个单位被抽中的概率则为1/(N-1)…依次类推。
层h | Nh | Sh2 |
城镇居民(层1) | 600 | 100 |
农村居民(层2) | 900 | 25 |
试计算:
(1)城镇居民与农村居民分别按比例分配和按内曼分配时的样本量;
(2)按比例分配时调查结果得到1=10.7万元, 2=5.3万元,计算以95%的把握程度估计总体均值的置信区间;
(3)在(2)中的调查结果是按如按内曼分配得到,计算以95%的把握程度估计总体均值的置信区间。
【解】由已知得:L=2,n=50, N1=600,N2=900, N=1500,S12=100,S22=25,W1=N1/N=0.4,W2=N2/N=0.6, f=n/N=50/1500=1/30
(1) 按比例分配时的样本量为:n1=nW1=50*0.4=20, n2=nW2=50*0.6=30
按内曼分配时的样本量为:
n1= =≈28.57≈29
n2= =≈21.43≈21
(2) 按比例分配的总体均值为prop==0.4*10.7+0.6*5.3=7.46(万元)
Sw2==0.4*100+0.6*25=55,则
Vprop(st)= Sw2=1.0633
由此95%的把握程度估计总体均值的置信区间为prop±z0.025*≈
7.46±1.96*≈7.46±2.02,即[5.44, 9.48]
(3)按内曼分配的总体均值为st= = =8.432
Vopt(st)= 2 - = -≈
0.98-0.03667=0.94333
由此95%的把握程度估计总体均值的置信区间为st±z0.025*≈
7.46±1.96*≈7.46±1.904,即[5.556, 9.364]
在通常的情况下有限总体无放回抽样时统计量的方差小于无限总体抽样时的方差,需要乘上—个系数1-n/N,通常称为有限总体的修正系数,简写为fpc。由于n
所谓按有关标志排列,即用来对总体单元规定排列次序的辅助标志,与调查标志具有共同性质或密切关系,其与无关标志排列相比等距抽样的效率更高。对总体采用按有关标志排队的等距抽样,则样本容量的确定应根据以往的资料估计层内方差的平均值。其样本容量的确定公式与简单随机抽样样本容量的确定公式基本相同(只需用层内方差的平均值替换总体方差即可)。它能使标志值高低不同的单位,均有可能选入样本,从而提高样本的代表性,减小抽样误差。一般认为有序系统抽样比等比例分层抽样能使样本更均匀地分布在总体中,抽样误差也更小。
辅助信息可用于改进估计量,描述如下
1) 分层抽样中,利用辅助变量对总体进行分层可以有效地缩小层内的方差,扩大层间方差。降低总体层内方差与层间方差的比值,从而大大提高抽样估计的效率,改进了估计量。
2) 利用辅助变量对总体单元排队,然后进行系统抽样。可把非线性总体线性趋势化,在此基础上实施系统抽样可以提高所获得系统样本内方差,从而提高精度。这种方法的操作简单、方便,效果一般比较理想。
3) 利用辅助变量进行不等概率抽样,特别是以群单位作为抽样单位的不等概率抽样,可以有效地提高整群抽样的效率。
4) 利用辅助变量建立比率估计量、回归估计量对总体均值或总值构造比率或回归估计量,是从估计环节改善抽样设计的重要手段。这两种估计方法都需要有相应的辅助变量,并获得辅助变量的总体均值或总值。比估计与回归估计通常都是极为有效的,当辅助变量与调查指标高度相关时.尤其如此。它的一个很大优点是可用于多指标情形,在此情况下不同指标值常采用不同的辅助变量。
5) 利用辅助变量对抽样调查中的缺失数据进行处理,由此改进估计量。
也称双重抽样或二相抽样(two-phase sampling),指在抽样时分两步抽取样本。一般情况下,先从总体的N个单位中抽取一个较大的初始样本,称为第一重(相)样本(first phase sample),对之进行调查以获取总体的某些辅助信息,为下一步的抽样估计提供条件;然后进行第二重抽样,即从初始样本中抽取一个子样本。第二重样本相对较小,但是第二重抽样调查才是主调查。由于样本是分两次抽取的,因此称做二重抽样。
本文来源:https://www.2haoxitong.net/k/doc/1c3d9074bfd5b9f3f90f76c66137ee06eff94eca.html
文档为doc格式