对抽样调查方法的探究
摘要:抽样调查技术是一门广泛的学科,它是以概率论与数理统计为基础,专门研究抽样理论、抽样方法及其应用的学科。 关键字:抽样调查、样本、抽样
To explore the method of sampling
Abstract: Sampling technology is a widespread discipline, it is based on probability and mathematical statistics as the foundation, a special study of the sampling theory, sampling method and its application subject. Keyword: sampling investigation, sample, sampling 一、抽样调查概述
抽样调查是,一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。根据抽选样本的方法,抽样调查可以分为概率抽样和非概率抽样两类。概率抽样是按照概率论与数理统计的原理从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征作出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。习惯上将概率抽样称为抽样调查。抽样调查方法一般包括简单随机抽样、分层抽样、等距抽样、整群抽样、二阶与多阶抽样、成数抽样、双重抽样、不等概整群抽样等。
抽样调查方法的优点:1.费用较低;2.速度快;3.精度高,有概率保证;4.抽样方法的灵活性;5.应用范围广。 下面通过以下方法来探究一下。
一、简单随机抽样
从含有又个N单元的总体中,随机、的抽取n个单元组成样本,称简单随机抽样,又称纯随机抽样,是对调查总体一般不进行分类或排队,按随机的原则直接从总体中抽取样本。采用简单随机抽样,首先要将总体中全部单元无一遗漏的进行编码,然后按随机抽样方法抽取若干个号码 ,由抽中的号码单元组成样本。在实践中常用的抽取方法有以下几种: 1.抽签法
即将总体单元从1~N逐个编号,然后用一般抽签法从中抽取n个号码,被抽中的
1
抽样调查技术
单元即为样本单元。这种方法简便易行,但在社会经济调查中,由于调查的总体一般相当大,编号做签很困难,所以通常不采用此法。 2.计算机模拟法 对已编号的总体单元,按计算机产生的随机数字,确定相应的样本单元。对调查人员,能够熟练的掌握计算技术,应用计算机进行设计和资料的处理是十分重要的。 3.随机数表法 对已编号的总体单元,按N的号码最大位数确定使用随机数表的行(列)数字,然后从任意行(列)开始,向横向(或纵向)一次取数,遇到属于总体单元编号范围内的号码,就取定为样本单元。若抽到重复出现的数字就舍去,按表中顺序继续取下去,这就属于不重复抽样。直到抽取够所预定的n个单元为止。 4.滚球法 在一个圆球容器中装有10个小球,球上标有0,1,2,...9十个数字,圆球容器每摇滚一次,滚出一个带某一数字的球,这样与摇出小球数字相应的总体单元即作为样本单元。 简单随机抽样特点:是随机抽样中最单纯、最简易的抽样方式。 适用于分布比较均匀、变异程度比较小的调查总体。 二、分层抽样 按总体个部分的特征,把总体划分成若干个层(或类型),然后在各层中进行简 单随机抽样,借以估计总体的方法称为分层抽样或分类抽样,又称类型抽样。分层抽样是一种比较简便、容易掌握的抽样技术,抽样效率高。 分层抽样应满足的3个条件: (1)各层总体单元数应该确知,或者各层的层权重是已知的,即Wh(2)总体化分层后,各层间任何总体单元不允许有重叠和遗漏。 (3)在各层中的抽样应该保持、随机。 制定分层抽样方案的原则应从以下方面考虑: (1)调查目的要求、详细程度。 (2)总体内各部分特征和差异情况。 (3)缩小层内方差,扩大层间方差。 (4)所搜集到的资料和采用的图面资料及遥感相片比例尺大小。 分层抽样特点: (1)分层抽样的基础是掌握总体各部分、总体单元的标志值或与其有密切关系的其他因素,并能利用这些信息编制总体各层抽样框。 (2)各层抽样不仅能提供总体的平均数、精度、和总量,同时也可以对各类型2
Nh。 N抽样调查技术
的相应估计指标做出判断。
(3)分层抽样的思路是把一个大总体划分成若干个小总体,在各个总体内单元比较一致,各小总体之间差别越显著越好。
(4)分层抽样与其他抽样方法一样,总体的估计效果不仅取决于样本单元调查、测定,更重要的是各层权重的准确性。
(5)先抽样后分层方案,尽管存在偏差的可能性,在实际工作中任然不失为一种好方法。
(6)层内的样本的变异性较小,层与层之间却具有较大的差异性。适用于总体分布的情况不均匀、各总体单位之间标志差异程度比较大的总体。
三、等距抽样
等距抽样又称系统抽样或机械抽样,也是等概抽样方法之一。从含有N个单元的总体中,随机地确定起点后,按照预先规定的间隔抽取n个单元组成样本,用以估计总体的方法称为等距抽样,亦称系统抽样。 等距抽样的特点:
(1)等距抽样的最大优点在于这种抽样方法组织样本简便,外业样本定位易于实施。
(2)等距抽样能保证样本单元较均匀的分布在总体内,从而提高了样本对总体的代表性,有利于提高抽样效率。
(3)等距抽样可塑性较大,可以进行多种分析,同时可以结合单元间调查行走的路途,做些其他地面调查。因此,等距抽样一般应用于大规模市场调研中,适用于总体单位变异程度比较大,但是变化率比较均匀的调查总体。 在实践中,等距抽样还存在着两个缺陷: (1)抽样误差不能合理的计算;
(2)有可能受到周期性的影响,有时周期性影响可能导致较大偏差,使抽样结果失败。
四、整群抽样
整群抽样又称成群抽样或群团抽样。它是把总体单元按照规定的形式划分成若干部分,每一部分称为一个群;然后从总体N个群中随机的抽取n个群组成样本,对抽中的群内所有单元进行全部调查。这种抽样调查方法,称为整群抽样。 整群抽样对总体划分群的基本要求是:
(1)群与群之间不能有重叠,总体中任一单元只能属于某个群; (2)全部总体单元不能有遗漏,即总体内的任意单元必属于某个群。 整群抽样适用于变异程度较大的调查总体。 整群抽样的主要优点是:
3
抽样调查技术
(1)节省人力、物力和时间; (2)在经费增加不多的条件下,提高总体估计效果; (3)设计和组织抽样比较简单; (4)总体单元标志值变动大的总体,宜采用成群抽样。 整群抽样的种类及其估计方法: 1.等群抽样 等群抽样是指总体单元划分成若干群后,各群含的单元数相同。 设总体中含有N个群,每个群含有M个总体单元,随机地从N群中抽出n个群作样本,第i群中第j个单元的观察值为yij,则有: 第i个群总量yiyij j1M1第i个群的平均数yiMyijj1M1yi M1n1n样群平均数为:yclyini1Mni11N1总体平均数为:YyiNi1NMNyj1MMij yi1j1ij (1)等群抽样的总体平均数估计值 1n1nMyclyi或yclyij 式中:ycl为等群总体平均数估计值。 ni1nMi1j11nM1nM1由于E(ycl)E(y)E(y)nMYY ijnMijnMi1j1nMi1j1证明样本平均数ycl是总体平均数Y的误差估计值。 (2)估计值的方差 1n若用S(yiycl)2 n1i12B成群抽样实质上是以群单元代替总体单元,以群平均数yi代替总体单元的标志值22用群间方差B的估计值SB代替总体方差2,根据简单随机抽样的方差公式,Yi,2nSB1不难得出成群抽样平均数的方差公式,为S(ycl)(yiycl)2 nn(n1)i124
抽样调查技术
n1nS(ycl)(yiycl)2(1) n(n1)i1N2n1n11n22又因为S(yiycl)2[yi(yi)2] n1i1M(n1)i1ni12B所以在实际计算时,为方便起见,可以不必求出各群yi值,而只需计算各群总量yi及yi,即可用 i1nn1n11n22 S(yiycl)2[yi(yi)2]n1i1M(n1)i1ni12B及2nSB1S(ycl)(yiycl)2两式计算成群抽样的方差。 nn(n1)i12n11n2S(ycl)[y(yi)2] 2in(n1)Mi1ni12标准误:S(ycl)S2(ycl) 估计误差限:(ycl)t(n1)S(ycl) 成群抽样关于总体平均数的估计区间为: Yycl(ycl) 2.不等群抽样的方法 不等群抽样可以用不等概抽样的方法估计,也可用随机等概抽样方法估计。下面介绍等概整群抽样的估计方法。主要有三种估计方法:不等群加权平均法、不等群简单平均法和不等群比估计法。 不等群加权平均法 设总体分为N群,每群含有Mi个单元,从中随机抽取n群进行调查,第i个样群内第j个单元的观察值为yij(i1,2,...,n;j1,2,...,Mi),令第i 群的总量 ,则 yiyij, j1Mi第i群内单元平均数yi为, y1yiiMiMiyj1Miij 5
抽样调查技术
N令总体单元数为M0MiNM i1其中,M为总体群内平均单元数。 (1) 总体平均数估计值 1nyiycl() Mni11n1N这个估计值是无偏的,因为yi是总体yi的无偏估计。 ni1Ni1(2) 1nyi估计值的方差。由方差定理,ycl()式的方差为Mni1nN21nS(ycl)2(yiyi)2(1f)M0n(n1)i1ni12112(yy)(1f)ii2Mn(n1)i1ni1nn 2nSB1yi2或简写为,S(ycl)(Mycl)(1f)n(1f) n(n1)i121nyi1nyi2 其中,群间方差S (ycl),yclMMn1i1ni12B(3)标准误 S(ycl)S2(ycl) (4)估计误差限 绝对误差限tn(n1)S(ycl) 相对误差限Eycl 其他指标的估计方法同简单随机抽样。 不等群简单平均法 (1)总体平均数估计值 1nyi1nyclyi ni1Mini1(2)估计值的方差,按简单随机抽样计算 2nSB12S(ycl)(yiycl)(1f)n(1f) n(n1)i126
抽样调查技术
1nyi 其中,S(ycl)2 Mn1i12B 其余指标估计方法同前。 不等群比估计法 设总体含N个群,各单元数为Mi(i1,2,...,N),从总体中随机抽取n群调查,各样本群的观测值总和为yi,那么,样本群的比估计方法为:(1)样群平均数估计值 nyclyi1iMi1n i(2)估计值的方差 n1fnMi21f2 S(ycl)(yy)(yMy)icliicl22n(n1)i1Mn(n1)Mi12其余指标估计方法同前。 3.与群内单元数大小成比例的抽样 这种组织样本的方法是,总体划分成群后,群内单元数不等,抽取样本群之后,不是全部调查这些群内的单元,而是按一定比例从样群中抽取单元数,即群内单元数多的就多抽取,少的就少抽取。 五、二阶与多阶抽样 二阶抽样是将总体划分为若干部分称为一阶单元 ,而每个一阶单元又都包括许多单元称二阶单元。二阶抽样是从总体中抽取若干个一阶单元,再其从抽中的各一阶单元中抽取若干个二阶单元,进行调查观测和抽样估计总体特征数。所以,二阶抽样又称两阶段抽样或两级抽样。如果抽样是按三阶段进行,那么,可以从抽中的二阶样本单元中再抽取三阶样本单元。再从抽中的各三阶样本单元中抽取四阶样本单元……以后各阶单元作为样本的基本单元,这就形成了多阶抽样。 二阶及多阶抽样的主要优点是:(1)有利于抽样调查的组织和实施; (2)有利于降低调查成本,提高估计效率; (3)有利于满足各阶对调查资料的需求; (4)产品检验。 二阶抽样 把总体首先划分为N个单元,叫做一阶单元或初级单元。在每个一阶单元内再划分为M个单元,叫二阶单元或次级单元。从N个一阶单元中随机的抽取n个,作为一阶样本单元,再从被抽中的各一阶单元中随机的抽取m个二阶样本单7
抽样调查技术
元,组成二阶样本,这种用二阶样本估计总体的方法叫做二阶抽样。 一阶单元大小相同的二阶抽样 从含有NM个二阶单元的总体中,随机的抽取n个一阶样本单元,又从各一阶样本单元中随机抽取m个二阶样本单元。以yij表示第i个一阶单元中第j个二阶单元的标志值。 (1) 总体平均数的估计值 1myiyijmj1y11yyijinmni1i1j1nnm 式中:y为总体平均数估计值,等于二阶样本单元平均数。 (2) 估计值y的方差。像整群抽样那样,二阶抽样的总体方差也可以分解为两部分,即一阶间方差和一阶内二阶间方差。当用样本估计时, 1n如果令S(yiy)2 n1i121为一阶间方差 nm11n22S(yijyi)S2i n(n1)i1j1ni122为一阶内二阶间平均方差f1nm f2 NM22S12S2(1f)f1(1f2) 分别为一阶和二阶单元抽样比,则S(y)nnm为(y)212n(1f1)22nm(1f2)的无偏估计式。 在上式中,当mM,即f21时,则二阶抽样相当于简单随机抽样或整群抽样。如果nN,则这个公式就是比例分层抽样的方差公式。因为在此情况下,可以视一阶单元为层,对所有层进行抽样。就这方面来说,二阶抽样可以理解为一种不完全的分层抽样。 (3) 估计误差限。在y服从或近似服从正态分布的条件下(y)t(nm1)S(y 一阶单元大小不等二阶抽样 1.第一、第二阶均为等概抽取的两阶抽样 8
抽样调查技术
设总体有N个一阶单元,各一阶单元含有二阶单元数为Mi(i1,2,...,n)。首先从
1~N中随机抽取n个一阶样本单元,再从被抽中的各一阶单元中随机抽取mi个
二阶样本单元,其标志值为yij(i1,2,...,n;j1,2,...,mi),采用加权方法估计,则, (1)两阶样本平均数
NynM01 或 ynMnMy
iii1n1nMMiyiyii Mni1i11n1式中:MMi,yiNi1mi(2)估计值的方差
yi1miij
1121nMi2112S(y)()S1()S2i nNnNi1M2miMi22S121nMi2S2i或S(y)(1f1)(1f2i) 2nnNi1Mmi21nMiyi1nMi222式中:S(y)(2yiny2) n1i1Mn1i1M211miS(yijyi)2 mi122if1nN,f2imiMi
2.一阶单元大小不等的二阶样本单元数的确定
一阶单元内所含二阶单元数不等,当用相同的抽样比抽取二阶样本单元mi时,只能先确定二阶样本单元数的平均数,后据m计算一阶样本n,最后按权重分配二阶样本单元。
(1) 二阶样本单元平均数确定
2S2Dm1 12D2S12S2MnMi212式中:SS2i S12Mi2(yiy)2 M(n1)i1i1M22n9
抽样调查技术
(2) 一阶样本单元数的确定 22S2S2t(S)Mm n12(y)S12t2N221当一阶样本n抽取后,根据各一阶单元的大小(Mi)和二阶样本单元数总和
(mi)按式下式分配
miMinMnm
iin二阶成数抽样
yi1m设piyij是第i个一阶单元内二阶样本单元中具有某种特征的比例。
mmj1(1)总体成数的估计值
1nppi
ni1(2)估计值方差
1f1nf1(1f2)n2 Spi(1pi) (pip)n2(m1)n(n1)i1i12p其中令
n1nm22S(pip) ,S2pi(1pi) n1i1n(m1)i121提高二阶抽样精度的途径 (1)合理划分一阶单元。 (2)增加一阶单元的大小。 (3)采用分层二阶抽样。
(4)在样本单元数一定时,适当增加一阶样本单元数 ,相应减少二阶样本单元数 ,可以提高抽样精度。 多阶抽样
按照二阶抽样的模式,抽样过程可以进行到三、四阶甚至更多阶次。一般把三阶以上的分阶抽样称为多阶抽样。
六、成群抽样 成数抽样的概念
总体中具有某种特点的单元数与总体单元数之比值,称为具有某种特点单元的总体成数。成数又称为频率或百分比。
10
抽样调查技术
设有限总体单元数为N,其中具有某种特点的单元数为M,则总体成数P为 M P。 N从含有N个单元的总体中,随机抽取n个单元组成样本,其中具有某种特点的m个单元与样本单元数之比值称为样本成数。 mp
n用样本成数估计总体成数的抽样方法称为成数抽样。
按照样本单元的不同形状和估计过程可分为以下几种抽样调查方法:成数点抽样估计法、面积成数抽样法、截距抽样估计法、用相片判读地面修正的成数法。
七、双重抽样
双重抽样又称两相抽样,是一种效率较高的抽样方法。
双重抽样的基本做法是:对于一个大总体,先从总体中随机抽取一个较大样本,由此估计出有关总体的结构或辅助变量以及其他有关信息;然后再从第一重较大的样本中随机抽取一个较小的样本(第二重样本),利用这两重样本对总体所调查的主要因子进行抽样估计。 双重抽样的目的,主要是希望用一个比较理想的辅助因子,在不增加费用的条件下,提高估计精度。
为达到此目的,选择辅助因子时应注意两点:一是所选择辅助因子要容易测定,成本低;二是辅助因子与主要因子之间要存在紧密线性相关。
双重抽样的两重样本抽取方式有两种:即第一重样本与第二重样本的抽取。也可以非地抽取,也就是第一重样本抽出后,再从第一重样本中抽取第二重样本,或者说第二重样本包含在第一重样本之中。 双重分层抽样估计方法
1. 双重分层抽样总体平均数估计值
ydstL1L'''nhyhwhyh nh1h1式中:ydst为双重抽样样本平均数;
1yhnh'hyh1nhhi (i1,2,... nh,'nhw'
n可以证明这个ydst是总体平均数Y的无偏估计值。 2. 估计值方差 当n'与n不时,则估计值的方差近似公式为 11
抽样调查技术
1L'S(ydst)wS(yh)'wh(yhydst)2 nh1h12'2h2L1L'2或S(ydst)wS(yh)'[whyh(ydst)2] nh1h12'2h2L以上两式可以理解为,右边第一项是分层抽样方差(二重样本平均数方差),右'n'n边第二项误差是一重样本的方差。且假定N与n都很大、与hN都很小,Nh略而不计条件下得到的。 双重回归抽样估计方法 在回归估计部分,介绍了总体平均数的回归估计方法。估计值为yrabX或 1yryb(Xx)式中:XNx ;X为已知值。在回归估计中,X未知的ii1N情况下,就需要从总体中抽取一个大样本n'来估计辅助变量的总体平均值X,再从总体中抽取一个较小样本n,对n个单元调查指标yi和辅助变量xi(i1,2,...,n)这就构成了双重回归抽样。其抽样模式如下: 第一重样本n' x1x2'xX x'n第二重样本n x1y1xy22yabx,x,y,Sx,Sy xnynn'大,成本低,易测。,n小,成本高,测定困难。 (1)总体平均数估计值 ydrabx' 或 ydryb(x'x) 式中:ydr为总体双重回归平均数估计值,如果总体各单元主要因子与辅助因子12
抽样调查技术
之间存在着线性回归关系,则ydr是总体Ydr的无偏估计直。 (2)双重回归估计值的方差。如果总体各单元在辅助因子x上的分布为正态,第二重样本是从第一重样本中抽取,并且1 与1'相当于 而言可忽略不计时,nn则总体方差近似等于(ydr)22y(12)n222xxn'N在实际应用中,总体N相当大,并且样本指标代替总体指标,故上式改变为22'2SS1(xx)ye S2(ydr)Se2[n]'nn(xix)2i11nˆi)2 式中:S(yiyn2i12e222xSySe2 2 由于 Se2Sy(12) 所以 2SySe21(x'x)2 S(ydr)S(1)[n]'nn(xix)222y2i1八、不等概抽样 不等概抽样就是总体中各单元被抽中概率不完全相等的抽样。更确切的说,就是总体中每个单元被抽中的概率与单元大小成比例的抽样。简称PPS抽样。 不等概抽样样本组织方法:一种是列表累计法;另一种是两项取舍法。 不等概抽样的估计方法 1. 样本平均数 1nyi ypNni1pi式中:yp是总体平均数的估计值,是概率自行加权平均数。
如果总体各单元被抽取的概率相等,即:p1p2pN1N,由上式不难看出,该式就是简单随机抽样平均数估计公式。
2.样本平均数的方差 (1)平均数的方差
13
抽样调查技术
1Nyi2Y2 (yp)Nni1pin2(2)总体平均数方差2(yp)的无偏估计值
nyi2112S(yp)2()yp
Nn(n1)i1pin12式中:S2(yp)为样本平均数的方差。 (3)标准误
S(yp)nyi211()yp2 2Nn(n1)i1pin1上式表明,如果总体各单元被抽取的概率相等的话,即均等于1简单随机抽样的抽样误差公式。
3.总体总量的估计值
N,则上式即为
ˆpps为总体总量Y的估计值,则 设yˆppsy4总体总量估计值的方差 (1) 总体方差
1nyi ni1pi1Nyi2ˆpps)(Y2) (ynpi21Nyiˆpps)(Y)2pi 或 (yni1pi2ˆpps)的无偏估计值为: (2) 当用样本估计时,总体方差2(ynyi1ˆpps)ˆpps)2 S(y(yn(n1)i1pi25.估计误差限
不等概抽样其误差限的估计,在n充分大的条件下,则yp的估计误差限为
(yp)tS(yp) E(yp)(yp)yp
14
抽样调查技术
不等概抽样还包括了不等概整群抽样、不等概二阶抽样、不等概三阶抽样等,在此就不多做叙述。
以上就是对抽样调查方法的一些探究和总结。
参考文献:宋新民 李金良《抽样调查技术》(第2版)中国林业出版社
15
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igbc.cn 版权所有 湘ICP备2023023988号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务