内容摘要:人口普查质量评估调查通常采取分层多步或多阶段等距整群抽样方式进行,以美国2000年人口普查质量评估调查为例论述这项调查工作的抽样设计方案。第一步抽样由形成街区群、对街区群分层和等距抽取街区群组成;第二步抽样以街区群为抽样单位抽取第一步样本的子样本,进行住房单元比较和目标延伸搜索;第三步抽样是从第二步样本大型街区群中抽取由邻近住房单元构成的“片”,最终抽取街区群11303个,抽样比率约3‰。
关键词:人口普查;质量评估调查;分层抽样;多步抽样
作者简介:
【作者简介】胡桂华,吴东晟,重庆工商大学数学与统计学院
【内容提要】人口普查质量评估调查通常采取分层多步或多阶段等距整群抽样方式进行,以美国2000年人口普查质量评估调查为例论述这项调查工作的抽样设计方案。第一步抽样由形成街区群、对街区群分层和等距抽取街区群组成;第二步抽样以街区群为抽样单位抽取第一步样本的子样本,进行住房单元比较和目标延伸搜索;第三步抽样是从第二步样本大型街区群中抽取由邻近住房单元构成的“片”,最终抽取街区群11303个,抽样比率约3‰。
【关 键 词】人口普查;质量评估调查;分层抽样;多步抽样
中图分类号 F061 文献标识码 A JEL分类号 C8
引言
美国(Hogan和Wolter, 1988)、新西兰(Statistics New Zealand, 2007)、南非(Statistcs South Africa, 2012)、澳大利亚(Australian Bureau of Statistics, 2012)、英国(贺本岚等,2010)和中国(胡桂华,2013)等国都是在每次人口普查登记工作结束后半个月到2个月的时间内通过抽取某种地理区域(美国是街区群,我国是普查小区)的样本对人口普查的登记质量进行评估。通过评估,一方面估计人口普查覆盖误差,另一方面估计人口普查的内容误差。其中,绝大多数国家只是估计覆盖误差。
相比其他国家和地区,美国人口普查质量评估调查的水平居世界领先地位,因而研究美国人口普查质量评估调查的抽样设计方案更具有代表性和权威性。由于美国2010年人口普查质量评估调查(Robert和Michael, 2008)采用与2000年人口普查质量评估调查基本相同的抽样设计(只是对样本的抽取过程做了一点调整,所做的调整是:2010年方案中对大型和中型街区群抽样层取消了第二个抽样步骤,对小型街区群抽样层则保留了第二个抽样步骤),所以本文只研究美国2000年人口普查质量评估调查的抽样方案(U. S. Bureau of the Census, 2004)。
在论述美国2000年抽样设计方案以前,有必要交代一件重要的事情。美国普查局在制订2000年人口普查计划时,曾经打算把经过质量评估调查修订的各州人口普查修正数字用作国会众议院代表席位名额和联邦基金等在各州之间分配的依据(胡桂华,2011)。基于这一目标,拟实施被称之为“完全人口数目测量”(Integrated Coverage Measurement, ICM)的质量评估调查。ICM所使用的样本预定在1999年3月抽取。然而,在1999年1月,美国最高法院做出了一项裁决,明确反对把经过质量评估抽样调查修正的人口数字用作国会众议院代表席位名额和联邦基金等在各州之间分配的依据。这样一来,质量评估抽样调查数字的用途就变成了仅仅用于研究目的。随着调查资料预定用途的这种改变,所需要的样本量也应该相应地减少。按测算,为满足前一种用途,样本须达到75万个住房单元的规模,而对后一种用途,样本只需要包括30万个住房单元就足够了。可是在这时,为执行原来ICM抽样计划的大量前期工作已经做完,把这些工作成果舍弃不用显然是一种浪费。在这种情况下,美国普查局决定,先按原来的75万个住房单元样本规模的ICM计划抽出样本,再从中进一步抽一个样本,使其仅仅保留30万个住房单元。显然,这是一个在上述具体背景下可以节约时间、提高效率的最佳处理方案。这个处理方案所带来的一个附带的好处是,可以根据ICM样本提供的信息,对下一步的抽样做更精细的设计。
本文有助于为我国2020年及以后历次人口普查质量评估调查制订出科学的、可行的、符合我国国情的抽样方案,从根本上改变我国人口普查质量评估调查抽样设计方案存在的诸多弊端,显著提高我国未来人口普查质量评估的水平。
一、第一步抽样
1.抽样单位
第一步抽样以街区群为抽样单位。街区群由一个或几个相邻近的街区组成,是住房单元(位)的群体。街区群中的街区是人口普查时的普查小区。街区一定是陆地上的一个区域,它可能是城市中的一个标准地区,也可能是形状不规则但是有可以识别的政治和地理边界线的区域。街区由住房单元组成。住房单元是人口普查质量评估调查的基本调查单位,是供人们生活用的一个独立的生活区,可以是一所房子、一套公寓、一个流动的家、一组房间、单一房间等。住房单元作为人们的生活区,它应当满足下列3个条件之一。其一,有人居住;其二,虽无人居住,但这只是暂时的;其三,虽无人居住,但目标是生活区。
街区群是由调查机关运用图上作业的方法依照下列原则组合邻近的街区来划定的。第一,街区群内应当陆地构成紧密,调查员可以随意行走,而且不会增加额外成本。第二,街区群不能跨越各种重要的地理边界线,例如,不能跨越县、普查制表区、美国印第安人区域等的边界线。例外的情况是,两个城市边界线附近的两个街区可以组成街区群。第三,无论在什么情况下,不足3个住房单元的小街区群,都要尽可能地与邻近含有住房单元的街区形成新的街区群,以减少小街区群的总数目。如果附近没有含住房单元的街区,小街区本身也可以形成街区群。第四,含80个或更多个住房单元的街区一般将其自身作为一个街区群。第五,地理面积超过15平方英里的街区一般将其自身作为一个街区群。
那么,为什么要以街区群为抽样单位呢?比街区群级别低的单位有街区,另外在制订抽样方案的过程中还曾经有人建议把街区划分成几个更小的“子街区”;比街区群级别高的单位有县,还有比县更高级别的单位。为什么不选择这些比街区群大的或小的单位而最终选择了街区群做抽样单位呢?这主要是出于以下考虑:如果以街区为抽样单位,总体中抽样单位数目会太多,这将增加抽样框编制的难度,而且容易遗漏或重复;如果以比街区级别更低的小区域为抽样单位,将因小区域之间边界线难以精确划分而引起边界偏差,此外还会增加调查成本和比对误差;如果以全国性调查中经常使用的县作为抽样单位,总体中抽样单位数目太少,这会影响样本的代表性。以街区群为抽样单位,除了能够避开以上缺点以外,还有另外一个优点,那就是街区群的规模平均来说是30个住房单元,这刚好是一个调查员一个工作日较为适宜的工作量,从而可以免去因工作量与调查员能力不相称而导致的工作效率和成本上的损失。美国2000年人口普查质量评估调查中全国的街区及街区群数目如表1所示。

2.对总体中的街区群分层
为提高样本的代表性,抽样前,对每个州的所有街区群按规模大小进行分层。分层设计方案如表2所示。

在表2中,并非所有的州都设置了AIR层。设置AIR层必须满足的条件是:必须有足够多的印第安人居住在居留地上。美国的50个州中,只有26个州设置了这个层。在其他的一些州中,则把居住印第安人的街区群按照街区群的大小划入前三层中的某一适当的层。
按照表2的设计方案对总体中的街区群进行实际分层操作时,各个街区群的规模是根据1999年编制的人口普查地址目录来确定的①。不在这个地址目录的街区群,就根据1990年人口普查结果来确定其规模。
3.样本量的分配
这里所说的样本量分配所要解决的问题是,怎样把根据精度要求测算出来的全国所需要的样本量(用样本中需要包含的住房单元数量来表示)任务分配给各州(用各州需要抽取的街区群数量表示),然后再把州的任务样本量(街区群数)分配到表2设计的各层。
(1)全国的任务样本量。第一步样本的全国任务样本量是根据当初拟实施的用来评价人口普查质量的“完全人口数目测量”(Integrated Coverage Measurement, ICM)调查的需要测算出来的。根据ICM调查目标所提出的精度要求,测算出全国样本应当含有的住房单元数为75万个。假定大、中型以及AIR街区群的平均规模是30个住房单元,并且认为完成预定的调查目标主要依赖大、中型以及AIR街区群。于是推算出,为了满足ICM调查目标所提出的精度要求,全国样本中含有的大、中型以及AIR街区群的数目应当约为25000个。其中,在ICM调查目标中对于美国印第安人居留地(AIR)的抽样精度特别提出了要求(因为它在美国政治经济活动中占有重要的一席之地)。根据这一要求测算,在全国样本中应当含有355个美国印第安人居留地(AIR)街区群。这就是说,在上述25000个样本街区群中,需要分出355个给美国印第安人居留地。前面说过,在美国的50个州中,只有26个州单独设置了AIR层,而其他的州则没有设置AIR层。现在的355个美国印第安人居留地(AIR)街区群的样本量任务为了能够确保落实,自然应当交给单独设置了AIR层的26个州来承担。另外,对于小型街区群的样本量,是单独提出一个较低的精度要求单独测算的。测算的结果是,全国所需要的小型街区群的样本量为5000个街区群。将上面给出的结果列于表3。

(2)全国任务样本量分配到各州。全国26个州有AIR层,这26个州的样本量由表3中3个组成部分分配的结果共同组成;其他州和哥伦比亚特区的样本量由表3中(1)和(3)分配结果的两个部分组成。下面给出如何把表3中24645、355、5000这3个数字进一步分配到各州。
第一,24645个街区群的分配。总样本中,全国50个州及哥伦比亚特区中的某一个州被分配承担的非AIR大、中型街区群个数为:

式(1)中,n的右上角标“(1)”表示第一步抽样,下面各公式相同。
第二,355个街区群的分配。总样本中,26个有AIR层的州中的某一个州被分配承担的AIR街区群个数为:

第三,5000个街区群的分配。总样本中,全国50个州及哥伦比亚特区中的某一个州被分配承担的小型街区群个数为:

式(3)中,各州的小型街区群的个数依据“普查最初地址目录”计算,小型街区群的人口数依据1990年人口普查结果计算。
(3)把一个州的样本量分配到各个抽样层。现在的任务是求得一个州按表2的设计所划分的4个层各自应当承担多大的样本量。实际上,这里需要做计算的只是将式(1)的结果再进一步划分给大型街区群层和中型街区群层,算出表2第2、第3两个层的样本量。至于表2第4层(只限于26个州有这一层)和第1层的样本量,只要分别取式(2)和式(3)的计算结果即可,这里不必另做计算。下面就来分割式(1)。
第一,由大型街区群组成的层应抽取街区群的数目:

式(4)和式(5)中,
由式(1)给出。式(4)和式(5)中的本州大型街区群层和中型街区群层中,住房单位(元)数目业已按照表2的设计方案对本州的街区群进行实际分层操作时,根据1999年编制的“普查最初地址目录”或1990年人口普查结果算出。

待到将来第一步样本(即ICM样本)抽取出来以后,要对每一个样本街区群做现场调查,编制住房单元地址目录(独立地址目录)。出于不影响后续工作进度的考虑,要求此项工作须在规定的时间内完成。为此,各州都要综合考虑抽样的精度要求、工作的时间要求、人力和经费的限制等诸方面的因素,测算出对大、中型街区群编制住房单元地址目录的可行的计划工作量。现在,按照上面的任务样本量可以算出编制住房单元地址目录的实际工作量。如果实际工作量高于计划工作量(高出10%或更多),就将任务样本量乘以计划工作量与实际工作量之比算出一个经过压缩以后的样本量。抽样的操作按照这个经过压缩以后的样本量进行。为了简便,我们不再为经过压缩以后的样本量设置新的记号,今后使用
这几个记号时,如果是经过了压缩的计算,那么这个记号就表示经过压缩以后的样本量。
4.抽取样本的方式
分别在州的大型街区群层、中型街区群层、小型街区群层和AIR街区群层,以街区群为单位在各层之间独立地抽取简单随机样本(在实际操作中是做等概率等距抽样),在h层,抽足
个街区群后抽样终止(h=大型街区群层、中型街区群层、小型街区群层、AIR街区群层)。

