一种人口抽样调查样本分层系统及方法

文档序号:6582562阅读:242来源:国知局
专利名称:一种人口抽样调查样本分层系统及方法
技术领域
本发明涉及地理信息系统和人口统计学技术领域,特别是一种基于地理信息技术
的人口抽样调查样本分层系统及方法。
背景技术
分层抽样,又称类型抽样或分类抽样。分层抽样是先将总体单位按一定的标志加 以分层,而后在各层中按随机原则抽取若干样本单位入样,由各层抽取的样本单位构成总 的样本。 分层抽样为提高抽样的有效性、获得更高数据精度提供了很大帮助,针对人口抽 样调查适用的分层方法就显得尤为重要。近些年来,尽管地理信息技术与计算机技术的快 速发展给人口抽样调查地理框架体系的设计、管理提供了新技术手段,但是目前在人口抽 样调查中仍采用专家经验进行手动分层,这种方式易受到个人主观因素的影响,很难得到 客观而准确的样本。因此,迫切需要一个科学的分层模型以实现对各级样本单位分层规格 化、系统化、自动化,最大可能的保证抽样的均衡性。 现行技术的抽样方法主要面向数据流、通讯信号或硬件装置,没有空间分布、分层 的概念,如申请号200710166067. 2的中国专利申请,提供的基于网络数据接收包的随机 抽样方法和装置,申请号为94195117. 0的专利文献提供的参数抽样装置都内有涉及空间 分布、分层的概念。中国专利申请号为200810104287. 7提供的"高效能空间抽样调查三明 治模型方法",虽然加入了空间要素,但仍没有提出人口因子的分层模型及样区选择方法。

发明内容
本发明所要解决的技术问题在于,提供一种人口抽样调查样本分层系统及方法, 通过建立人口分层模型对样本区域进行层次划分,抽取具有代表性的典型样本,提高人口 抽样方法的数据精度和准确度。 为达到上述目的,本发明提供的人口抽样调查样本分层系统采用了人口因子的分 层模型,对样本区域进行层次划分,能够在大量抽样单元中抽取具有代表性的典型样本。
为达到上述目的,本发明公开了一种人口抽样调查样本分层系统,其特征在于,包 括 —人口数据库构建模块,用于将分散的数据库经过系统预处理得到集成的全局信 息库,以提供数据支持; —人口空间分布综合权重值获取模块,用于构建人口空间分布综合权重值计算模 型,以获取各区域内人口空间分布权重值; —指标标准化处理模块,用于对量化指标数据进行标准化处理,建立区域因子人 口系数表面; —分层模型构建模块,用于根据设定的分层原则构建人口抽样调查分层模型;
—样本抽取模块,用于对所述人口抽样调查分层模型进行样本抽取。
上述人口抽样调查样本分层系统,其特征在于,所述人口空间分布综合权重值计算模型如下<formula>formula see original document page 5</formula>
其中,Wi表示每个行政区划内人口信息综合权重值,h、 o2... On为进行空间分布区划采用的单因子人口指标, an为待定的经验参数,n = 1,2,3...。 上述人口抽样调查样本分层系统,其特征在于,所述指标标准化处理模块采用下
式对量化指标数据进行标准化处理<formula>formula see original document page 5</formula>
其中o ij指的是第j个省的第i个指标数据, o ' ij是第j个省的第i个经过标准化处理后的结果。 上述人口抽样调查样本分层系统,其特征在于,所述分层模型构建模块采用下式
建立模型[<formula>formula see original document page 5</formula>
其中,Dp对应的指标是人口密度,,对应的是人均GDP,^对应的是单位国土
面积上的GDP, I。对应的是垦殖指数,1对应的是公路密度,Dn对应的是铁路密度,P。tp对应的是城镇人口比重,Pd对应的是建设用地比重,A对应的是海拔高度,In对应的是自然条件系数。 上述人口抽样调查样本分层系统,其特征在于,所述样本抽取模块采用下式获取
样本个数
<formula>formula see original document page 5</formula> 其中,p表示预设的默认抽取率,Ceil函数表示向上取整;当采用该公式计算县级样本个数时,t i表示第i层所需抽取的县级单位个数,Si表示第i层所拥有的县级单位总个数;当采用该公式计算乡级样本个数时,Ti表示第i县所需抽取的乡级单位个数,Si表示第i县所拥有的乡级单位总个数。 进一步的,本发明还提供了一种应用上述的人口抽样调查样本分层系统的分层方法,其特征在于,包括。 —人口数据库构建步骤,用于将分散的数据库经过系统预处理得到集成的全局信息库,以提供数据支持; —人口空间分布综合权重值获取步骤,用于构建人口空间分布综合权重值计算模型,以获取各区域内人口空间分布权重值; —指标标准化处理步骤,用于对量化指标数据进行标准化处理,建立区域因子人口系数表面; —分层模型构建步骤,用于根据设定的分层原则构建人口抽样调查分层模型;
—样本抽取步骤,用于对所述人口抽样调查分层模型进行样本抽取。
上述人口抽样调查样本分层方法,其特征在于,所述人口空间分布综合权重值计 算模型如下<formula>formula see original document page 6</formula>
其中,Wi表示每个行政区划内人口信息综合权重值, o p o 2. . . o n为进行空间分布区划采用的单因子人口指标, an为待定的经验参数,n = 1,2,3...。 上述人口抽样调查样本分层方法,其特征在于,所述指标标准化处理步骤采用下
式对量化指标数据进行标准化处理 ,cr,). + max((Ty) _ min( .)<formula>formula see original document page 6</formula>2 max(cr乂.) _ mm(a^.) 其中o u指的是第j个省的第i个指标数据, o ' u是第j个省的第i个经过标准化处理后的结果。 上述人口抽样调查样本分层方法,其特征在于,所述分层模型构建步骤采用下式
建立模型
<formula>formula see original document page 6</formula>
其中,Dp对应的指标是人口密度,t对应的是人均GDP,i「对应的是单位国土
面积上的GDP, I。对应的是垦殖指数,1对应的是公路密度,Dn对应的是铁路密度,P。tp对 应的是城镇人口比重,Pd对应的是建设用地比重,A对应的是海拔高度,In对应的是自然条 件系数。 上述人口抽样调查样本分层方法,其特征在于,所述样本抽取步骤采用下式获取
样本个数
<formula>formula see original document page 6</formula> 其中,梦表示预设的默认抽取率,Ceil函数表示向上取整;当采用该公式计算县级 样本个数时,、表示第i层所需抽取的县级单位个数,Si表示第i层所拥有的县级单位 总个数;当采用该公式计算乡级样本个数时,Ti表示第i县所需抽取的乡级单位个数,Si 表示第i县所拥有的乡级单位总个数。 与现有技术相比,本发明提供的人口抽样调查样本分层系统及方法通过建立人口 分层模型对样本区域进行层次划分,抽取具有代表性的典型样本,提高人口抽样方法的数 据精度和准确度,解决了现行人口抽样调查方法抽样单元代表性不强和人口统计数据精度 不高的问题。


图1为本发明的人口抽样调查样本分层系统结构框图;
图2为本发明人口抽样调查样本分层方法的流程图;
图3为本发明中人口数据库构成示意图; 图4为应用本发明人口抽样调查样本分层系统及其方法的工作流程;
图5为利用本发明分析得出的中国人口抽样调查样本分层示意图。
具体实施例方式
下面结合附图对本发明进行详细的说明,以进一步了解本发明之目的、方案及功 效。 图1为本发明的人口抽样调查样本分层系统结构框图,参考图l,本发明的人口 抽样调查样本分层系统,包括一人口数据库构建模块IO,用于将分散的数据库经过预处 理得到集成的全局信息库,以为各功能模块提供数据支持;一人口空间分布综合权重值获 取模块20,用于构建人口空间分布综合权重值计算模型,以获取各区域内人口空间分布权 重值;一指标标准化处理模块30,用于对量化指标数据进行标准化处理,建立区域因子人 口系数表面;一分层模型构建模块40,用于根据设定的分层原则构建人口抽样调查分层模 型;一样本抽取模块50,用于对所述人口抽样调查分层模型进行样本抽取。
图2为本发明人口抽样调查样本分层方法的流程图,参考图2,本发明进一步提供 了一种应用上述人口抽样调查样本分层系统的分层方法,该方法包括以下步骤一人口数 据库构建步骤S10,用于将分散的数据库经过系统预处理得到集成的全局信息库,以提供数 据支持;一人口空间分布综合权重值获取步骤S20,用于构建人口空间分布综合权重值计 算模型,以获取各区域内人口空间分布权重值;一指标标准化处理步骤S30,用于对量化指 标数据进行标准化处理,建立区域因子人口系数表面,其中该区域因子人口系数表面是指 分配到多个行政区划中的人口分布影响力因子经过指标化的系数集合;一分层模型构建步 骤S40,用于根据系统设定的分层原则构建人口抽样调查分层模型;一样本抽取步骤S50, 用于对所述人口抽样调查分层模型进行样本抽取。 下面进一步说明本发明人口抽样调查样本分层系统和方法的
具体实施例方式
首先通过人口数据库构建模块10构建人口数据库,包括数据收集,数据预处理, 数据库设计等建库流程。人口数据库构建模块以合理的结构将分散的数据库经过系统加 工、汇总和整理得到集成的全局信息库,包括空间、属性等多项数据库。对收集到的基础地 理数据、遥感数据进行预处理得到系统所需数据,如坡度、坡向等,另外,由于原始底图以及 栅格数据采用的投影、坐标系等信息均不同,在数据预处理中对其投影坐标系等进行统一 化管理。再利用Access设计人口数据库,本发明以特征维、空间维和时间维构成立方体的 三维坐标系。这里的特征维是指包括不同类型的统计数据,如人口统计数据、经济统计数据 等,而人口统计数据大类内还可以再细分为不同类别的指标,如人口年龄、性别比、人口迁 移、教育等。同时收集不同时期人口普查统计数据、社会经济统计数据以及全国分省行政区 划底图、河流、道路等基础地理数据。数据收集完成后,将人口统计数据存入源数据库中,将 基础地理空间数据导入到人口数据库中,考虑到不同的用户在使用系统时会根据具体应用考虑不同的人口影响因子,本发明所构建的数据库具有开放性,以保证将来系统数据内容
的扩充及数据更新。图3为本发明数据库构建示意图,参考图3,本发明的人口数据库以空
间和属性数据基础上建立的多维数据立方体为数据分析模型,以专题地图、统计图表、统计
报表等为表达形式,反映人口数据的规律,其中空间数据库主要包括行政区划数据和基础
地理数据;属性数据库主要包括人口普查数据、社会统计数据及地名属性数据。 人口空间分布综合权重值获取模块20利用人口数据库提供的数据,通过人口空
间分布综合权重值计算公式 <formula>formula see original document page 8</formula> (1) 确定各输入区域内的人口空间分布综合权重值。其中,Wi表示每个行政区划内人
口信息综合权重值,h、(^... C^为进行空间分布区划采用的单因子人口指标,指数CIn为
待定的经验参数,n = 1,2,3…。 指标化处理模块30 :由于各指标的量纲不同,所以需要建立标准化处理模块对各 指标量进行标准化处理。指标标准化处理模块以人口密度系数为指标量化各个因子对人口 分布的影响力,并分配到每个行政区划中(省级、区县级),建立区域内各因子人口系数表 面。指标标准化处理模块在标准化处理公式的选择和处理上,要保持其与人口密度相关性 不变,而且由于采用的模型原因,不能使其得到O值,并且其值必须同为正值或同为负值。
在本发明的指标标准化处理模块30中采用公式 <formula>formula see original document page 8</formula>
]数据库提供的各
i个指标数据,o ' u是第j个省的第i个经过标准化处理后的结果,其值域为(0. 5, 1],符 合上述所提出的要求。 分层模型构建模块40按照系统制定的分层原则进行分层模型的构建,在本发明 中,系统设定分层①自然条件一致性自然条件是人口居住的环境,直接影响人口分布, 人口普遍倾向分布与自然条件优越的地区;②经济发展水平相对一致性经济发展水平高 的地区一方面稳定本地区人口,另一方面可吸引更多的人口迁入进行分层模型构建。
基于公式(1),构建如下分层模型公式
<formula>formula see original document page 8</formula> (3) 此分层模型公式为公式1人口空间分布综合权重值计算公式,在确定计算因子后
的具体化公式。其中,Dp对应的指标是人口密度,^对应的是人均GDP, ^对应的是单位
国土面积上的GDP, I。对应的是垦殖指数,Drd对应的是公路密度,Dn对应的是铁路密度,P。tp 对应的是城镇人口比重,Pd对应的是建设用地比重,A对应的是海拔高度,In对应的是自然 条件系数。 最后用样本抽取模块50对分层模型40进行样本抽取,系统改善人口变动情况抽 样调查的样区选择方法,因为全国1%人口抽样调查涵盖了全国所有的县,直接采用对乡级 单位进行分层,进而直接由全国来抽取乡镇级别样区,如果能够拿到乡镇一级数据,也就可 <formula>formula see original document page 8</formula> (2 ) 对人口数据库提供的各指标数据进行标准化处理,式中o ij指的是第j个省的第
(D〗p X X X Ic X Drd X Drl X l ctp X PcI )以进行第三级即对乡镇进行分层,进而实现改善1%人口抽样调查所采用的样区选择方法。
本发明中样本抽取模块50采用下式获取样本个数 其中,、表示第i层所需抽取的县级单位个数,Si表示第i层所拥有的县级单 位总个数,炉表示预设的默认抽取率,其值域为
, Ceil函数表示向上取整。
现行的人口变动情况抽样调查样区选择时,首先由各省级单位按照30% 35% 的比例抽取县级单位。本系统也将按照30% 35%的比例抽取县级单位,假设该省拥有Y 个县级单位,这些县被分为i个层次,系统将采用上述样本抽取公式(4)获得需要抽取的县 级单位个数。确定好各层所需抽取的县级单位个数后,采用随机抽样法或系统抽样法来抽 取各层中的县级单位。县级单位获得后,系统下面需要抽取乡级单位。人口变动情况抽样 调查中,对于乡级单位的抽取采用的方法是在每个抽中的县级单位中随机抽取4个乡级单 位。人口变动情况抽样调查样本大概包括3500个乡级单位,根据2006年我国行政区划手 册显示,我国共有约4. 16万个乡级单位,乡级单位抽样比率约为8.4%。在乡级单位抽取 中,本系统将不采取原有方法,因为各个县级单位所拥有的乡级单位个数往往相差很大,有 些可能只有几个,有的有十几个甚至几十个,系统也将采用上述样本抽取公式(4)来抽取 乡级单位,我们用Y表示全省拥有的乡镇行政区个数,此时样本抽取公式中的h表示第 i个县所需抽取的乡级单位个数,S i表示第i个县所拥有的乡级单位总个数w表示预设的
默认抽取率,其值约为8X左右,Ceil函数表示向上取整。最后,这里需要保证:2!;的值在
8. 4%左右,倘若偏差较大,则需微调默认抽取率-,当然,系统也可以根据抽样的需求调整 乡级单位抽取率。另外,倘若能够拿到乡镇级别较详细的数据,可以对乡镇级再进行一次分 层,这样可以减小抽样所带来的误差。对于村级单位和调查小区的抽取,本系统将采用人口 变动情况抽样调查现行的抽取办法。 下面以具体实施例详细说明应用本发明人口抽样调查样本分层系统及其方法的 工作流程,参考图4: 步骤S401,进行分层,以人口密度系数为指标量化各因子(如海拔、人均GDP等 等)对人口分布的影响力,并分配到每个行政区划中,建立区域内各因子人口系数表面。为 了消除单位和量纲,对因子进行标准化处理,使其值域在
。在此基础上通过公式 (1)进行多因子融合,最终确定各区域内人口空间分布综合权重值,参考图5,为利用本发 明分析得出的中国人口抽样调查样本分层示意图。 步骤S402,采用公式(4)分布需抽取的县级单位样本,使得总的抽取的样本数占 总样本数的30% 35%。这里需要保证每个层次中至少有一个县级单位被抽到。
步骤S403,采用随机抽样法或系统抽样法,按照第S302步获得的各层所需的县级 样本个数进行抽取。 步骤S404,采用公式(4)在抽中的县级单位中分布乡级样本,抽取到的乡级单位 总和约占省乡级单位总和的8. 4%左右。 步骤S405,采用随机抽样法或系统抽样法,按照第S304步获得的各被抽中的县级单位所需的乡级样本个数进行抽取。 步骤S406,在每个抽中的乡级单位抽取1个村级普查区。 步骤S407,在抽中的每个村级普查区抽取1个调查小区。调查小区要求是一个完整的地域,地域内按不重叠,不遗漏调查户为原则,地域界限清楚,便于调查员识别。调查小区人数原则上控制在100户左右。 虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
一种人口抽样调查样本分层系统,其特征在于,包括一人口数据库构建模块,用于将分散的数据库经过系统预处理得到集成的全局信息库,以提供数据支持;一人口空间分布综合权重值获取模块,用于构建人口空间分布综合权重值计算模型,以获取各区域内人口空间分布权重值;一指标标准化处理模块,用于对量化指标数据进行标准化处理,建立区域因子人口系数表面;一分层模型构建模块,用于根据设定的分层原则构建人口抽样调查分层模型;一样本抽取模块,用于对所述人口抽样调查分层模型进行样本抽取。
2. 根据权利要求1所述的人口抽样调查样本分层系统,其特征在于,所述人口空间分布综合权重值计算模型如下<formula>formula see original document page 2</formula>其中,Wi表示每个行政区划内人口信息综合权重值,h、 02... On为进行空间分布区划采用的单因子人口指标,Qn为待定的经验参数,n = 1,2,3...。
3. 根据权利要求1所述的人口抽样调查样本分层系统,其特征在于,所述指标标准化处理模块采用下式对量化指标数据进行标准化处理其中o ij指的是第j个省的第i个指标数据,O 'ij是第j个省的第i个经过标准化处理后的结果。
4.根据权利要求1所述的人口抽样调查样本分层系统,其特征在于,所述分层模型构建模块采用下式建立模型其中,Dp对应的指标是人口密度,7对应的是人均GDP, i一对应的是单位国土面积上的GDP, I。对应的是垦殖指数,Drf对应的是公路密度,Dri对应的是铁路密度,P。tp对应的是城镇人口比重,Pd对应的是建设用地比重,A对应的是海拔高度,In对应的是自然条件系数。
5.根据权利要求1所述的人口抽样调查样本分层系统,其特征在于,所述样本抽取模块采用下式获取样本个数其中,W表示预设的默认抽取率,Ceil函数表示向上取整;当采用该公式计算县级样本个数时,Ti表示第i层所需抽取的县级单位个数,Si表示第i层所拥有的县级单位总个数;当采用该公式计算乡级样本个数时,t i表示第i县所需抽取的乡级单位个数,S ,表示第i县所拥有的乡级单位总个数。
6. —种人口抽样调查样本分层方法,其特征在于,包括。 <formula>formula see original document page 2</formula>一人口数据库构建步骤,用于将分散的数据库经过系统预处理得到集成的全局信息库,以提供数据支持;一人口空间分布综合权重值获取步骤,用于构建人口空间分布综合权重值计算模型,以获取各区域内人口空间分布权重值;一指标标准化处理步骤,用于对量化指标数据进行标准化处理,建立区域因子人口系数表面;一分层模型构建步骤,用于根据设定的分层原则构建人口抽样调查分层模型;一样本抽取步骤,用于对所述人口抽样调查分层模型进行样本抽取。
7. 根据权利要求6所述的人口抽样调查样本分层方法,其特征在于,所述人口空间分布综合权重值计算模型如下<formula>formula see original document page 3</formula>其中,Wi表示每个行政区划内人口信息综合权重值,h、 02... On为进行空间分布区划采用的单因子人口指标,Qn为待定的经验参数,n = 1,2,3...。
8. 根据权利要求6所述的人口抽样调查样本分层方法,其特征在于,所述指标标准化处理步骤采用下式对量化指标数据进行标准化处理<formula>formula see original document page 3</formula>其中o ij指的是第j个省的第i个指标数据,O ' ij是第j个省的第i个经过标准化处理后的结果。
9. 根据权利要求6所述的人口抽样调查样本分层方法,其特征在于,所述分层模型构建步骤采用下式建立模型<formula>formula see original document page 3</formula>其中,Dp对应的指标是人口密度,,对应的是人均GDP,,对应的是单位国土面积上的GDP, I。对应的是垦殖指数,Drf对应的是公路密度,Dri对应的是铁路密度,P。tp对应的是城镇人口比重,Pd对应的是建设用地比重,A对应的是海拔高度,In对应的是自然条件系数。
10. 根据权利要求6所述的人口抽样调查样本分层方法,其特征在于,所述样本抽取步骤采用下式获取样本个数<formula>formula see original document page 3</formula>其中,P表示预设的默认抽取率,Ceil函数表示向上取整;当采用该公式计算县级样本个数时,Ti表示第i层所需抽取的县级单位个数,Si表示第i层所拥有的县级单位总个数;当采用该公式计算乡级样本个数时,t i表示第i县所需抽取的乡级单位个数,S ,表示第i县所拥有的乡级单位总个数。
全文摘要
本发明公开了一种人口抽样调查样本分层系统及方法,该系统包括一人口数据库构建模块,用于将分散的数据库经过系统预处理得到集成的全局信息库,以提供数据支持;一人口空间分布综合权重值获取模块,用于构建人口空间分布综合权重值计算模型,以获取各区域内人口空间分布权重值;一指标标准化处理模块,用于对量化指标数据进行标准化处理,建立区域因子人口系数表面;一分层模型构建模块,用于根据设定的分层原则构建人口抽样调查分层模型;一样本抽取模块,用于对所述人口抽样调查分层模型进行样本抽取。
文档编号G06F17/30GK101710331SQ20091020544
公开日2010年5月19日 申请日期2009年10月23日 优先权日2009年10月23日
发明者余卓渊, 孔中哲, 王英杰 申请人:中国科学院地理科学与资源研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1