一种基于低差异度数列的社区住户的抽样方法及系统与流程

文档序号:12863778阅读:292来源:国知局
一种基于低差异度数列的社区住户的抽样方法及系统与流程

本发明属于社会或市场抽样调查技术领域,尤其涉及一种基于低差异度数列的社区住户的抽样方法及系统。



背景技术:

目前社会或市场调查大都使用分层抽样法来收集样本调查数据。该方法首先把总体人群分成不同完整连片、互不重叠的调查小区,然后在全部或若干个调查小区里进行简单随机抽样或等距离抽样。简单随机抽样的方法一般是先将调查小区内住户编号制作成抽样框,然后从框内使用计算机软件产生随机数列来抽取若干住户。等距离抽样方法是调查人员在把调查小区内的住户按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个住户的一种抽样方式。

这些调查方法都存在很多缺陷。首先,简单随机抽样会导致很高的不确定性。比如在有1000个住户的调查小区内选取100户样本,可以有6.3851e+139种抽样可能。抽出来的样本极有可能不代表整个调查小区的人群。其次,由于存在极多的抽样可能,简单随机抽样会导致调查结果无法重复。此外,等距离抽样对起点的选择比较敏感。起点的选择不同,调查结果很可能也无法重复。再次,如果住户的分布有一定的规律而且该规律接近于等距离抽样的抽选间隔,则会导致等距离抽样失效。最后,如果某个或某些被抽中的住户无法或拒绝参加调查,简单随机抽样和等距离抽样都不可避免地会导致抽样偏差增大。这些缺陷会导致抽样结果偏离总体特征,致使研究人员对社会或市场做出错误的评估,进而降低了抽样调查的效率。

理想的抽样调查方法必须满足样本代表性条件。也就是说每次抽样必须从总体中均匀取样。均匀取样的目的是希望减少每次抽样之间的偏差,使得总体的特征在每个抽样里都能很好得存在。也就是说,抽出来的样本应为总体的有代表性的缩小版。一次抽样得到的结论可以在下次抽样里得到重复。



技术实现要素:

为了解决现有技术的不足,本发明提供了一种基于低差异度数列的社区住户的抽样方法,该方法能够提高抽样调查的样本代表性和抽样效率。

本发明的一种基于低差异度数列的社区住户的抽样方法,该方法在抽样服务器内完成,具体包括:

从地理信息系统的数据库中提取被调查社区中每栋建筑物入口的经度坐标、维度坐标和每个住户的编号,产生一个三列的抽样框架矩阵;其中,抽样框架矩阵的三列分别表示经度坐标、维度坐标和住户编号;抽样框架矩阵的每一行表示每一个住户;

对抽样框架矩阵进行降维处理,得到一个一维数列;所述一维数列内的每个元素对应一个住户;

利用一个均匀分布的低差异度数列,将所述一维数列中所有的元素按低差异度数列排列;

按照排列后的一维数列,顺序依次或间隔抽取与其元素相对应的住户,得到被调查社区中被抽样的住户并输出;其中,顺序抽取排列后一维数列中元素的数量与被调查社区中预先设置的取样住户数量相等。

进一步的,采用截断奇异值分解方法、主成分分析方法、因子分析方法、核主成分分析方法和多维度尺度分析方法中任一种方法对抽样框架矩阵进行降维处理。

其中,降维方法可以使用:主成分分析方法、核主成分分析方法、因子分析方法、截断奇异值分解方法和多维度尺度分析方法,或者其他现有的降维方法。

本发明采用降维方法来保留抽样框架矩阵的最重要信息,不同的降维方法保留样本数据矩阵信息的程度会略有不同。

进一步的,将所述一维数列中所有的元素按低差异度数列排列之前还包括:

对一维数列进行离差标准化,得到相应离差标准化一维数列;其中,离差标准化一维数列中每个数据的取值均介于0-1之间,且小数点后保留预设位数。

比如保留3到6位,需要抽取的样本量越大则保留越多的小数点位。

进一步的,利用圆周率π的正整数倍的小数部分构建均匀分布的低差异度数列,并且使得该均匀分布的低差异度数列中的每个数的小数点后保留数字位数与离差标准化一维数列中每个数据的小数点后保留预设位数相等。

本发明需要用一个低差异数在离差标准化一维数列中匹配相等的数值。小数点后保留预设位数会影响匹配的精度,位数越多,精度越高,但计算时间越长。保留预设位数可以设为3位,4位,5位或6位。

进一步的,降维处理后得到一维数列内的每个元素中还存储有相应住户的身份编号。

例如:降维处理后得到一维数列内的每个元素的脚标则代表每个住户在整个调查小区内的身份编号。比较每个低差异数和离差标准化一维数列中元素数值的大小。将与所述低差异度数相等的元素的脚标存入一个集合里,直到将所有的元素的脚标都存入到上述集合中。

本发明还提供了一种基于低差异度数列的社区住户的抽样系统。

本发明的一种基于低差异度数列的社区住户的抽样系统,该系统包括抽样服务器,所述抽样服务器包括:

抽样框架矩阵产生模块,其用于从地理信息系统的数据库中提取被调查社区中每栋建筑物入口的经度坐标、维度坐标和每个住户的编号,产生一个三列的抽样框架矩阵;其中,抽样框架矩阵的三列分别表示经度坐标、维度坐标和住户编号;抽样框架矩阵的每一行表示每一个住户;

降维处理模块,其用于对抽样框架矩阵进行降维处理,得到一个一维数列;所述一维数列内的每个元素对应一个住户;

一维数列排序模块,其用于利用一个均匀分布的低差异度数列,将所述一维数列中所有的元素按低差异度数列排列;

住户抽样模块,其用于按照排列后的一维数列,顺序依次或间隔抽取与其元素相对应的住户,得到被调查社区中被抽样的住户并输出;其中,顺序抽取排列后一维数列中元素的数量与被调查社区中预先设置的取样住户数量相等。

进一步的,在所述降维处理模块中,采用截断奇异值分解方法、主成分分析方法、因子分析方法、核主成分分析方法和多维度尺度分析方法中任一种方法对抽样框架矩阵进行降维处理。

进一步的,所述抽样服务器还包括:

离差标准化模块,其用于对一维数列进行离差标准化,得到相应离差标准化一维数列;其中,离差标准化一维数列中每个数据的取值均介于0-1之间,且小数点后保留预设位数。

进一步的,在所述一维数列排序模块中,利用圆周率π的正整数倍的小数部分构建均匀分布的低差异度数列,并且使得该均匀分布的低差异度数列中的每个数的小数点后保留数字位数与离差标准化一维数列中每个数据的小数点后保留预设位数相等。

进一步的,在所述降维处理模块中,降维处理后得到一维数列内的每个元素中还存储有相应住户的身份编号。

与现有技术相比,本发明的有益效果是:

本发明利用一个均匀分布的低差异度数列,来取代目前抽样调查技术中使用的由计算机产生的随机数列,然后利用降维方法来保留一个调查小区抽样框架矩阵的最重要信息到一个一维数列。利用这两个数列可以将一个调查小区里的全部按低差异度数列排列,实现无论该调查小区的抽样样本量大小和无论某些住户是否不接受调查,抽出来的样本住户最大程度上均匀分布在该调查小区的样本空间中,从而最大程度上反应该调查小区总体的特征,提高了抽样调查的效率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1是一种基于低差异度数列的社区住户的抽样方法的流程图。

图2是一种基于低差异度数列的社区住户的抽样系统的结构示意图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

图1是一种基于低差异度数列的社区住户的抽样方法的流程图。

如图1所示,本发明的一种基于低差异度数列的社区住户的抽样方法,该方法在抽样服务器内完成,具体包括:

步骤1:从地理信息系统的数据库中提取被调查社区中每栋建筑物入口的经度坐标、维度坐标和每个住户的编号,产生一个三列的抽样框架矩阵ψ=n*3,n为该调查小区的住户数量且为正整数。

其中,抽样框架矩阵的三列分别表示经度坐标、维度坐标和住户编号;抽样框架矩阵的每一行表示每一个住户。

步骤2:对抽样框架矩阵进行降维处理,得到一个一维数列ζ(即从三列降到只有一列);所述一维数列ζ内的每个元素对应一个住户。

其中,降维处理后得到一维数列ζ内的每个元素中还存储有相应住户的身份编号。

在该步骤中,降维方法可以使用:主成分分析方法、核主成分分析方法、因子分析方法、截断奇异值分解方法和多维度尺度分析方法,或者其他现有的降维方法。

本发明采用降维方法来保留抽样框架矩阵的最重要信息,不同的降维方法保留样本数据矩阵信息的程度会略有不同。

步骤3:利用一个均匀分布的低差异度数列,将所述一维数列中所有的元素按低差异度数列排列。

对一维数列ζ进行离差标准化,得到相应离差标准化一维数列z_ζ;其中,离差标准化一维数列z_ζ中每个数据的取值均介于0-1之间,且小数点后保留预设位数。

比如保留3到6位,需要抽取的样本量越大则保留越多的小数点位。

其中,利用圆周率π的正整数倍的小数部分构建均匀分布的低差异度数列,并且使得该均匀分布的低差异度数列中的每个数的小数点后保留数字位数与离差标准化一维数列中每个数据的小数点后保留预设位数相等。

本发明需要用一个低差异数在离差标准化一维数列中匹配相等的数值。小数点后保留预设位数会影响匹配的精度,位数越多,精度越高,但计算时间越长。保留预设位数可以设为3位,4位,5位或6位。

例如:降维处理后得到一维数列内的每个元素的脚标则代表每个住户在整个调查小区内的身份编号。比较每个低差异数和离差标准化一维数列中元素数值的大小。将与所述低差异度数相等的元素的脚标存入一个集合里,直到将所有的元素的脚标都存入到上述集合中。

具体地,设k=1,利用圆周率π的正整数倍的小数部分来构建一系列低差异数。即,y={k*π},{}是保留小数部分的函数,π取小数点后21位。使得该低差异数y的小数点后保留数字位数与预设小数点后保留数字位数相等;

比较y和离差标准化一维数列z_ζ中每个元素数值的大小。将与所述低差异度数相等的元素的脚标(即该元素在z_ζ中的位置)存入一个集合里。k自增1,循环直到将所有的元素的脚标都存入到上述集合中。

步骤4:按照排列后的一维数列,顺序依次或间隔抽取与其元素相对应的住户,得到被调查社区中被抽样的住户并输出;其中,顺序抽取排列后一维数列中元素的数量与被调查社区中预先设置的取样住户数量相等。

由于得到的集合里每个脚标对应抽样框架矩阵中的一个住户(即矩阵的一行),调查人员可以根据输出的结果依次调查。假设需要从某个调查小区取样m个住户,调查人员按照重新排列后的一维数列里的前m个元素所对于的住户,依次进行调查。如果遇到其中有x个住户不能接受调查,则跳过这些住户,顺次取后续住户调查,直到取到m+x个住户为止。

下面以法国诺曼底地区的一个调查小区的数据为例说明。

该调查小区区域内包括多层住宅楼21栋,联体别墅两栋,和单体别墅一栋。总体共有380户住户。每户住户的家庭成员平均年龄已有记录(下称户均年龄),为49.31岁(标准差为15.82岁)。本实验将先用本发明的方法抽取38个住户(10%的样本量),计算这些样本的平均户均年龄。然后用随机抽样的方法,抽取38个用户(10%的样本量),计算这些样本的平均户均年龄。为了克服随机方法的不确定性,随机抽样将用30个不同的随机种子进行30次抽样。

实验结果如下:

本发明采用截断奇异值分解方法对抽样框架矩阵进行降维,保留小数点后4位。抽取的38个样本的平均户均年龄为50.10岁(标准差为14.61岁)。然而,使用30个不同的随机种子从总体中随机抽取38个住户30次,得到的30个平均户均年龄于总体的指标大都相差较大。在这30次抽样里,最高的平均户均年龄为54.69岁,最低的平均户均年龄为44.43岁。这30次抽样平均为48.87。这30次抽样结果标准差为2.37岁。这30个平均户均年龄与总体指标平均偏离了1.82岁。实验结果表明本发明抽样更加均匀,更有代表性。

另外,假设在本发明抽取的38个住户里有5个住户不能或拒绝参加调查,本发明的方法是按照步骤3.3输出的结果,继续依次选取后续的额外五个住户参加调查。这44个用户(其中5户的值缺失)的平均户均年龄为48.86岁(标准差为16.80岁),与总体指标49.31岁依然相差无几。这个结果再次证明本发明充分利用了低差异数列的性质,在有缺失样本的情况下依然保证了样本的代表性。

图2是一种基于低差异度数列的社区住户的抽样系统的结构示意图。

如图2所示,本发明的一种基于低差异度数列的社区住户的抽样系统,该系统包括抽样服务器,所述抽样服务器包括:

(1)抽样框架矩阵产生模块,其用于从地理信息系统的数据库中提取被调查社区中每栋建筑物入口的经度坐标、维度坐标和每个住户的编号,产生一个三列的抽样框架矩阵;其中,抽样框架矩阵的三列分别表示经度坐标、维度坐标和住户编号;抽样框架矩阵的每一行表示每一个住户;

(2)降维处理模块,其用于对抽样框架矩阵进行降维处理,得到一个一维数列;所述一维数列内的每个元素对应一个住户;

在所述降维处理模块中,采用截断奇异值分解方法、主成分分析方法、因子分析方法、核主成分分析方法和多维度尺度分析方法中任一种方法对抽样框架矩阵进行降维处理。

在所述降维处理模块中,降维处理后得到一维数列内的每个元素中还存储有相应住户的身份编号。

(3)一维数列排序模块,其用于利用一个均匀分布的低差异度数列,将所述一维数列中所有的元素按低差异度数列排列;

所述抽样服务器还包括:

离差标准化模块,其用于对一维数列进行离差标准化,得到相应离差标准化一维数列;其中,离差标准化一维数列中每个数据的取值均介于0-1之间,且小数点后保留预设位数。

在所述一维数列排序模块中,利用圆周率π的正整数倍的小数部分构建均匀分布的低差异度数列,并且使得该均匀分布的低差异度数列中的每个数的小数点后保留数字位数与离差标准化一维数列中每个数据的小数点后保留预设位数相等。

(4)住户抽样模块,其用于按照排列后的一维数列,顺序依次或间隔抽取与其元素相对应的住户,得到被调查社区中被抽样的住户并输出;其中,顺序抽取排列后一维数列中元素的数量与被调查社区中预先设置的取样住户数量相等。

本发明利用一个均匀分布的低差异度数列,来取代目前抽样调查技术中使用的由计算机产生的随机数列,然后利用降维方法来保留一个调查小区抽样框架矩阵的最重要信息到一个一维数列。利用这两个数列可以将一个调查小区里的全部按低差异度数列排列,实现无论该调查小区的抽样样本量大小和无论某些住户是否不接受调查,抽出来的样本住户最大程度上均匀分布在该调查小区的样本空间中,从而最大程度上反应该调查小区总体的特征,提高了抽样调查的效率。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1