一种抽样方法和装置的制造方法

文档序号：9249376阅读：305来源：国知局

一种抽样方法和装置的制造方法
【技术领域】
[0001] 本发明设及计算机应用领域，特别是设及一种抽样方法和装置。
【背景技术】
[0002] 目前，在网站用户调研或者网站用户分析中，常常需要对用户进行抽样，使得样本尽量多的保留总体信息。
[0003] 现有的用户抽样方案，主要包括下述步骤：
[0004] 步骤XI、对需要调研的用户总体进行分群，得到若干用户群。
[0005] 步骤x2、对于每个用户群，采用随机抽取的方式，从中抽取样本。
[0006] 步骤x3、将抽取到的所有用户群的样本合并，得到所述用户总体的样本集合。
[0007] 从上述方案可W看出，现有的用户抽样方法采用随机抽取的方法进行样本的抽取，该样，每个用户被抽取的概率相同。而在实际应用中，不同样本间的相似度不同，采用随机抽取的方式，就会导致可能出现被抽取到的多个用户的相似度较高，而差异性大的用户没有被抽取到的情况，该样，就会导致抽取过程中总体信息流失过多，所抽取到的样本集合不能准确地反映用户总体的特点，即每个样本的代表性不强。
[0008] 由此可见，现有的抽样方案由于采用随机抽取的方式，而存在总体信息流失多、样本无法反映总体的问题，从而会影响基于样本进行用户分析的准确性。

【发明内容】

[0009] 有鉴于此，本发明的主要目的在于提供一种抽样方法和装置，可W减少抽样过程中总体信息的流失，提高样本反映总体的准确度。
[0010] 为了达到上述目的，本发明提出的技术方案为：
[0011] 一种抽样方法，包括：
[0012] 将数据对象总体的特征划分为分类特征和拉了特征，其中，每个所述拉了特征的取值个数大于每个所述分类特征的取值个数，且所述拉了特征的数量q满足；q= 2t，r为大于1的整数；
[0013] 根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中的拉了特征的数量di满足：为大于1的整数；
[0014] 对于每个数据对象群i，构建该群使用的近似正交的拉了超立方体N0L皿群组，其中，所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对群中每个拉了特征的取值进行归类处理，所述归类处理后每个拉了特征的枚举值数量均为预设的该群的单位特征枚举数阔值li;利用该群对应的所述N0L皿群组，确定一个拉了超立方体作为该群用于抽样的拉了超立方体，其中，所确定的拉了超立方体的行数等于所述li;利用所确定的拉了超立方体，对该群中的数据对象进行抽样；
[0015] 将所有数据对象群的抽样结果合并，得到所述数据对象总体的样本。
[0016] 一种抽样装置，包括：
[0017] 特征分类单元，用于将数据对象总体的特征划分为分类特征和拉了特征，其中，每个所述拉了特征的取值个数大于每个所述分类特征的取值个数，且所述拉了特征的数量q 满足；q= 2t，r为大于1的整数；
[0018] 分群单元，用于根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中的拉了特征的数量Qi满足：A= 2'=，为大于1的整数；
[0019] 抽样单元，用于对于每个数据对象群i，构建该群使用的近似正交的拉了超立方体 N0L皿群组，其中，所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对群中每个拉了特征的取值进行归类处理，所述归类处理后每个拉了特征的枚举值数量均为预设的该群的单位特征枚举数阔值li;利用该群对应的所述N0L皿群组，确定一个拉了超立方体作为该群用于抽样的拉了超立方体，其中，所确定的拉了超立方体的行数等于所述 li;利用所确定的拉了超立方体，对该群中的数据对象进行抽样；
[0020] 样本汇总单元，用于将所有数据对象群的抽样结果合并，得到所述数据对象总体的样本。
[0021] 综上所述，本发明提出的抽样方法和装置，将数据对象总体的特征划分为分类特征和拉了特征，根据分类特征对总体进行分群，然后利用拉了超立方体（N0LHD)抽样方法，在每个群内进行抽样。如此，通过对总体分群、各群内单独拉了超立方体抽样，可W实现对每个样本的控制，减少抽样的随机性，提升样本的代表性，从而可W使得样本可W准确地反映总体的情况。
【附图说明】
[0022] 图1为本发明实施例的方法流程示意图；
[0023] 图2为本发明实施例的装置结构示意图。
【具体实施方式】
[0024] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。
[002引本发明的核屯、思想是：将拉了超立方体（N0LHD)抽样引入到了用户抽样中，首先将总体的特征抽象为分类特征和拉了特征，然后根据分类特征对用户总体分群，然后对于每个用户群，结合N0L皿群组，进行抽样。如此，通过对总体分群、各群内单独拉了超立方体抽样，可W实现对每个样本的控制，减少抽样的随机性，提升样本的代表性，从而可W使得样本更能反映总体的情况。
[0026] 图1为本发明实施例一的流程示意图，如图1所示，该实施例主要包括：
[0027] 步骤101、将数据对象总体的特征划分为分类特征和拉了特征，其中，每个所述拉了特征的取值个数大于每个所述分类特征的取值个数，且所述拉了特征的数量q满足；q= 2t，r为大于1的整数。
[0028] 本步骤，用于对数据对象总体所包含的所有特征进行分类，即分为分类特征和拉了特征。在实际应用中，所述数据对象可W是用户在计算机存储中存在的数值单元。
[0029] 该里特征分类的依据是：特征的取值个数。拉了特征的取值个数将大于所述分类特征的取值个数，并且需要使得拉了特征的数量q为2的幕次方，即满足；q= 2t。
[0030] 其中，分类特征，是用于依据此进行分类的特征，该类特征的取值有限并且枚举值很少，如用户的注册来源、用户的下单渠道等，因此，据此分类不会导致分类后的群中数据对象数量过少的问题。
[0031] 对于拉了特征，该类特征的取值为连续的，或者枚举值很多。如用户的下单地址，用户的下单金额、用户的下单量等。利用该类特征，可W构建相应的拉了超立方体，基于拉了超立方体抽样，使得抽样结果的特征分布尽量与总体的特征分布相一致，从而确保样本的代表性。
[0032] 步骤102、根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中的拉了特征的数量Qi满足：9, = 2'=，r;为大于1的整数。
[0033] 本步骤，用分类特征进行分类，分类后的各群中拉了特征的数量应为2的幕次方， W便可W基于此构建相应的用于抽样的拉了超立方体。
[0034] 步骤103、对于每个数据对象群i，构建该群使用的近似正交的拉了超立方体 N0L皿群组，其中，所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对群中每个拉了特征的取值进行归类处理，所述归类处理后每个拉了特征的枚举值数量均为预设的该群的单位特征枚举数阔值li;利用该群对应的所述N0L皿群组，确定一个拉了超立方体作为该群用于抽样的拉了超立方体，其中，所确定的拉了超立方体的行数等于所述 li;利用所确定的拉了超立方体，对该群中的数据对象进行抽样。
[00巧]本步骤，对于每个数据对象群i，构建该群使用的近似正交的拉了超立方体N0LHD群组，然后再从中选择出适用于该群抽样的拉了超立方体，并利用该拉了超立方体，对该群中的数据对象进行抽样。
[0036] 该里为了便于理解，先介绍一下拉了超立方体的特点W及构建方法。
[0037] 近似正交的拉了超立方体的设计（N0LHD);
[003引将n个试验、m个因子的拉了超立方体设计记为；L(n，m) = (li，l2，...，U，其中Ij是第j个因子，并且每个因子的n个水平是等距的。简单的说，L(n，m)就是一个nXm的矩阵，每列的元素都是同一个等差数列，但排列方式不一样。
[003引 N0L皿是基于现有的孤(n)方阵构建得到的，n为方阵的阶数。
[0040] 0D(n)方阵的定义（具体见yangandliu(2012));
[0041] 一个nXn的方阵A,如果它满足下面S个条件，那么就称它为0D(n)方阵：
[00

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李鑫;王海旭;焦文健;张蕾;
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。