样本抽取方法和装置的制造方法

文档序号：9826083阅读：993来源：国知局

样本抽取方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理领域，具体而言，涉及一种样本抽取方法和装置。
【背景技术】
[0002] 关于海量数据的相关指标（如网页结果的质量度）的评估，一般需要从N个样本总量中抽取m个样本，在进行样本的抽取时，现有技术中有以下两种选取方案：
[0003] 方案一：使用分布式集群（hadoop)对总体样本进行分割，将总体样本分跟成η块，对于每一块随机取m/n个样本。根据集群的规模一般每块的数据规模大约为Ν/1000的规模，而且是并行抽取，从而提高抽取速度。
[0004] 方案二：不分块直接抽取，对于每次抽取，如果当前抽取的样本为新样本，则抽取结果数加1后进行下一次抽取，如果当前抽取的样本是之前抽取的样本，则抽取结果数不变进行下一轮抽取。由于N?m，这种重复抽取应该不多，但是实际上由于计算机底层的伪随机导致抽取碰撞数不收敛，导致所抽取的样本的重复率偏高。
[0005] 对于方案一，由于把全局随机变成了分块随机，从而使抽取结果和需求不一致。
[0006] 对于方案二，由于抽取的次数不可控，不仅所抽取的样本的重复率偏高，而且还容易导致耗时较长。
[0007] 针对相关技术中样本抽取方式容易耗时较长的问题，目前尚未提出有效的解决方案。

【发明内容】

[0008] 本发明实施例提供了一种样本抽取方法和装置，以至少解决现有技术中样本抽取方式容易耗时较长的技术问题。
[0009] 根据本发明实施例的一个方面，提供了一种样本抽取方法。
[0010] 根据本发明实施例的样本抽取方法包括：对样本总量进行排序，得到包括η个样本组的样本序列，其中，所述η个样本组依次为样本组Ai至样本组Α η，样本组Ai内的样本为相同样本，i依次取1至n，n为2以上的自然数；保存所述样本组~的样本数量lenMJ 和样本au在所述样本序列中的位置D (aj，其中，所述样本au为所述样本组Ai中的起始样本；重复执行如下步骤，直至保存至目标样本集中的目标样本的数量达到预设数量：随机抽取所述η个样本组中的任一样本，得到随机样本；获取所述随机样本在所述样本序列中的位置D(a xy);根据所述位置D(axy)判断是否保存所述位置D(axy)处的样本至所述目标样本集；在判断出不保存所述位置D (axy)处的样本至所述目标样本集的情况下，根据目标数组所保存的位置D(ax, J更改所述位置D(axy)，并将更改后的所述位置D(axy)处的样本 axy保存至所述目标样本集，其中，所述目标数组用于保存起始样本ax, i在所述样本序列中的位置D(ax, 所述起始样本ax, i为目标样本ax, y，所属样本组Ax,中的起始样本，所述目标样本ax, y，为在抽取所述随机样本之前所抽取并被保存至所述目标样本集中的样本， X' e [1，2，···，η];以及在判断出保存所述位置D(axy)处的样本至所述目标样本集的情况下，保存所述位置D (axy)处的样本axy至所述目标样本集。
[0011] 根据本发明实施例的另一方面，还提供了一种样本抽取装置。
[0012] 根据本发明实施例的样本抽取装置包括：第一排序单元，用于对样本总量进行排序，得到包括η个样本组的样本序列，其中，所述η个样本组依次为样本组Ai至样本组A n，样本组4内的样本为相同样本，i依次取1至n，n为2以上的自然数；第一保存单元，用于保存所述样本组Ai的样本数量ler^Aj和样本a u在所述样本序列中的位置D(ail)，其中，所述样本au为所述样本组Ai中的起始样本；重复执行单元，用于重复调用如下单元，直至保存至目标样本集中的目标样本的数量达到预设数量：抽取单元，用于随机抽取所述η个样本组中的任一样本，得到随机样本；第一获取单元，用于获取所述随机样本在所述样本序列中的位置D(a xy);第一判断单元，用于根据所述位置D(axy)判断是否保存所述位置D(axy) 处的样本至所述目标样本集；处理单元，用于在判断出不保存所述位置D(a xy)处的样本至所述目标样本集的情况下，根据目标数组所保存的位置D(ax, J更改所述位置D(axy)，并将更改后的所述位置D (axy)处的样本axy保存至所述目标样本集，其中，所述目标数组用于保存起始样本a x, i在所述样本序列中的位置D (ax, ^，所述起始样本ax, i为目标样本ax, y, 所属样本组Ax，中的起始样本，所述目标样本ax, y，为在抽取所述随机样本之前所抽取并被保存至所述目标样本集中的样本，V e [1，2，···，η];以及第二保存单元，用于在判断出保存所述位置D(axy)处的样本至所述目标样本集的情况下，保存所述位置D(a xy)处的样本axy 至所述目标样本集。
[0013] 在本发明实施例中，采用对样本总量进行排序，得到包括η个样本组的样本序列，其中，所述η个样本组依次为样本组&至样本组Αη，样本组~内的样本为相同样本，i依次取1至η，η为2以上的自然数；保存所述样本组~的样本数量len (AJ和样本au在所述样本序列中的位置D (aj，其中，所述样本au为所述样本组Ai中的起始样本；重复执行如下步骤，直至保存至目标样本集中的目标样本的数量达到预设数量：随机抽取所述η个样本组中的任一样本，得到随机样本；获取所述随机样本在所述样本序列中的位置D (axy);根据所述位置D(axy)判断是否保存所述位置D(axy)处的样本至所述目标样本集；在判断出不保存所述位置D(a xy)处的样本至所述目标样本集的情况下，根据目标数组所保存的位置D(ax, D 更改所述位置D (axy)，并将更改后的所述位置D (axy)处的样本axy保存至所述目标样本集，其中，所述目标数组用于保存起始样本a x, i在所述样本序列中的位置D(ax, 所述起始样本ax, i为目标样本ax, y，所属样本组Ax，中的起始样本，所述目标样本ax, y,为在抽取所述随机样本之前所抽取并被保存至所述目标样本集中的样本，X' e [1，2, ···，!!];以及在判断出保存所述位置D(axy)处的样本至所述目标样本集的情况下，保存所述位置D(a xy)处的样本axy至所述目标样本集。通过在对随机抽取的随机样本进行保存之前，先根据该随机样本在样本序列中的位置反算出真正需要保存至目标样本集中的样本所处的位置，这样进行样本抽取的方式，实现了以Pv加权方式对于样本中出现较多的量抽取的时候给予高的抽中概率，既能够避免当前次需要保存至目标样本集中的样本，与目标样本集中已经保存的样本重复，又能够对含有较高数量的样本组给予高的抽中概率；并且，由于所需要抽取至目标样本集中的样本的数量相对样本总量而言，前者远远小于后者，所以，每次反算所带来的时间和内存消耗基本可以忽略不计，因此，本发明实施例所提供的样本抽取方法解决了现有技术中样本抽取方式容易耗时较长的问题，进而达到了在降低所抽取的样本的重复率的基础上，减少耗时时间的技术效果。此外，由于本发明实施例所提供的样本抽取方法是无放回抽样，因此，抽样次数等于所需要抽取至目标样本集中的样本的数量，达到了减少样本抽取次数，进一步提高抽样效率，降低抽样耗时。
【附图说明】
[0014] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
[0015] 图1是根据本发明实施例的样本抽取方法的硬件环境图；
[0016] 图2是根据本发明实施例的样本抽取方法的流程图；
[0017] 图3是根据本发明实施例的样本抽取装置的示意图；以及
[0018] 图4是实施本发明实施例的样本抽取方法的终端的示意图。
【具体实施方式】
[0019] 为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
[0020] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语"第一"、"第二"等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语"包括"和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0021] 对本发明实施例中所涉及的技术术语做如下解释：
[0022] 海量样本：大数据量，样本总量在十亿以上。
[0023] Pv加权：对于样本中出现

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张壮;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

上一篇：一种移动终端参数的管理方法及装置的制造方法
上一篇：一种基于Firefox OS的微件信息显示方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。