样本抽取方法和装置的制造方法

文档序号:9826083阅读:993来源:国知局
样本抽取方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理领域,具体而言,涉及一种样本抽取方法和装置。
【背景技术】
[0002] 关于海量数据的相关指标(如网页结果的质量度)的评估,一般需要从N个样本 总量中抽取m个样本,在进行样本的抽取时,现有技术中有以下两种选取方案:
[0003] 方案一:使用分布式集群(hadoop)对总体样本进行分割,将总体样本分跟成η块, 对于每一块随机取m/n个样本。根据集群的规模一般每块的数据规模大约为Ν/1000的规 模,而且是并行抽取,从而提高抽取速度。
[0004] 方案二:不分块直接抽取,对于每次抽取,如果当前抽取的样本为新样本,则抽取 结果数加1后进行下一次抽取,如果当前抽取的样本是之前抽取的样本,则抽取结果数不 变进行下一轮抽取。由于N?m,这种重复抽取应该不多,但是实际上由于计算机底层的伪随 机导致抽取碰撞数不收敛,导致所抽取的样本的重复率偏高。
[0005] 对于方案一,由于把全局随机变成了分块随机,从而使抽取结果和需求不一致。
[0006] 对于方案二,由于抽取的次数不可控,不仅所抽取的样本的重复率偏高,而且还容 易导致耗时较长。
[0007] 针对相关技术中样本抽取方式容易耗时较长的问题,目前尚未提出有效的解决方 案。

【发明内容】

[0008] 本发明实施例提供了一种样本抽取方法和装置,以至少解决现有技术中样本抽取 方式容易耗时较长的技术问题。
[0009] 根据本发明实施例的一个方面,提供了 一种样本抽取方法。
[0010] 根据本发明实施例的样本抽取方法包括:对样本总量进行排序,得到包括η个样 本组的样本序列,其中,所述η个样本组依次为样本组Ai至样本组Α η,样本组Ai内的样本 为相同样本,i依次取1至n,n为2以上的自然数;保存所述样本组~的样本数量lenMJ 和样本au在所述样本序列中的位置D (aj,其中,所述样本au为所述样本组Ai中的起始 样本;重复执行如下步骤,直至保存至目标样本集中的目标样本的数量达到预设数量:随 机抽取所述η个样本组中的任一样本,得到随机样本;获取所述随机样本在所述样本序列 中的位置D(a xy);根据所述位置D(axy)判断是否保存所述位置D(axy)处的样本至所述目标 样本集;在判断出不保存所述位置D (axy)处的样本至所述目标样本集的情况下,根据目标 数组所保存的位置D(ax, J更改所述位置D(axy),并将更改后的所述位置D(axy)处的样本 axy保存至所述目标样本集,其中,所述目标数组用于保存起始样本ax, i在所述样本序列中 的位置D(ax, 所述起始样本ax, i为目标样本ax, y,所属样本组Ax,中的起始样本,所述 目标样本ax, y,为在抽取所述随机样本之前所抽取并被保存至所述目标样本集中的样本, X' e [1,2,···,η];以及在判断出保存所述位置D(axy)处的样本至所述目标样本集的情况 下,保存所述位置D (axy)处的样本axy至所述目标样本集。
[0011] 根据本发明实施例的另一方面,还提供了 一种样本抽取装置。
[0012] 根据本发明实施例的样本抽取装置包括:第一排序单元,用于对样本总量进行排 序,得到包括η个样本组的样本序列,其中,所述η个样本组依次为样本组Ai至样本组A n, 样本组4内的样本为相同样本,i依次取1至n,n为2以上的自然数;第一保存单元,用于 保存所述样本组Ai的样本数量ler^Aj和样本a u在所述样本序列中的位置D(ail),其中, 所述样本au为所述样本组Ai中的起始样本;重复执行单元,用于重复调用如下单元,直至 保存至目标样本集中的目标样本的数量达到预设数量:抽取单元,用于随机抽取所述η个 样本组中的任一样本,得到随机样本;第一获取单元,用于获取所述随机样本在所述样本序 列中的位置D(a xy);第一判断单元,用于根据所述位置D(axy)判断是否保存所述位置D(axy) 处的样本至所述目标样本集;处理单元,用于在判断出不保存所述位置D(a xy)处的样本至 所述目标样本集的情况下,根据目标数组所保存的位置D(ax, J更改所述位置D(axy),并将 更改后的所述位置D (axy)处的样本axy保存至所述目标样本集,其中,所述目标数组用于保 存起始样本a x, i在所述样本序列中的位置D (ax, ^,所述起始样本ax, i为目标样本ax, y, 所属样本组Ax,中的起始样本,所述目标样本ax, y,为在抽取所述随机样本之前所抽取并被 保存至所述目标样本集中的样本,V e [1,2,···,η];以及第二保存单元,用于在判断出保 存所述位置D(axy)处的样本至所述目标样本集的情况下,保存所述位置D(a xy)处的样本axy 至所述目标样本集。
[0013] 在本发明实施例中,采用对样本总量进行排序,得到包括η个样本组的样本序列, 其中,所述η个样本组依次为样本组&至样本组Αη,样本组~内的样本为相同样本,i依次 取1至η,η为2以上的自然数;保存所述样本组~的样本数量len (AJ和样本au在所述样 本序列中的位置D (aj,其中,所述样本au为所述样本组Ai中的起始样本;重复执行如下步 骤,直至保存至目标样本集中的目标样本的数量达到预设数量:随机抽取所述η个样本组 中的任一样本,得到随机样本;获取所述随机样本在所述样本序列中的位置D (axy);根据所 述位置D(axy)判断是否保存所述位置D(axy)处的样本至所述目标样本集;在判断出不保存 所述位置D(a xy)处的样本至所述目标样本集的情况下,根据目标数组所保存的位置D(ax, D 更改所述位置D (axy),并将更改后的所述位置D (axy)处的样本axy保存至所述目标样本集, 其中,所述目标数组用于保存起始样本a x, i在所述样本序列中的位置D(ax, 所述起始样 本ax, i为目标样本ax, y,所属样本组Ax,中的起始样本,所述目标样本ax, y,为在抽取所述 随机样本之前所抽取并被保存至所述目标样本集中的样本,X' e [1,2, ···,!!];以及在判 断出保存所述位置D(axy)处的样本至所述目标样本集的情况下,保存所述位置D(a xy)处的 样本axy至所述目标样本集。通过在对随机抽取的随机样本进行保存之前,先根据该随机样 本在样本序列中的位置反算出真正需要保存至目标样本集中的样本所处的位置,这样进行 样本抽取的方式,实现了以Pv加权方式对于样本中出现较多的量抽取的时候给予高的抽 中概率,既能够避免当前次需要保存至目标样本集中的样本,与目标样本集中已经保存的 样本重复,又能够对含有较高数量的样本组给予高的抽中概率;并且,由于所需要抽取至目 标样本集中的样本的数量相对样本总量而言,前者远远小于后者,所以,每次反算所带来的 时间和内存消耗基本可以忽略不计,因此,本发明实施例所提供的样本抽取方法解决了现 有技术中样本抽取方式容易耗时较长的问题,进而达到了在降低所抽取的样本的重复率的 基础上,减少耗时时间的技术效果。此外,由于本发明实施例所提供的样本抽取方法是无放 回抽样,因此,抽样次数等于所需要抽取至目标样本集中的样本的数量,达到了减少样本抽 取次数,进一步提高抽样效率,降低抽样耗时。
【附图说明】
[0014] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0015] 图1是根据本发明实施例的样本抽取方法的硬件环境图;
[0016] 图2是根据本发明实施例的样本抽取方法的流程图;
[0017] 图3是根据本发明实施例的样本抽取装置的示意图;以及
[0018] 图4是实施本发明实施例的样本抽取方法的终端的示意图。
【具体实施方式】
[0019] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0020] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用 的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。此外,术语"包括"和"具有"以及他们的任何变形,意图在于 覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限 于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产 品或设备固有的其它步骤或单元。
[0021] 对本发明实施例中所涉及的技术术语做如下解释:
[0022] 海量样本:大数据量,样本总量在十亿以上。
[0023] Pv加权:对于样本中出现
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1