样本采样方法、装置及存储介质与流程

文档序号:18011520发布日期:2019-06-26 00:09阅读:219来源:国知局
样本采样方法、装置及存储介质与流程

本发明涉及信息技术领域,尤其涉及一种样本采样方法、装置及存储介质。



背景技术:

随着机器学习技术的不断发展,用于进行模型训练的数据本身质量对机器学习效果显得尤为重要。

对于一些机器学习的典型应用,例如欺诈检测,异常检测,文本分类等,其用于进行模型训练的数据集存在一个很严重的问题,即负正样本分布不均衡。针对该问题目前主要的解决方法为进行数据过采样。但目前的过采样算法存在采样区域狭隘,且产生较多无用样本的缺陷。



技术实现要素:

本发明的实施例提供一种数据采样方法、装置及存储介质,能够解决现有采样方法导致的采样区域狭隘且产生较多无用样本的问题。

为达到上述目的,本发明的实施例采用如下技术方案:

第一方面,本发明的实施例提供一种样本采样方法,包括:

获取样本集,所述样本集中包括多个正样本及多个负样本;

在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;

对所述目标样本集中的各样本,进行采样操作。

结合第一方面,在第一方面的第一种可能的实现方式中,所述在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,包括:

针对所述样本集中的每个所述正样本,计算在所述正样本的预设周围范围内的负正样本比例值,所述负正样本比例值为所述预设周围范围内的负样本数量及正样本数量之间的比值;

若所述负正样本比例值大于或等于预设阈值,则所述正样本满足预设筛选条件;

将各满足预设条件的正样本,作为所述目标样本集。

结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述方法还包括:

若所述正样本的预设周围范围内全部为负样本,则所述正样本不满足预设筛选条件。

结合第一方面,在第一方面的第三种可能的实现方式中,所述对所述目标样本集中的各样本,进行采样操作,包括:

对所述目标样本集中的各样本,进行过采样操作;或,

对所述目标样本集中的各样本,进行欠采样操作;或,

对所述目标样本集中的各样本,进行代价敏感采样操作。

结合第一方面,在第一方面的第四种可能的实现方式中,所述方法还包括:

对所述目标样本集中的各样本,基于每个样本的维度信息及近邻样本信息,生成所述目标样本集对应的新样本;

对所述目标样本集中的各样本及各新样本,进行采样操作。

第二方面,本发明的实施例提供一种样本采集装置,包括:

获取模块,用于获取样本集,所述样本集中包括多个正样本及多个负样本;

筛选模块,用于在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;

采样模块,用于对所述目标样本集中的各样本,进行采样操作。

结合第二方面,在第二方面的第一种可能的实现方式中,所述筛选模块包括:

计算子模块,用于针对所述样本集中的每个所述正样本,计算在所述正样本的预设周围范围内的负正样本比例值,所述负正样本比例值为所述预设周围范围内的负样本数量及正样本数量之间的比值;

筛选子模块,用于当所述负正样本比例值大于或等于预设阈值时,所述正样本满足预设筛选条件;并将各满足预设条件的正样本,作为所述目标样本集。

结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,筛选子模块,还用于当所述正样本的预设周围范围内全部为负样本时,所述正样本不满足预设筛选条件。

结合第二方面,在第二方面的第三种可能的实现方式中,所述采样模块,用于对所述目标样本集中的各样本,进行过采样操作;或,对所述目标样本集中的各样本,进行欠采样操作;或,对所述目标样本集中的各样本,进行代价敏感采样操作。

结合第二方面,在第二方面的第四种可能的实现方式中,所述装置还包括:

生成模块,用于对所述目标样本集中的各样本,基于每个样本的维度信息及近邻样本信息,生成所述目标样本集对应的新样本;

所述采样模块,还用于对所述目标样本集中的各样本及各新样本,进行采样操作。

第三方面,本发明的实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现第一方面提供的方法的步骤。

本发明实施例提供的样本采集方法、装置及存储介质,通过获取样本集,所述样本集中包括多个正样本及多个负样本;在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;对所述目标样本集中的各样本,进行采样操作。能够通过定义少数类样本的区分方法,挑选出哪些是需要重点关注的少数类样本,哪些是无关紧要的少数类样本,哪些是需要删除的离群点,从而可以提高生成得到的样本的质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例的样本采样方法的流程示意图;

图2是本发明实施例的样本采样方法的另一流程示意图;

图3是本发明实施例的样本采样装置结构示意图;

图4是本发明实施例的样本采样装置的另一结构示意图;

图5是本发明实施例的样本采样装置500的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明一实施例提供一种样本采样方法,如图1所示,所述方法包括:

101、获取样本集,所述样本集中包括多个正样本及多个负样本。

102、在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本。

对于本发明实施例,假设少数类样本为正样本,多数类样本为负样本,则定义挑选“重点”正样本(即满足预设筛选条件的正样本)的方法,根据每一个正样本周围负正样本的比例来进行筛选。

例如,关注每一个正样本周围m个样本的分布情况,如果该正样本周围的m个样本均为负样本,则该正样本会被认为是离群点,不进行过采样操作;如果这m个样本中有超过一半的样本为正样本,则该正样本会被认为是安全的,不进行过采样操作;如果这m个样本中有超过一半的样本为负样本,但不全是负样本,那么该正样本会被认为是危险的,加入到“重点”正样本集合中。

103、对所述目标样本集中的各样本,进行采样操作。

可选地,步骤103可以为:对所述目标样本集中的各样本,进行过采样操作;或,对所述目标样本集中的各样本,进行欠采样操作;或,对所述目标样本集中的各样本,进行代价敏感采样操作。

可以理解的,通过本发明实施例所示的样本采样方法适用于过采样操作、欠采样操作、代价敏感采样操作等各种采样方法,本发明实施例不做限制。

与现有技术相比,本发明实施例能够通过定义少数类样本的区分方法,挑选出哪些是需要重点关注的少数类样本,哪些是无关紧要的少数类样本,哪些是需要删除的离群点,从而可以提高生成得到的样本的质量。

本发明又一实施例提供一种样本采样方法,如图2所示,所述方法包括:

201、获取样本集,所述样本集中包括多个正样本及多个负样本。

202、针对所述样本集中的每个所述正样本,计算在所述正样本的预设周围范围内的负正样本比例值。

其中,所述负正样本比例值为所述预设周围范围内的负样本数量及正样本数量之间的比值。

对于本发明实施例,所述正样本的预设周围范围可以是距离所述正样本小于或等于预设距离的各样本;也可以是距离所述正样本距离最近的预设数量个样本。

203、若所述负正样本比例值大于或等于预设阈值,则所述正样本满足预设筛选条件。

其中,预设阈值为预先设置的负正样本比例阈值。例如,该预设阈值可以为0.5、0.3、或0.8等任意大于0且小于1的比例值。

可选地,若所述正样本的预设周围范围内全部为负样本,则所述正样本不满足预设筛选条件。

对于本发明实施例,如果该正样本周围阀内的全部样本均为负样本,则该正样本作为离群点,不进行采样操作。

204、将各满足预设条件的正样本,作为所述目标样本集。

若不进行上述步骤202-204的样本筛选操作,则会产生过多无用样本,传统的过采样算法会首先找到所有少数类样本,然后找出它们在少数类中的近邻,进而生成新的样本点,达到一定数目后停止。但是在少数类中,有的样本距离决策边界较近,容易分错,有的距离较远,不会对决策边界造成太大影响,还有一些是离群点,如果不对这些情况加以考虑,那么即使最后生成了与多数类数目相当的少数类样本,其中真正对分类起积极作用的少数类样本只是占了一小部分。并且,虽然少数类的样本数目较少,但如果不考虑离群点直接进行过采样,那么极有可能改变少数类样本的真实分布,对最后分类器的训练产生负面作用。

对于本发明实施例,通过定义少数类样本的区分方法,挑选出哪些是需要重点关注的少数类样本(即满足预设筛选条件的正样本),哪些是无关紧要的少数类样本,哪些是需要删除的离群点,从而可以生成更多高质量的样本。

205、对所述目标样本集中的各样本,基于每个样本的维度信息及近邻样本信息,生成所述目标样本集对应的新样本。

对于本发明实施例,假设样本有d个特征,用向量表示为:x:(x1,x2,…,xd)t,具体的新样本生成过程如下:

(1)针对目标样本集中的每一个样本点x,找到x的k个近邻,同时找到这k个近邻中距离x最远的一个近邻x′;

(2)以x为圆心,||x-x′||2为半径,确定一个超球体区域,为了直观表示,在这里假设d=2,即在二维空间中进行新样本的生成;

(3)在高维空间中,超球体的半径为:进而得出新采样样本的各特征取值范围,第i个特征的取值范围为:[xi-r,xi+r],另一种表示形式为:xi+σi*r,σi∈[-1,+1];

(4)在(-1,+1)区间上随机生成d个σi,令保证生成新的样本:

对于本发明实施例,通过上述方法便可以生成采样效果更好的新样本xnew。传统的过采样技术中,过采样区域狭隘,选中的正样本、正样本的近邻和生成的新样本之间呈线性关系,新样本的产生区间为选中的正样本和其近邻之间的线性区域,导致严重限制了生成新样本的区域,进一步导致生成的样本不具备代表性,造成机器学习算法出现过拟合的情况;而在本发明实施例中,通过对样本的生成区域进行扩展,定义了一种高效合理的样本生成方式,通过上述新样本的生成方法将线性区域扩展到超球体区域,过采样的区域变得更大,生成的新样本更具代表性。

206、对所述目标样本集中的各样本及各新样本,进行采样操作。

可选地,步骤206可以为:对所述目标样本集中的各样本及各新样本,进行过采样操作;或,对所述目标样本集中的各样本及各新样本,进行欠采样操作;或,对所述目标样本集中的各样本及各新样本,进行代价敏感采样操作。

可以理解的,通过本发明实施例所示的样本采样方法适用于过采样操作、欠采样操作、代价敏感采样操作等各种采样方法,本发明实施例不做限制。

与现有技术相比,本发明实施例能够通过定义少数类样本的区分方法,挑选出哪些是需要重点关注的少数类样本,哪些是无关紧要的少数类样本,哪些是需要删除的离群点,从而可以提高生成得到的样本的质量。

本发明又一实施例提供一种样本采样装置,如图3所示,所述装置包括:

获取模块31,用于获取样本集,所述样本集中包括多个正样本及多个负样本;

筛选模块32,用于在所述样本集中,基于每个所述正样本的周围负正样本比例,筛选得到目标样本集,所述目标样本集包括多个满足预设筛选条件的正样本;

采样模块33,用于对所述目标样本集中的各样本,进行采样操作。

可选地,所述筛选模块32包括:

计算子模块,用于针对所述样本集中的每个所述正样本,计算在所述正样本的预设周围范围内的负正样本比例值,所述负正样本比例值为所述预设周围范围内的负样本数量及正样本数量之间的比值;

筛选子模块,用于当所述负正样本比例值大于或等于预设阈值时,所述正样本满足预设筛选条件;并将各满足预设条件的正样本,作为所述目标样本集。

筛选子模块,还用于当所述正样本的预设周围范围内全部为负样本时,所述正样本不满足预设筛选条件。

所述采样模块33,用于对所述目标样本集中的各样本,进行过采样操作;或,对所述目标样本集中的各样本,进行欠采样操作;或,对所述目标样本集中的各样本,进行代价敏感采样操作。

进一步的,如图4所示,所述装置还包括:

生成模块41,用于对所述目标样本集中的各样本,基于每个样本的维度信息及近邻样本信息,生成所述目标样本集对应的新样本;

所述采样模块33,还用于对所述目标样本集中的各样本及各新样本,进行采样操作。

与现有技术相比,本发明实施例能够通过定义少数类样本的区分方法,挑选出哪些是需要重点关注的少数类样本,哪些是无关紧要的少数类样本,哪些是需要删除的离群点,从而可以提高生成得到的样本的质量。

本发明实施例还提供另一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序被一个或者一个以上的处理器用来执行图1、图2所示实施例提供的样本采样方法。

本发明实施例提供的样本采样装置可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的样本采样方法、装置及存储介质可以适用于对样本数据进行采样,但不仅限于此。

如图5所示,样本采样装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,个人数字助理等。

参照图5,样本采样装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(i/o)的接口512,传感器组件514,以及通信组件516。

处理组件502通常控制无人机控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令。

此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在无人机控制装置500的操作。这些数据的示例包括用于在无人机控制装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件506为无人机控制装置500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为无人机控制装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述无人机控制装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当无人机控制装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(mic),当无人机控制装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。

i/o接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器,用于为无人机控制装置500提供各个方面的状态评估。例如,传感器组件514可以检测到无人机控制装置500的打开/关闭状态,组件的相对定位,例如所述组件为无人机控制装置500的显示器和小键盘,传感器组件514还可以检测无人机控制装置500或无人机控制装置500一个组件的位置改变,用户与无人机控制装置500接触的存在或不存在,无人机控制装置500方位或加速/减速和无人机控制装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件516被配置为便于无人机控制装置500和其他设备之间有线或无线方式的通信。无人机控制装置500可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,无人机控制装置500可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1