不平衡数据分类过采样方法、装置、设备及介质与流程

文档序号:15638819发布日期:2018-10-12 21:48阅读:155来源:国知局

本发明涉及不平衡大数据处理领域,尤其涉及不平衡数据分类过采样方法、装置、设备及介质。



背景技术:

随着技术的不断进步,包括互联网速度提升、移动互联网更新换代、硬件技术不断发展、数据采集技术、存储技术、处理技术得到长足的发展,数据正以前所未有的速度增长,我们已经进入了大数据时代。大数据的数据规模巨大(volume)、产生高速(velocity)、形式多样(variety)、数据不确定(veracity)等特性使得传统的数据分析与挖掘技术在应用到大数据领域时遇到了前所未有的挑战。

数据分类是数据分析和挖掘中的基本算法,具有广泛的应用领域,也是很多其他数据分析和挖掘算法的基础。在大数据中,几乎所有的数据集都是不平衡数据,不平衡数据是指在数据集中至少有一个类别包含相对其它类别更少的样例。数据不平衡问题在现实世界中广泛存在,尤其在大数据应用领域。例如,在互联网文本分类中,各个类别的数据是不均衡的,而我们关注的往往是小类别的数据,如网络上的敏感信息,新出现的话题等;在电子商务应用中,大量的用户交易数据和行为数据都是正常的,而我们关注的往往是电子商务中的欺诈行为以及异常行为,这些数据淹没在大量的正常行为数据中,属于严重倾斜的不平衡数据集。类似的应用还有医疗诊断、卫星遥感数据分类等。因此,不平衡大数据分类是国民经济和社会发展中迫切需要解决的关键技术问题,具有广泛的应用前景。

不平衡大数据由于不同类别数据样例的数量差别过大,导致传统的分类学习算法很难取得好的分类效果,如图1所示的现有技术中不平衡数据分类示例,其中圆圈为少数类样例,三角为多数类样例,不平衡比为3:1,即多数类样例为少数类样例的3倍,而在实际的大数据集中,不平衡比往往是10000:1,甚至更高,因此在进行分类之前先需要对数据进行预处理。

已有的不平衡大数据预处理方法主要包括针对少数类的过采样和针对多数类的过采样。过采样是指采用一定的方法和技术增加少数类样本,通过对样本集的调整减少大数据集的不平衡度,增加分类算法的准确性。

随机过采样在原始数据集d上对少数类进行随机采样,即随机选取少数类样例进行复制,得到一个额外的数据集e,最后将d和e合并,得到一个近乎平衡的数据集d'。其中,e的大小可以自由控制,从而d'可以达到任意的不平衡比。图2中圆圈圈中的为采用随机过采样方法选中的少数类样例复制。

启发式过采样也是对少数类样例进行复制,本身并不会创造新的样例。不同之处在于对哪些样例进行复制是有选择性的,而不是随机的。即复制处于分类器边界的样例,增强其在分类器中的权重。图3为边界样本过采样方法选择的复制样本。

发明人在实施本发明实施例时,发现现有技术存在以下技术问题:随机过采样由于在选择样本时是随机选择的,容易发生复制的样本质量较低,是噪声样本等情况,从而降低分类学习算法的性能。启发式过采样虽然对复制的样本根据一定规则进行了选择,但也仅仅是对已有少数类样例的简单重复,这种采样方法并没有增加信息量,可能导致分类学习过程中的过拟合问题(over-fitting),就是在分类算法中对学习样本的过度学习而导致的分类算法对于样本集的分类效果十分理想,但是对于测试集的分类性能反而下降问题,过拟合往往是由于学习样例较少导致的,随机过采样和启发式过采样虽然增加了少数类样本的数量,但是仅仅是样本的复制,仍然存在处理不平衡大数据分类过程中少数类样例少导致的分类学习算法精度低的问题,不能从根本上解决少数类样例缺失的问题。



技术实现要素:

针对上述问题,本发明的目的在于提供一种不平衡数据分类过采样方法,。

第一方面,本发明提供了一种不平衡数据分类过采样方法,包括:

获取待处理不平衡数据中的所有少数样例;

根据k近邻算法获取每一所述少数样例最近邻的k个样例中多数样例的个数;

根据所述多数样例的个数确定对应少数样例的类别;

根据每一所述少数样例的类别进行与所述类别对应的操作。

在第一方面的第一种可能实现方式中,所述根据所述多数样例的个数确定对应少数样例的类别包括:

根据所述多数样例的个数与预设阈值进行大小比较,以确定所述对应少数样例的类别;其中,所述类别包括噪音样例、边界样例、不稳定样例、稳定样例。

结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述预设阈值包括预设第一阈值n、预设第二阈值p和预设第三阈值q,

则所述根据所述多数样例的个数与预设阈值比较,以确定所述对应少数样例的类别包括:

所述多数样例的个数大于或等于所述预设第一阈值n时,则所述对应少数样例的类别为所述噪音样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;

所述多数样例的个数小于所述预设第一阈值n且大于或等于所述预设第二阈值p时,则所述对应少数样例的类别为所述不稳定样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;其中,所述预设第二阈值p取值范围为k/2<=p<n;

所述多数样例的个数小于所述预设第二阈值p且大于或等于所述预设第三阈值q时,则所述对应少数样例的类别为所述边界样例;其中,所述预设第二阈值p取值范围为k/2<=p<n;其中,所述预设第三阈值q取值范围为k/3<=q<p;

所述多数样例的个数小于所述预设第三阈值q,则所述对应少数样例的类别为所述稳定样例;其中,所述预设第三阈值q取值范围为k/3<=q<p。

结合第一方面的第二种可能实现方式,在第一方面的第三种可能实现方式中,所述根据每一所述少数样例的类别进行与所述类别对应的操作包括:

在所述对应少数样例的类别为所述噪音样例时,对所述少数样例进行删除;

在所述对应少数样例的类别为所述不稳定样例时,对所述少数样例进行保留;

在所述对应少数样例的类别为所述边界样例时,对所述少数样例进行复制;

在所述对应少数样例的类别为所述稳定样例时,对所述少数样例进行合成。

结合第一方面的第三种可能实现方式,在第一方面的第四种可能实现方式中,所述在所述对应少数样例的类别为所述边界样例时,对所述少数样例进行复制包括:

检测到已遍历了所述所有少数样例中的每一少数样例,获取增加个数h;其中,所述增加个数h=|(目标少数样例个数-所述不稳定样例个数)/(所述所有少数样例的个数-所述噪音样例个数-所述不稳定样例个数)-1|;

根据所述增加个数h对所述少数样例进行复制。

结合第一方面的第四种可能实现方式,在第一方面的第五种可能实现方式中,所述在所述对应少数样例的类别为所述稳定样例时,对所述少数样例进行合成包括:

检测到已遍历了所述所有少数样例中的每一少数样例,获取增加个数h;其中,所述增加个数h=|(目标少数样例个数-所述不稳定样例个数)/(所述所有少数样例的个数-所述噪音样例个数-所述不稳定样例个数)-1|;

获取所述稳定样例到最近邻k个少数类样例的平均距离d;

在所述平均距离d小于或等于预设值时,获取所述稳定样例最近邻的k个少数类样例中每一少数样例ji的序号;其中,所述序号为依据每一所述少数样例ji最近邻的k个样例中少数样例与多数样例的比值进行升序排序;其中,1<i<=k;

获取所述稳定样例的选择概率;其中,所述选择概率=0至1之间任一随机数立方运算结果乘以每一所述少数样例ji的序号;其中,1<i<=k;

根据所述选择概率随机选取一个所述少数样例ji,获取被选中的少数样例ji;

根据所述被选中的少数样例ji与所述稳定样例进行合成,以得到新样例;其中,所述新样例=所述稳定样例+(所述稳定样例-所述被选中的少数样例ji)*a;其中,所述a为生成的0至1之间的随机数。

结合第一方面的第五种可能实现方式,在第一方面的第六种可能实现方式中,所述在所述对应少数样例的类别为所述稳定样例时,对所述少数样例进行合成还包括:

获取所述稳定样例到最近邻k个少数类样例的平均距离d;

在所述平均距离d大于预设值时,获取所述稳定样例最近邻的k个少数类样例中每一少数样例hi的序号;其中,所述序号为依据每一所述少数样例xn最近邻的k个样例中少数样例与多数样例的比值进行升序排序;其中,1<n<=k;

获取所述稳定样例的选择概率;其中,所述选择概率=0至1之间任一随机数立方运算结果乘以每一所述少数样例xn的序号;其中,1<n<=k;

根据所述选择概率随机选取s个所述少数样例xnj;其中,1<s<=k;其中,1<j<=s;

根据每一所述少数样例xnj与所述稳定样例进行合成,根据合成方法得到新样例;其中,所述合成方法为

其中,所述an为生成的0至1之间的随机数;所述xi'为所述新样例;所述xi为所述稳定样例;其中,1<s<=k。

第二方面,本发明还提供了不平衡数据分类过采样装置,包括:

少数样例获取模块,用于获取待处理不平衡数据中的所有少数样例;

多数样例个数获取模块,用于根据k近邻算法获取每一所述少数样例最近邻的k个样例中多数样例的个数;

类别确定模块,用于根据所述多数样例的个数确定对应少数样例的类别;

操作模块,用于根据每一所述少数样例的类别进行与所述类别对应的操作。

第三方面,本发明实施例还提供了一种不平衡数据分类过采样设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的不平衡数据分类过采样方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的不平衡数据分类过采样方法。

上述技术方案具有如下优点:根据k近邻算法获取每一所述少数样例最近邻的k个样例中多数样例的个数;根据所述多数样例的个数确定对应少数样例的类别;根据每一所述少数样例的类别进行与所述类别对应的操作;在处理不平衡大数据分类过程中少数类样例少导致的分类学习算法精度低的问题时,避免对所有的少数样例采取一样的处理方法,单一的只是复制样例或者单一合成新样例;通过对所述待处理不平衡数据中的少数样例的类别进行划分,以根据不同类别的样例进行不同的操作,以对少数样例的不同处理方式来增加少数样例的多样性,避免因少数类样例少导致分类学习算法精度低,解决少数类样例缺失的问题。

附图说明

图1是现有技术中不平衡数据分类示例图;

图2是现有技术中随机过采样方法示例图;

图3是现有技术中边界样本过采样方法示例图;

图4是本发明第一实施例提供的不平衡数据分类过采样方法流程示意图;

图5是本发明第一实施例提供的最近邻的k个样例获取示意图;

图6是现有技术中合成方法示例图;

图7是本发明第五实施例提供的一种不平衡数据分类过采样装置结构示意图;

图8是本发明第六实施例提供的不平衡数据分类过采样设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

参见图4,本发明第一实施例提供的不平衡数据分类过采样方法流程示意图。

需要说明的是,在生成少数类样例时,已有的方法对所有的少数类样例采取同一的处理方法,或者采用复制样例的方法,或者采用合成新样例的方法,都只是在一次处理不平衡数据时,对少数样例的简单重复,由此存在新增加的少数样例质量低,没有价值,且容易导致分类学习过程中的过拟合问题(over-fitting),就是在分类算法中对学习样本的过度学习而导致的分类算法对于样本集的分类效果十分理想,但是对于测试集的分类性能反而下降,处理不平衡大数据分类过程中少数类样例少导致的分类学习算法精度低的问题,不能从根本上解决少数类样例缺失的问题。

本实施例提供的不平衡数据分类过采样方法可以由终端设备执行,所述终端设备包括但不限于:手机、笔记本电脑、平板电脑及台式电脑等。

所述不平衡数据分类过采样方法的具体步骤如下:

s11、获取待处理不平衡数据中的所有少数样例。

需要说明的是,在本发明实施例中,在处理所述待处理不平衡数据中的少数样例时,基于实际的大数据集中,多数样例与少数样例的不平衡比往往是10000:1,甚至更高,为了提高新增加的少数样例的质量,首先获取待处理不平衡数据中的所有少数样例。

s12、根据k近邻算法获取每一所述少数样例最近邻的k个样例中多数样例的个数。

需要说明的是,所述k取值大于1,且为整数,根据实际情况确定所述k取值,本发明对此不作具体限定。但是,k值设定会影响本方法的性能,随着k值的增加,本方法的性能会呈下降趋势,但k值过小会导致本方法的精度下降。一般k的取值在5-10之间比较合理,本发明对此不作具体限定。

具体的,参见图5,图中三角形是多数样例,圆圈是少数样例,以长方形圈住的少数样例m进行说明,假设k取值为4,则所述少数样例m的最近邻的4个样例以圆圈圈住,圆圈圈主的四个样例中多数样例个数为2。

s13、根据所述多数样例的个数确定对应少数样例的类别。

在本发明实施例中,根据所述多数样例的个数确定对应少数样例的类别,其中,所述类别包括噪音样例、边界样例、不稳定样例、稳定样例。

需要说明的是,在本实施例中对所述少数样例的类别确定,实际就是对所述少数样例在所述待处理不平衡数据集中的性质进行确定,以便根据实际需要对相应的少数样例是进行相应的操作,以保证所述待处理不平衡的数据最终得到想要的效果。

需要说明的是,在所述少数样例是干扰的样例时则所述少数样例为噪音样例,例如其中一个情况是,在所述少数样例的邻居样例中绝大多数是多数样例,即多数样例的个数远比少数样例多,则所述少数样例为所述噪音样例;在所述少数样例是处于少数样例集群与多数样例集群之间的,例如,其中一个情况是,在所述少数样例的邻居样例中多数样例与少数样例的个数相当,则所述少数样例为所述边界样例;在所述少数样例是属于少数样例中的,但是其存在不稳定时为所述不稳定样例,例如,其中一个情况是,在所述少数样例中的邻居样例中多数样例的个数比少数样例多,则所述少数样例为所述不稳定样例;在所述少数样例是完全在少数样例集群中时为所述稳定样例,例如,其中一个情况是,在所述少数样例的邻居样例中多数样例远比少数样例个数少,即所述少数样例的邻居样例中绝大多数是少数样例,则所述少数样例为所述稳定样例。

s14、根据每一所述少数样例的类别进行与所述类别对应的操作。

需要说明的是,在本发明实施例中,对所述待处理不平衡数据中的少数样例进行过采样,以增加所述少数样例的多样性,在进行过采样过程中,根据每一所述少数样例的不同类别进行不同操作,其中,所述操作包括删除、保留、复制以及合成。

需要说明的是,每一所述少数样例都对应且仅对应一个操作,即每一类别都会有相对应的操作,且只有一个操作,假设类别是b1,b2,b3和b4,则所述b1,所述b2,所述b3和所述b4都会有相应的一个操作,例如,b1对应的是保留,b2对应的是删除,b3对应的也是删除,b4对应的是合成,本发明对此不作具体限定。

具体的,获取待处理不平衡数据中的所有少数样例,得到少数样例集a,a=【a1,a2,…a3,an】,其中,n是所述所有少数样例的个数,假设在所述少数样例a1是噪音样例时,需要对所述少数样例a1进行删除操作,而在有些预处理中,规定对所述噪音样例是进行保留的,则对所述少数样例a1进行保留;假设所述少数样例an是不稳定样例时,而在有些预处理中,规定对所述不稳定样例进行删除操作的,则对所述少数样例进行删除,本发明对此不作具体限定。

实施本实施例具有如下有益效果:

通过获取待处理不平衡数据中的所有少数样例,根据k近邻算法获取每一所述少数样例最近邻的k个样例中多数样例的个数,根据所述多数样例的个数确定对应少数样例的类别,根据每一所述少数样例的类别进行与所述类别对应的操作,解决了对所有的少数样例采取一样的处理方法,单一的只是复制样例或者单一合成新样例,所引发的增加的少数样例的质量低的问题,不同的少数样例类别进行不同的操作,增加了少数样例的处理的多样性,从而增加了少数样例的多样性,提高了新增的少数样例的质量,进而避免因少数类样例少导致分类学习算法精度低,解决少数类样例缺失的问题

实施例二

在实施例一的基础上,

所述根据所述多数样例的个数确定对应少数样例的类别包括:

根据所述多数样例的个数与预设阈值进行大小比较,以确定所述对应少数样例的类别;其中,所述类别包括噪音样例、边界样例、不稳定样例、稳定样例。

在本发明实施例中,所述预设阈值为根据实际情况进行设定。具体的,所述预设阈值包括预设第一阈值n、预设第二阈值p和预设第三阈值q,

则所述根据所述多数样例的个数与预设阈值比较,以确定所述对应少数样例的类别包括:

所述多数样例的个数大于或等于所述预设第一阈值n时,则所述对应少数样例的类别为所述噪音样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;

在本实施例中,所述预设第一阈值n为判断所述少数样例是否为所述噪音的阈值,其中,所述预设第一阈值n取值范围为2k/3<=n<=k,是本发明实施例的优选范围,是根据大量测试得出的一个合理的噪音样例取值范围。

所述多数样例的个数小于所述预设第一阈值n且大于或等于所述预设第二阈值p时,则所述对应少数样例的类别为所述不稳定样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;其中,所述预设第二阈值p取值范围为k/2<=p<n。

在本实施例中,所述预设第一阈值n为判断所述少数样例是否为所述噪音样例的阈值;所述预设第二阈值p为判断所述少数样例是否为所述不稳定样例的阈值,其中,所述预设第二阈值p取值范围为k/2<=p<n,是本发明实施例的优选范围,是根据大量测试得出的一个合理的不稳定样例取值范围。

所述多数样例的个数小于所述预设第二阈值p且大于或等于所述预设第三阈值q时,则所述对应少数样例的类别为所述边界样例;其中,所述预设第二阈值p取值范围为k/2<=p<n;其中,所述预设第三阈值q取值范围为k/3<=q<p;

在本实施例中,所述预设第二阈值p为判断所述少数样例是否为所述不稳定样例的阈值;所述预设第三阈值q为判断所述少数样例是否为所述边界样例的阈值;其中,所述预设第三阈值q取值范围为k/3<=q<p,是本发明实施例的优选范围,是根据大量测试得出的一个合理的边界样例取值范围。

所述多数样例的个数小于所述预设第三阈值q,则所述对应少数样例的类别为所述稳定样例;其中,所述预设第三阈值q取值范围为k/3<=q<p。

在本实施例中,所述预设第三阈值q为判断所述少数样例是否为所述边界样例的阈值。

需要说明的是,所述预设第一阈值n、所述预设第二阈值p和所述预设点阈值q是根据大量测试得出的合理确定不同类别的样例的阈值,其中,所述预设第一阈值n、所述预设第二阈值p和所述预设点阈值q具体数字可自行根据条件进行设定,本发明对此不作具体限定。

则所述根据每一所述少数样例的类别进行与所述类别对应的操作包括:

在所述对应少数样例的类别为所述噪音样例时,对所述少数样例进行删除;

需要说明的是,通过将所述噪音样例进行删除,以提高新增加样例的质量,减少了新增加样例对后续的数据处理过程中的噪音影响。

在所述对应少数样例的类别为所述不稳定样例时,对所述少数样例进行保留。

需要说明的是,将所述不稳定样例进行保留不删除,是为了增加少数样例的多样性,使得少数样例更符合真实情况。

在所述对应少数样例的类别为所述边界样例时,对所述少数样例进行复制。

需要说明的是,所述边界样例是处于待处理不平衡大数据边界的样本,更有价值,更能体现多数类与少数类之间的区别特征,因此选择对位于分类边界的少数类样例进行处理,即复制处于分类器边界的样例,增强其在待处理不平衡大数据中的权重。

在所述对应少数样例的类别为所述稳定样例时,对所述少数样例进行合成。

需要说明的是,为了增加少数样例的数量,通过对所述稳定样例进行合成,能解决过拟合的问题。

实施本实施例具有如下有益效果:

通过对所述少数样例的类别进行精确的区分确定之后,对比每一所述少数样例最近邻的k个样例中多数样例的个数与预设阈值,所述预设阈值是根据每一所述少数样例的不同类别进行不同条件判断设置的,并对不同类别的少数样例进行不同的处理,有效提高不平衡大数据中多数样例的分类准确性。

实施例三

在实施例一和实施例二的基础上,

所述在所述对应少数样例的类别为所述边界样例时,对所述少数样例进行复制包括:

检测到已遍历了所述所有少数样例中的每一少数样例,获取增加个数h;其中,所述增加个数h=|(目标少数样例个数-所述不稳定样例个数)/(所述所有少数样例的个数-所述噪音样例个数-所述不稳定样例个数)-1|;

根据所述增加个数h对所述少数样例进行复制。

具体的,检测到已遍历了所述所有少数样例中的每一少数样例,并对所述少数样例为所述噪音样例的进行删除,对所述少数样例为所述不稳定样例的进行保留之后,还剩下没有进行操作的所述边界样例和所述稳定样例,对于抛去噪音样例的少数样例和抛去不能用于合成或复制的不稳定样例的少数样例的大数据集,首选需要计算还需要增加的个数,即增加所述增加个数h,所述h=|(目标少数样例个数-所述不稳定样例个数)/(所述所有少数样例的个数-所述噪音样例个数-所述不稳定样例个数)-1|,其中,所述目标少数样例个数为对所述待处理不平衡数据进行所述不平衡数据分类过采样之后,最终所期望得到的少数样例的个数;其中,所述不稳定样例个数为已遍历了所述所有少数样例中的每一少数样例之后,得到的所述不稳定样例的个数;其中,所述所有少数样例的个数为一开始,获取得到的所述待处理不平衡数据中的所有少数样例个数;其中,所述噪音样例个数为已遍历了所述所有少数样例中的每一少数样例之后,得到的所述噪音样例的个数;假设,所述目标样例为20000个,所述所有少数样例的个数5000,所述噪音样例500个,所述不稳定样例500个,则h=|(20000-500)/(5000-500-500)-1|=|4.87-1|=3。在所述少数样例为边界样例时,根据所述增加个数h对所述少数样例进行复制,例如,所述少数样例c,所述增加个数h为3,则对所述少数样例c进行复制之后,得到的是4个所述少数样例c。

实施本实施例具有如下有益效果:

对所述待处理不平衡数据中的边界样例进行复制,所述边界样例是处于分类器边界的样本,更有价值,更能体现多数类与少数类之间的区别特征,因此选择对位于分类边界的少数类样例进行处理,即复制处于分类器边界的样例,增强其在分类器中的权重,以此提高不平衡大数据中少数样例的分类准确性。

实施例四

需要说明的是,现有技术在进行新样例合成时,对于少数样例x,在采用欧氏距离的情况下,其k个少数类近邻分别为x1、x2、x3、x4,如果从这4个少数类近邻中随机选择一个,每一个被选中的概率都是一样的,而如图6所示,x3处在多数类样例中间,极有可能是噪声。如果随机选中的是x3的话,则新合成的样例很有可能会是噪声,不仅难以达到增强少数类的目的,也会引入更多的噪声。

而本实施例中,合成的都是少数样例,所述在所述对应少数样例的类别为所述稳定样例时,对所述少数样例进行合成包括:

检测到已遍历了所述所有少数样例中的每一少数样例,获取增加个数h;其中,所述增加个数h=|(目标少数样例个数-所述不稳定样例个数)/(所述所有少数样例的个数-所述噪音样例个数-所述不稳定样例个数)-1|;

获取所述稳定样例到最近邻k个少数类样例的平均距离d;

具体的,假设所述少数样例e为不稳定样例,k取值为4,则获取所述稳定样例最近邻的4个样例到所述不稳定样例的平均距离,所述稳定样例最近邻的4个样例为o1,o2,o3和o4,所述o1,所述o2,所述o3和所述o4到所述稳定样例即所述少数样例e的距离分别是10,20,30和20,则所述平均距离为(10+20+30+20)/4=20,其中,所述稳定样例即所述少数样例e的距离为欧式距离。

在所述平均距离d小于或等于预设值时,获取所述稳定样例最近邻的k个少数类样例中每一少数样例ji的序号;其中,所述序号为依据每一所述少数样例ji最近邻的k个样例中少数样例与多数样例的比值进行升序排序;其中,1<i<=k;

具体的,所述稳定样例f,k为4,所述稳定样例最近邻的k个样例中少数样例j1,j2,j3和j4,其中,所述少数样例j1的邻居中少数样例与多数样例的比值是2/2,所述少数样例j2的邻居中少数样例与多数样例的比值是3/1,所述少数样例j3的邻居中少数样例与多数样例的比值是1/3,所述少数样例j4的邻居中少数样例与多数样例的比值是1/3,则所述j1,所述j2,所述j3和所述j4的序号依据升序排序为j3=1,j4=1,j1=2,j2=3。

获取所述稳定样例的选择概率;其中,所述选择概率=0至1之间任一随机数立方运算结果乘以每一所述少数样例ji的序号;其中,1<i<=k;

具体的,所述j1,所述j2,所述j3和所述j4的序号依据升序排序为,j3=1,j4=1,j1=2,j2=3,所述j1,所述j2,所述j3和所述j4的随机得到随机数分别是0.6,0.5,0.3,0.8,则相应的j1,所述j2,所述j3和所述j4的选择概率分别为:j1为0.63*2=0.432;j2为0.53*3=0.375;j3为0.33*1=0.027;j4为0.83*1=0.512;

根据所述选择概率随机选取一个所述少数样例ji,获取被选中的少数样例ji;

需要说明的是,不是选择所述选择概率值最大的,而是所述选择概率值越大,对应的少数样例被选择的可能性就越大,但是也有可能选择上所述选择概率值小的少数样例。

根据所述被选中的少数样例ji与所述稳定样例进行合成,以得到新样例;其中,所述新样例=所述稳定样例+(所述稳定样例-所述被选中的少数样例ji)*a;其中,所述a为生成的0至1之间的随机数。

需要说明的是,所述平均距离d小于或等于预设值,即这个少数类样例与周围少数类样例很紧密,基于所述少数样例在特征空间中的相似度进行所述少数类样例的选择,则从周围的少数类样例中选择一个邻居少数样例与其合成新样例。

具体的,假设k=5的情况,从xi的5个距离最近的少数类样本xi1、xi2、xi3、xi4、xi5之间随机选择了xi2进行新样本合成,这种方法既避免了过拟合问题,也使得少数类的样本权重增大,从而分类器在学习的过程中会向少数类倾斜,提高了少数样例的分类效果。

优选地,所述在所述对应少数样例的类别为所述稳定样例时,对所述少数样例进行合成还包括:

获取所述稳定样例到最近邻k个少数类样例的平均距离d;

在所述平均距离d大于预设值时,获取所述稳定样例最近邻的k个少数类样例中每一少数样例hi的序号;其中,所述序号为依据每一所述少数样例xn最近邻的k个样例中少数样例与多数样例的比值进行升序排序;其中,1<n<=k;

获取所述稳定样例的选择概率;其中,所述选择概率=0至1之间任一随机数立方运算结果乘以每一所述少数样例xn的序号;其中,1<n<=k;

根据所述选择概率随机选取s个所述少数样例xnj;其中,1<s<=k;其中,1<j<=s;

根据合成方法对每一所述少数样例xnj与所述稳定样例进行合成,得到新样例;其中,所述合成方法为

其中,所述an为生成的0至1之间的随机数;所述xi'为所述新样例;所述xi为所述稳定样例;其中,1<s<=k。

具体的,如果s=3,则选择3个邻居样例与原来的样例一起生成新样例,如果a1=0.2,a2=0.8,a3=0.4,则新生成的样例为:

需要说明的是,在所述平均距离d大于预设值时,即所述少数类样例与周围少数类样例很松散,则从周围的少数类样例中选择s个样例,其中,s可以根据需要设置,但需满足1<s<=k,与其合成新样例,即对与周围少数类样例距离比较远的样例,尽量多选择几个样例与其共同生成新样例,以免只选择一个样例合成新样例造成偏差较大,与原始数据不符的情况。

实施本实施例具有如下有益效果:

在合成新样例的过程中,已有方法随机选择一个近邻样例与已有样例合成新样例,极有可能引入噪音样例或者是多数样例;通过根据少数样例分布的不同特点采取不同合成方法,对分布紧密的少数样例,选择一个近邻样例与所述少数样例合成新样例,选择时周围多数类样例越多的样例被选中的几率越低;对分布稀疏的样例,选择s个样例与其合成新样例,避免分布稀疏的样例与一个偏离正常值的临近样例合成新样例的情况出现,使得新合成的样例更符合样例分布特性。

参见图7,图7是本发明第五实施例提供的一种不平衡数据分类过采样装置结构示意图,包括:

少数样例获取模块71,用于获取待处理不平衡数据中的所有少数样例;

多数样例个数获取模块72,用于根据k近邻算法获取每一所述少数样例最近邻的k个样例中多数样例的个数;

类别确定模块73,用于根据所述多数样例的个数确定对应少数样例的类别;

操作模块74,用于根据每一所述少数样例的类别进行与所述类别对应的操作。

优选地,所述类别确定模块73包括:

类别确定单元,用于根据所述多数样例的个数与预设阈值进行大小比较,以确定所述对应少数样例的类别;其中,所述类别包括噪音样例、边界样例、不稳定样例、稳定样例。

优选地,所述预设阈值包括预设第一阈值n、预设第二阈值p和预设第三阈值q,则所述类别确定单元包括:

所述多数样例的个数大于或等于所述预设第一阈值n时,则所述对应少数样例的类别为所述噪音样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;

所述多数样例的个数小于所述预设第一阈值n且大于或等于所述预设第二阈值p时,则所述对应少数样例的类别为所述不稳定样例;其中,所述预设第一阈值n取值范围为2k/3<=n<=k;其中,所述预设第二阈值p取值范围为k/2<=p<n;

所述多数样例的个数小于所述预设第二阈值p且大于或等于所述预设第三阈值q时,则所述对应少数样例的类别为所述边界样例;其中,所述预设第二阈值p取值范围为k/2<=p<n;其中,所述预设第三阈值q取值范围为k/3<=q<p;

所述多数样例的个数小于所述预设第三阈值q,则所述对应少数样例的类别为所述稳定样例;其中,所述预设第三阈值q取值范围为k/3<=q<p。

优选地,所述操作单元包括:

删除单元,用于在所述对应少数样例的类别为所述噪音样例时,对所述少数样例进行删除;

保留单元,用于在所述对应少数样例的类别为所述不稳定样例时,对所述少数样例进行保留;

复制单元,用于在所述对应少数样例的类别为所述边界样例时,对所述少数样例进行复制;

合成单元,用于在所述对应少数样例的类别为所述稳定样例时,对所述少数样例进行合成。

优选地,所述复制单元包括:

检测到已遍历了所述所有少数样例中的每一少数样例,获取增加个数h;其中,所述增加个数h=|(目标少数样例个数-所述不稳定样例个数)/(所述所有少数样例的个数-所述噪音样例个数-所述不稳定样例个数)-1|;

根据所述增加个数h对所述少数样例进行复制。

优选地,所述合成单元包括:

检测到已遍历了所述所有少数样例中的每一少数样例,获取增加个数h;其中,所述增加个数h=|(目标少数样例个数-所述不稳定样例个数)/(所述所有少数样例的个数-所述噪音样例个数-所述不稳定样例个数)-1|;

获取所述稳定样例到最近邻k个少数类样例的平均距离d;

在所述平均距离d小于或等于预设值时,获取所述稳定样例最近邻的k个少数类样例中每一少数样例ji的序号;其中,所述序号为依据每一所述少数样例ji最近邻的k个样例中少数样例与多数样例的比值进行升序排序;其中,1<i<=k;

获取所述稳定样例的选择概率;其中,所述选择概率=0至1之间任一随机数立方运算结果乘以每一所述少数样例ji的序号;其中,1<i<=k;

根据所述选择概率随机选取一个所述少数样例ji,获取被选中的少数样例ji;

根据所述被选中的少数样例ji与所述稳定样例进行合成,以得到新样例;其中,所述新样例=所述稳定样例+(所述稳定样例-所述被选中的少数样例ji)*a;其中,所述a为生成的0至1之间的随机数。

优选地,所述合成单元还包括:

获取所述稳定样例到最近邻k个少数类样例的平均距离d;

在所述平均距离d大于预设值时,获取所述稳定样例最近邻的k个少数类样例中每一少数样例hi的序号;其中,所述序号为依据每一所述少数样例xn最近邻的k个样例中少数样例与多数样例的比值进行升序排序;其中,1<n<=k;

获取所述稳定样例的选择概率;其中,所述选择概率=0至1之间任一随机数立方运算结果乘以每一所述少数样例xn的序号;其中,1<n<=k;

根据所述选择概率随机选取s个所述少数样例xnj;其中,1<s<=k;其中,1<j<=s;

根据合成方法对每一所述少数样例xnj与所述稳定样例进行合成,得到新样例;其中,所述合成方法为

其中,所述an为生成的0至1之间的随机数;所述xi'为所述新样例;所述xi为所述稳定样例;其中,1<s<=k。

实施本实施例具有如下有益效果:

根据k近邻算法获取每一所述少数样例最近邻的k个样例中多数样例的个数;根据所述多数样例的个数确定对应少数样例的类别;根据每一所述少数样例的类别进行与所述类别对应的操作;在处理不平衡大数据分类过程中少数类样例少导致的分类学习算法精度低的问题时,避免对所有的少数样例采取一样的处理方法,单一的只是复制样例或者单一合成新样例;通过对所述待处理不平衡数据中的少数样例的类别进行划分,以根据不同类别的样例进行不同的操作,以对少数样例的不同处理方式来增加少数样例的多样性,避免因少数类样例少导致分类学习算法精度低,解决少数类样例缺失的问题。

请参见图8,图8是本发明第六实施例提供的不平衡数据分类过采样设备的示意图,用于执行本发明实施例提供的不平衡数据分类过采样方法,如图8所示,该不平衡数据分类过采样设备包括:至少一个处理器11,例如cpu,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括usb接口以及其他标准接口、有线接口。网络接口14可选的可以包括wi-fi接口以及其他无线接口。存储器15可能包含高速ram存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。

在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:

操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;

程序152。

具体地,处理器11用于调用存储器15中存储的程序152,执行上述实施例所述的不平衡数据分类过采样方法。

所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述不平衡数据分类过采样方法的控制中心,利用各种接口和线路连接整个所述不平衡数据分类过采样方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现不平衡数据分类过采样的电子装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中,所述自适应采样不平衡数据分类的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,在某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。其次,本领域技术人员也应知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模拟一定是本发明所必须的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1