一种基于离散度平衡的度量学习方法与流程

文档序号:14941195发布日期:2018-07-13 20:51阅读:241来源:国知局

本发明涉及数据挖掘与人工智能技术,具体是一种基于离散度平衡的度量学习方法,可恰当的度量不平衡数据间样本的相似度。



背景技术:

随着信息时代的发展,度量学习算法已极为广泛的应用至生产生活的各个方面。度量学习能根据已有样本的属性,针对性的学习距离度量方法,从而恰当的度量不同样本间的距离,以衡量样本间的相似性。恰当的距离度量方法能充分提高样本分类、聚类等应用的精度。近些年,研究人员从不同的角度提出了不同的解决思路,并获得了许多良好的距离度量方法。

xing.p针对样本间的度量学习,提出了一种凸优化模型,根据样本间的成对约束,使得同类间样本距离较小的同时,最大化不同类间样本的距离,在保证所获得距离度量矩阵为半正定矩阵的情况下,获得最优的距离度量。lmnn(大间隔最近邻居分类算法)是一种局部优化方法,其旨在使样本的k个近邻尽可能为同一类的样本,且尽可能的分离不同类的样本,并通过迭代求得最优解。itml(基于信息论的距离度量学习)将信息论相关理论引入度量学习,并获得一个bregman优化问题。itml旨在最小化两个高斯分布间的kl散度,并在约束条件的作用下获得距离度量。研究人员针对样本的分布属性、标签信息等,提出了许多恰当的度量学习方法。然而,很多算法并不能很好的处理不平衡数据集。由于不平衡数据集中,不同类样本的数量差异较大,使得传统度量学习方法更倾向于样本数量大的类而忽略样本数量较小的类,造成距离度量不能准确的反应不同类间样本的相似性,而影响分类、聚类等应用的精度。



技术实现要素:

本发明的目的在于提供一种基于离散度平衡的度量学习方法,能很好的处理不平衡数据集,平衡的分离来自不同类的样本数据的同时,使来自不同类样本距离之和尽可能大。

为实现上述目的,本发明提供如下技术方案:

一种基于离散度平衡的度量学习方法,包括以下步骤:

(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,进一步定义归一化离散度;

(2)将归一化离散度与几何均值结合,最大化几何均值的过程中使得不同类间散度尽可能的一致,并使用log函数进一步平衡各类间离散度,以避免不同类在度量空间中过于紧凑的现象;

(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题,增强了本发明度量学习方法的判别能力;

(4)构建本发明提出的度量学习算法模型,增加约束条件,使得所求距离度量有效可行,得到度量学习优化模型;

(5)根据本发明的度量学习优化模型,利用梯度下降与迭代映射方法求解优化模型,求得本发明所提出的度量学习的距离度量矩阵;

(6)提取不平衡数据集中待分类的样本特征,并使用步骤(5)获得的距离度量矩阵进行分类实验,对待分类样本进行分类实验,验证度量学习的性能。

作为本发明进一步的方案:所述的步骤(1),具体包括以下步骤:

11)根据样本标签l1,l2,…,ln,将所有的n个样本划分为以下样本集合:s1,s2,…,sc,其中si包含第i类的所有样本,共c类;

12)根据每类样本内样本数据,计算每类样本的重心,对于第i类样本,其重心ui计算如下:

其中,ni为第i类样本个数,均为来自于第i类的样本;

13)在使用距离度量矩阵a时,第i类与第j类的重心间距离da(ui,uj)定义如下:

14)为了衡量两类样本间的离散程度,定义归一化类间离散度如下:

其中,qi是第i类样本的个数,da(ui,uj)是在使用距离度量矩阵a时第i与j类样本重心间的距离,是第i与j类的归一化离散度,其刻画了两类样本间的离散程度。

作为本发明进一步的方案:所述的步骤(2),具体包括以下步骤:

21)本发明旨在平衡的分离不同的类,使得度量学习能较好的度量来自不平衡数据样本间的距离;因此,本发明利用几何均值的特性,将其与归一化离散度结合可得则最大化几何均值可使得不同类间离散度尽可能的均衡,则最大化几何均值a*如下:

由几何均值不等式的性质可知,当且仅当几何均值各个乘数项(即不同类间归一化离散度)相等时,几何均值可取得最大值,因此,最大化公式(4)可使得不同类间归一化离散度尽可能的平衡或相等,以避免某几个不同类在度量空间中过于集中;针对不平衡数据集,虽然不同类间样本数量差异较大,本发明平等的分离了不同类间的样本,以避免不平衡数据集对度量学习的影响;

22)由于log函数的特殊性质,本发明进一步采用了log函数,并将其作用于公式(4)中的几何均值,使得不同类间离散度a*进一步平衡如下:

log函数的使用,使本发明在学习距离度量时,更倾向于减小较大离散度的影响,增加较小类间离散度的影响,使不同类的样本在度量空间中均衡的离散,避免不同类过于集中以影响后续分类、聚类等工作。

作为本发明进一步的方案:所述的步骤(3),具体为:为了进一步增加本发明提出度量学习的判别能力,本发明根据样本数据与类别信息,充分利用最大边界理论,使训练得到的距离度量能使得来自不同类的样本距离之和最大;因此,最大化问题构建如下:

其中,yi代表样本xi的类别标签,da(xi,xj)表示来自不同类的两个样本xj,xj之间的距离;公式(6)旨在使求得的距离度量矩阵a能使不同类间样本距离之和最大,使得不同类间距尽可能大;公式(6)增加了本发明度量学习算法的判别能力,减小了不同类样本被错分为同一类的概率。

作为本发明进一步的方案:所述的步骤(4)中,本发明充分考虑了不平衡数据集对度量学习造成的影响,在平等的对待不同类样本的同时,使来自不同类的样本距离之和尽可能大,从而获得本发明的度量学习算法模型,其利用公式(5)与公式(6),构建优化模型如下:

41)根据本发明提出的方法,构造基于离散度平衡的度量学习算法框架如下:

其中,λ是正则化参数,用于平衡公式(7)中两项的比例;公式(7)最大化归一化离散度几何均值的同时,利用了最大边界理论,使不同类间样本距离之和尽可能大,从而获得本发明的距离度量矩阵;

42)由于公式(7)所得距离度量矩阵并不能保证其为半正定矩阵,因此,本发明增加约束,保证其为半正定矩阵;同时,约束同类样本间距离之和小于某个常数,避免同一类样本分布距离较远;本发明构造的度量学习框架如下,即为度量学习优化模型:

其中,由于距离度量矩阵为半正定该矩阵,因此本发明增加约束条件a≥0,使得度量学习求解过程a≥0保证了距离度量矩阵a为半正定矩阵;同时,本发明约束同类样本间距离之和小于某个常数,避免同一类样本分布距离较远,则本发明定义g(a)约束同类样本间距离之和小于1。

作为本发明进一步的方案:所述的步骤(5),具体包括以下步骤:

51)首先将距离度量矩阵a随机初始化;

52)求解公式(7)中l(a)对矩阵a的导数(该导数的求解对于优化模型的获得至关重要)如下:

其中,

53)利用梯度上升方法,利用公式(9)求得的梯度方向,对距离度量矩阵a进行更新,即

54)将距离度量矩阵a映射至集合中;如果a不属于集合c1,则将矩阵a沿着梯度方向进行更新,直至a属于集合c1停止更新;所获得的距离度量矩阵a在尽可能保持原有矩阵性质的同时,保证了其属于集合c1;

55)为了保证矩阵a是半正定的,将矩阵a映射至集合c2={a|a≥0}a≥0中,以保证距离度量的有效性,其步骤为:将矩阵a进行特征分解,即a=ptλp,其中λ=diag(η1,η2,…,ηd)为矩阵a的特征值;将其中小于0的特征值用0替换,则得到λ′=diag(max{η1,0},max{η2,0},…,max{ηd,0});则距离度量矩阵a更新为a=ptλ′p,保证了距离度量矩阵a为半正定矩阵;

56)依次重复进行以上所有步骤直至距离度量矩阵a收敛;稳定解即为本发明所构造的距离度量。

与现有技术相比,本发明的有益效果是:

针对不平衡数据集对度量学习带来的负面影响,本发明提出一种基于离散度平衡的距离度量方法,较好的度量了不平衡数据集中样本间的距离,避免了不平衡数据集给度量学习带来的不良影响。

本发明针对不平衡数据集中不同类样本数量差距大,旨在利用几何均值,平衡地离散不同类的样本,并利用最大边界理论,使得不同类样本间距离尽可能的大,以增加度量学习算法的判别能力。

本发明使得不同类分布更加分散的同时,其类间的离散度更加均衡,恰当的衡量了不平衡数据集中样本的相似性,并在本发明的分类试验中取得了较好的结果。

具体实施方式

下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

本发明实施例中,一种基于离散度平衡的度量学习方法,具体实施方式如下:

(1)根据样本的标签信息,计算各类重心为u1,u2,…,uc,进一步定义归一化离散度如下:

其中,qi是第i类样本的个数,da(ui,uj)是在使用距离度量矩阵a时第i与j类样本重心间的距离,是第i与j类的归一化离散度;

(2)将归一化离散度与几何均值结合,使样本数量不同的类尽可能的平衡的分散如下:

(3)为了进一步减小样本量较大的类对距离度量的影响,并增加样本量较小类的作用,本发明引入log函数并将其作用于几何均值如下:

(4)本发明均衡的分离来自不同类样本的同时,利用最大边界理论,使来自不同类的样本尽可能的分散开,以增强本发明度量学习算法的判别能力。同时,本发明为了获得可行有效的距离度量,增加约束条件,并构造优化模型如下:

41)根据本发明提出的方法,构造基于离散度平衡的度量学习算法框架如下:

其中,λ是正则化参数,用于平衡公式(7)中两项的比例;公式(7)最大化归一化离散度几何均值的同时,利用了最大边界理论,使不同类间样本距离之和尽可能大,从而获得本发明的距离度量矩阵;

42)由于公式(7)所得距离度量矩阵并不能保证其为半正定矩阵,因此,本发明增加约束,保证其为半正定矩阵;同时,约束同类样本间距离之和小于某个常数,避免同一类样本分布距离较远;本发明构造的度量学习框架如下,即为度量学习优化模型:

其中,由于距离度量矩阵为半正定该矩阵,因此本发明增加约束条件a≥0,使得度量学习求解过程a≥0保证了距离度量矩阵a为半正定矩阵;同时,本发明约束同类样本间距离之和小于某个常数,避免同一类样本分布距离较远,则本发明定义g(a)约束同类样本间距离之和小于1。

(5)使用梯度下降与迭代映射方法,对公式(8)中优化模型进行迭代求解如下:

51)首先将距离度量矩阵a随机初始化;

52)求解公式(7)中l(a)对矩阵a的导数(该导数的求解对于优化模型的获得至关重要)如下:

其中,

53)利用梯度上升方法,利用公式(9)求得的梯度方向,对距离度量矩阵a进行更新,即

54)将距离度量矩阵a映射至集合中;如果a不属于集合c1,则将矩阵a沿着梯度方向进行更新,直至a属于集合c1停止更新;所获得的距离度量矩阵a在尽可能保持原有矩阵性质的同时,保证了其属于集合c1;

55)为了保证矩阵a是半正定的,将矩阵a映射至集合c2={a|a≥0}a≥0中,以保证距离度量的有效性,其步骤为:将矩阵a进行特征分解,即a=ptλp,其中λ=diag(η1,η2,…,ηd)为矩阵a的特征值;将其中小于0的特征值用0替换,则得到λ′=diag(max{η1,0},max{η2,0},…,max{ηd,0});则距离度量矩阵a更新为a=ptλ′p,保证了距离度量矩阵a为半正定矩阵;

56)依次重复进行以上所有步骤直至距离度量矩阵a收敛;稳定解即为本发明所构造的距离度量。

为进一步说明本发明方法的有效性,使用2个标准的不平衡数据集(wine,glass)来进行实验验证。wine数据集共包含来自于3个类的178个样本,每个样本由一个13维的向量表示,各个类所含样本数为59,71,48,则wine数据的不平衡率为48/71≈0.6761。glass数据集共包含来自于6个类的214个样本,每个样本由一个9维的向量表示,各个类所含样本数为70,17,76,13,9,29,则wine数据的不平衡率为9/76≈0.1184。

本实施例中使用了xing(凸优化模型)、cmm(能力成熟度模型)、itml(基于信息论的距离度量学习)、lmnn(大间隔最近邻居分类算法)、euclidean(欧几里得)和chebychev(切比雪夫)等距离度量作为对比算法,所有数据在进行度量学习前进行了归一化预处理。针对这两个数据集,本实验各自随机选取了其中100个样本作为训练样本,剩余所有样本为测试样本。在使用不同距离度量求得样本间距离后,使用1nn(最近邻算法)将测试样本进行分类。实验重复进行10次,并将其分类精度计算均值后统计在表1中。

表1两标准样本经不同距离度量处理后的分类精度值

由表1可以看出:针对不平衡数据集中不同类样本数量差距大,本发明旨在利用几何均值,平衡地离散不同类的样本,并利用最大边界理论,使得不同类分布更加分散的同时,其类间的离散度更加均衡,恰当的衡量了不平衡数据集中样本的相似性。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1