一种在线高维不平衡流数据的学习方法与流程

文档序号:16432639发布日期:2018-12-28 20:15阅读:406来源:国知局
一种在线高维不平衡流数据的学习方法与流程

本发明涉及模式识别、机器学习技术领域,尤其涉及一种在线高维不平衡流数据的学习方法。

背景技术

随着信息技术的迅猛发展,尤其是互联网行业的广泛应用,越来越多的领域出现了对海量高速到达的数据实时处理需求。各个行业产生的业务数据大多数情况下可以看作动态到达的流式数据,与传统数据相比,这类数据具有动态性、无序性、无限性、突发性和体积大等特点。如何从海量的数据中挖掘有用的特征,并对每一个样本进行实时分类变得尤为重要。

传统的批处理式的学习方法一方面存在学习时间长、学习效率低的问题;另一方面难以针对增量数据有效地更新模型,导致难以有效地使模型适应数据中发生的概念迁移和概念演化问题。传统的批处理模式的机器学习算法在当前大数据环境下变得越来越力不从心,而在线学习通过流式计算框架,在内存中直接对数据实时运算,为大数据的学习和分类提供了有力的工具。

最早的在线学习算法可以追溯到20世纪50年代著名的感知器算法(perceptron);近年来,研究人员提出了在线核学习算法、最小收缩和选择算子算法(lsasso)、在线梯度下降法(ogd)、在线被动进取算法(pa)、信心加权算法(cw)、压缩感知算法(cs)等。然而上述算法依然具有以下缺陷:

1.现有算法在进行在线学习时并未考虑数据的不平衡性;而现实中有很多类别不均衡问题,它是常见的,并且也是合理的,符合人们期望的;比如,在欺诈交易识别中,属于欺诈交易的应该是很少部分,即绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。

2.对高纬度流数据的分类精度仍需提高。

故,针对现有技术的缺陷,实有必要提出一种技术方案以解决现有技术存在的技术问题。



技术实现要素:

鉴于现有技术的方法很难满足目前对于不平衡流数据在线分类,本发明提供一种在线高维不平衡流数据的学习方法,通过截断算法将贡献量极小的特征权重进行截断,从而进一步优化了模型,提高了对高维不平衡流数据的分类精度。同时通过置信加权对在线流数据进行在线特征选择,并通过代价敏感性技术为不平衡数据设置不同权重,从而实现最小代价敏感损失的特征,即解决了传统在线分类方法无解解决的不平衡流数据分类问题,同时提高了分类精度。

为了解决现有技术存在的技术问题,本发明的技术方案如下:

一种在线高维不平衡流数据的学习方法,包括以下步骤:

步骤s1:输入参数并初始化在线学习模型;

步骤s2:将当前样本输入在线学习模型;

步骤s3:利用在线不平衡流数据分类算法更新权值;

步骤s4:对权值中特征权重进行截断并重新更新权值;

其中,所述步骤s4进一步包括:

设定截断步长k,每k步执行特征权重截断算法对权值进行更新;

其中,特征权重截断算法为:

其中,wj为权值中的向量特征;a为偏置;θ为阈值。

作为优选的技术方案,所述步骤s3进一步包括:

步骤s31:通过学习模型获取预测标签值,其中,该模型符合高斯分布n(u,∑);

步骤s32:获取当前样本的标签并与步骤s2中获取的预测标签值相比较,如果两者不一致,则执行步骤s33,否则,继续输入下一个样本;

步骤s33:根据当前样本的标签获取代价敏感参数并利用代价敏感参数对权值进行更新;

其中,所述步骤s33进一步包括以下步骤:

步骤s331:如果样本的标签为正,则设定代价敏感参数为c+;如果样本的标签为负,则设定代价敏感参数为c-;

步骤s332:根据代价敏感参数更新高斯分布的参数,也即,根据公式(1)求解kl距离最小的均值参量μt+1和协方差参量σt+1作为更新值:

其中,ccs为代价敏感参数,其值为c+或c-;

dkl(·)为kl距离的描述,n(μ,σ)为模型的高斯分布,n(μt,σt)为当前样本的高斯分布;

为损失函数,用于度量误分类的概率,(xt,yt)为当前样本;

步骤s333:根据更新后的高斯分布更新当前权值wt+1。

作为优选的技术方案,所述步骤s3中,利用置信度加权算法计算均值参量μt+1和协方差参量σt+1。

作为优选的技术方案,所述代价敏感参数ccs根据流数据不平衡率设置。

与现有技术相比较,本发明对现有算法进行改进,通过截断算法将贡献量极小的特征权重进行截断,从而进一步优化了模型,通过对模型进行更新,在提高不平衡流数据分类精度的同时,还提高了在线分类器的分类精度。

本发明中增加了代价敏感(cs)策略,用于处理不平衡流数据。即加入如代价敏感参数ccs作为分配给损失函数的代价因子。研究表明,最优的敏感因子分配给损失函数,可以使检测不平衡数据算法优劣的评价标准f测度达到最优。

附图说明

图1为本发明在线高维不平衡流数据的学习方法的流程图。

图2为一种优选实施方式中的流程图。

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明提供的技术方案作进一步说明。

传统在线学习算法中,通常根据预测值和标签结果直接修改学习模型中权重,然而这种方式,在处理不平衡流数据会严重偏离预期。

参见图1,所示为本发明本发明提供一种在线高维不平衡流数据的学习方法的流程图,包括以下步骤:

步骤s1:输入参数并初始化在线学习模型;

步骤s2:将当前样本输入在线学习模型;

步骤s3:利用在线不平衡流数据分类算法更新权值;

步骤s4:对权值中特征权重进行截断并重新更新权值;

其中,所述步骤s4进一步包括:

设定截断步长k,每k步执行特征权重截断算法对权值进行更新;

其中,特征权重截断算法为:

其中,wj为权值中的向量特征;a为偏置;θ为阈值。

在上述技术方案中,在最对高维不平衡数据流进行处理时,通过式(2)特征权重截断算法对权值进行更新;

其中,wj为权值中的向量特征;a为偏置;θ为阈值。

通过上述截断算法,将贡献量极小的特征权重进行截断,从而进一步优化了模型。

在一种优选实施方式中,式(2)通过下式(3)求解得到:

w=tg(w)=t(w-γ▽l(w;(xt,yt)),γg,θ),(3)

这里,t为截断,g为梯度计算,l(w;(xt,yt))=max(0,1-yt(wtxt))为损失函数。

参见图2,所示为本发明一种优选的实施方式,所述步骤s3进一步包括:

步骤s31:通过学习模型获取预测标签值,其中,该模型符合高斯分布n(u,∑);

步骤s32:获取当前样本的标签并与步骤s2中获取的预测标签值相比较,如果两者不一致,则执行步骤s33,否则,继续输入下一个样本;

步骤s33:根据当前样本的标签获取代价敏感参数并利用代价敏感参数对权值进行更新;

其中,所述步骤s33进一步包括以下步骤:

步骤s331:如果样本的标签为正,则设定代价敏感参数为c+;如果样本的标签为负,则设定代价敏感参数为c-;

步骤s332:根据代价敏感参数更新高斯分布的参数,也即,根据公式(1)求解kl距离最小的均值参量μt+1和协方差参量σt+1作为更新值:

其中,ccs为代价敏感参数,其值为c+或c-;

dkl(·)为kl距离的描述,n(μ,σ)为模型的高斯分布,n(μt,σt)为当前样本的高斯分布;

为损失函数,用于度量误分类的概率,(xt,yt)为当前样本;

步骤s333:根据更新后的高斯分布更新当前权值wt+1。

上述技术方案中,损失函数用于计算高斯分布,从而度量误分类的概率。这个损失函数通过最小化先前权重分布和新的权重分布之间的kullbackleibler(kl)散度来更新权重分布。kl距离用于度量两个分布之间的差异。

加入如代价敏感参数ccs作为分配给损失函数的代价因子。研究表明,最优的敏感因子分配给损失函数,可以使检测不平衡数据算法优劣的评价标准f测度达到最优。通过上述方式对模型进行更新,能够在提高不平衡流数据分类精度的同时,提高了在线分类器的分类精度。

在一种优选的实施方式中,所述代价敏感参数ccs根据流数据不平衡率设置。从而根据流数据的自身特征设置最优的代价敏感参数。

在一种优选实施方式,本发明本发明的算法步骤在malab中实现,具体步骤如下:

onlinealgorithm:

上述算法为置信度加权梯度截断算法,通过该算法选择不平衡流数据特征能够达到令人满意的不平衡评价标准。

置信度加权线性分类器在线学习算法对置信度小的特征给予更频繁的修改机会。置信度模型用特征向量的高斯分布表示。均值μ∈rd,协方差矩阵∑∈rd×d,其中d是特征维度。权值w符合高斯分布n(u,∑),而由w*x的结果,可以预测其分类的结果。并对高斯分布的参数进行更新,如(1)所示:

为损失函数,具体表达式为:

为kl距离,具体表达式如式5所示;

该算法增加了代价敏感(cs)策略,用于处理不平衡流数据。算法中加入如代价敏感参数ccs,它是分配给损失函数的代价因子。如果yt=+1,将代价敏感c+分配给损失函数;如果yt=-1,则将代价敏感因子c-分配给损失函数。研究表明,最优的敏感因子分配给损失函数,可以使检测不平衡数据算法优劣的评价标准f测度达到最优。

上述算法中:

γ是学习率;

g是重力参数;

θ是阈值;

φ=φ-1(η);

φ:标准正态分布的累积分布函数;

η:置信超参数η∈[0,1]。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1