一种嵌入式多类别属性标签动态特征选择算法的制作方法

文档序号:11655011阅读:181来源:国知局
一种嵌入式多类别属性标签动态特征选择算法的制造方法与工艺

本发明涉及模式识别领域,具体是一种嵌入式多类别属性标签动态特征选择方法。



背景技术:

传统互信息度量算法因其在高维属性数据处理过程中具有运算速度快、效率比较高等优点,被广泛用于特征维度约简算法中。但随着科学技术的迅速发展,很多技术领域比如计算机网络通信、生化医学工程都朝着多类别属性标签数据类型方向发展。多标签分类问题就是根据多标签数据的类型特点,构建相应的分类模型,并根据判别准则对未知数据的类别属性进行判断,将样本数据同时划分到多个类别标签中。单一标签属性分类问题和多标签属性分类问题的根本区别是单一标签属性分类问题样本数据只能属于一个类别标签,而多标签属性的分类问题样本数据可以属于多个类别标签,这十分符合现阶段信息数据高度发展的特点。因此得到了广泛关注。

多标签属性的分类与传统的单一的标签属性分类一样,多标签属性分类问题也同样面临着“维度灾难”问题,“维度灾难”也同样严重影响着多标签属性分类器的分类能力。特征属性的“降维技术”可以降低特征属性的维度,提高分类器的分类准确率,在单一的标签属性分类问题中适用的同时,多标签属性分类问题中也同样可以使用特征属性的这种技术,以达到属性约简的效果。特征“降维”技术大体上一般分为特征选择和特征提取两个方面,特征选择根据其评价准则的不同分为,过滤式、包裹式、嵌入式。本发明主要研究多标签特征选择问题。

多标签特征选择算法现阶段存在两种基本的发展方向:一方面是数据转换的算法方向,一方面是算法适应方向。基于数据转换的特征选择算法研究是将所标签数据进行转化,转化为单一标签类别属性,多次运用单一标签的特征选择算法以达到多标签特征选择的目的。基于算法适应的特征选择算法研究是将单一标签的特征选择算法进行变形与算法改进,使其适应多标签属性的特征选择算法。现阶段的常见算法有基于数据转化的svm特征选择算法,knn算法,这些算法没有考虑到标签属性内部的相关关系,基于互信息的特征选择算法可以依据信息论中互信息的相关知识很好的分析属性之间的相关性关系。但是常用来衡量两变量之间的相互关系的互信息的估算方法仍未足够的有效,仅考虑特征与类别之间的相互关系以及特征与已选特征之间的相互关系,没有将随着特征被选择样本数据被不断被确定,信息熵的估算值在不断变化的动态过程表现出来。

基于以上所考虑的问题,本发明提出了一种嵌入式多类别属性标签动态特征选择算法(ml-difs),该算法通过互信息计算,不但考虑特征属性与标签属性之间的相互关系还考虑特征属性之间的相关性和冗余性,同时还考虑到多标签属性内部,标签属性与标签属性之间的相互关系。提出的嵌入式动态多标签特征选择算法,通过嵌入的分类器将已识别的样本数据进行剔除,以此保证信息熵估算的准确性、实时性。



技术实现要素:

本发明的目的在于提供一种基于嵌入式多类别属性标签动态特征选择方法,以解决上述背景技术中提出的问题;为实现上述目的,本发明提供如下技术方案:具体是一种基于嵌入式多类别属性标签动态特征选择方法包括以下步骤:

首先介绍传统基于互信息的特征选择方法。

1.数据集合预处理

当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:

2.互信息的相关知识

特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要解决的问题是度量问题,度量问题要考虑属性集与类别标签之间的相关性关系、属性集和属性集的冗余性关系、以及标签属性集内部的相关关系。因此针对这种相互关系问题讨论,选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。

信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的是表述信息含量的多少。

其中,p(xi)表示变量x取值为xi的概率,变量x的不确定程度就可以用信息熵h(x)来表示,h(x)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的干扰。

条件熵是指已知一个变量的条件下,另一个变量的不确定程度,即一个变量对另一个变量的依赖程度的强弱程度,故随机变量x对另一个随机变量y的依赖程度可以用条件熵来表征。

其中,p(xi)表示变量x的先验概率p(xi|yj)表示变量y在已知的条件下变量x的后验概率。

互信息是表征两个随机变量之间的相互依赖程度,表示两个变量之间的共同拥有的信息量的多少,当互信息的值为0即为最小值表示两个变量之间不存在相同的信息,当互信息值较大时表示两个变量所包含的相同信息比较多。定义为:

i(x;y)=h(x)-h(x|y)(4)

互信息能够非常有效的反映出两个随机变量之间的相互关系,并且能通过数值的形式表示出来,用数值的大小来表述两个随机变量之间的相互关系的紧密程度,但是在计算两个随机变量相互的信息量的同时还要考虑信息的增长情况,如果直接用互信息的大小来选择特征,将会选择那些取值比较大的特征,所以将互信息进行归一化处理,处理过程中采用对称不确定性su度量特征变量与特征变量之间的相互关系的程度公式如下:

由公式(5)可以看出su相关度量值的变化范围是由0到1,如果su的值为0,表示x与y不存在相关性,即x与y是相互独立的。如果su的取值为1,表示x与y存在很强的相关性,如果x与y分别表示属性信息和类别信息,su的值越大则表示特征对于类别的选择存在强相关性。如果x与y分别表示两个属性信息,su的值越大则表示特征与特征之间,属性与属性之间最在很强的冗余性。

3.基于互信息的度量问题

通过信息论中互信息理论,单一特征属性与单一特征属性之间的冗余性、单一特征属性与单一标签类别属性之间的相关性、单一标签类别属性之间的相关性可以由如下的公式进行计算:

redundancy(xi;xj)=su(xi,xj)(6)

correlation(xi;yj)=su(xi,yj)(7)

correlation(yi;yj)=su(yi,yj)(8)

通过上式对于单个特征属性与特征属性集合之间的冗余性的计算公式可以通过单个属性特征与特征属性集合中每一个属性特征的冗余性求和取平均的方法进行计算,公式如下:

其中,|x|表示特征属性集合中,特征属性的个数,xj表示特征属性集合中的某个特征属性。

算法考虑到应用范围是多标签的特征选择算法,所以对单一特征属性与多标签类别属性所构成的集合产生的相关性公式定义为:

其中,|y|表示标签类别属性集合中标签类别属性的个数,yj表示标签类别属性集合中的某个标签类别属性。

这种嵌入式多类别属性标签动态特征选择算法不但考虑了特征属性之间的相互关系、特征属性与标签类别属性之间的相互关系、还考虑到多标签类别属性内部之间的相互关系对特征选择的影响,总来说,某类标签的类别属性如果与其他标签的类别属性具有较强的相关性,那么就此类标签类别属性而言,所选择出来的特征属性,会对其他与之相关性较强的标签类别属性同样就有较好的分类性能。所以标签属性之间的相关性可以由下边的式子加以求解。

其中,|y|表示标签类别属性集合中标签类别属性的个数,yj表示标签类别属性集合中的某个标签类别属性,w(yi)表示yi在多标签类别属性集合中的先关性的平均值,数值越大表明此标签类别属性在标签类别属性集合中拥有更多的相关性标签类别属性。则对此标签类别属性的分类效果有益的特征属性对相关性较高的标签类别属性同样具有积极正向的影响作用。

基于以上考虑,结合公式(9)和公式(10)相关性度量可以表示为下面的式子:

4.特征排序与特征选择

在此ml_nifs算法中,计算特征属性与多标签类别属性的相关度,计算特征属性与特征属性集的冗余度,将特征属性与多标签类别属性之间的相关度与特征属性与特征属性集的冗余度结合起来,即为特征的评价准则,进而通过特征的评价准则将特征进行排序,特征的评价准则如下:

w(xi)=ccorrelation(xi;y)-redundancy(xi;h)(13)

其中,h为已经排序的特征属性集合,xi为等待选择的特征属性,ccorrelation(xi;y)表示特征属性与多标签类别属性集合的相关性,redundancy(xi;h)表示特征属性xi与已排序的特征属性集的冗余性

特征选择是将已经经过特征排序的特征进行选择的过程,一般情况下在多标签类别属性的特征选择算法中,常用的方法是根据后续的分类算法、特征的评价准则,设定特征选择的阈值,通过阈值来进行特征选择。本算法特征从分类能力来看,在已经排好的特征序列中排名处于前面的特征和多标签类别属性之间的相关性比较强,特征属性与特征属性之间的冗余性比较低,对分类的效果更好。同时考虑特征属性之间的整体性,应将多个特征属性整体作为分析对象。由公式(10)可以得到已排序特征属性集合h特征属性子集与多标签类别属性集的相关性。

相关度计算公式如下:

其中,h表示候选特征集合,y表示多标签类别属性,|y|表示多标签类别属性集的标签数目,|h|表示已排序的特征集中特征属性的个数。

按照已排序的特征属性的顺序,由公式(13)计算出相关度的平均值:

hj表示对应得前j个特征属性;如果correlation(hj;y)大于correlation平均(h;y)并且correlation(hj+1;y)小于correlatino平均(h;y),则这j个特征属性就是所要得到的特征属性。

5.嵌入式的动态互信息计算方法

基于互信息的度量标准,首先我们要对特征在样本数据集中的概率分布情况进行合理的计算,对于样本数据确定以后,特征在所在样本数据集的概率也就是唯一的确定下来,但随着特征的不断被选择出来,样本数据集中的样本数据将被不断的识别出来,那么在互信息的计算过程中将会有所变化,如果仍然选择传统基于互信息的计算方法将会产生较大的误差,因此,已识别的样本数据对未被选择的特征在计算方面提供了一些“虚假信息”。

对于算法中提出的动态的特征选择,主要的研究内容是如何识别那些可以通过已选特征识别的样本数据,并将数据从数据集中剔除,并根据剩余的样本数据从新计算信息熵,本文选择在算法运行的过程中嵌入一种分类器来进行样本的识别,本文选择嵌入knn分类器来识别可识别样本,并将经过knn分类器识别的样本数据从样本数据集中的删除,在不改变特征与类别相关性的同时,降低了数据集的样本数据的个数和特征的维数。

附图说明

图1基于互信息的嵌入式多类别属性动态特征选择方法

图2应用已选择特征进行分类,分类器参数=1分类的平均精度

图3应用已选择特征进行分类,分类器参数=1分类的覆盖率

图4应用已选择特征进行分类,分类器参数=1分类的排名损失

图5应用已选择特征进行分类,分类器参数=0.8分类的平均精度

图6应用已选择特征进行分类,分类器参数=0.8分类的覆盖率

图7应用已选择特征进行分类,分类器参数=0.8分类的排名损失

具体实施方式

将特征集合分为两个部分,分别是已选择特征集合和备选的特征集合,分别用h和x表示。多标签类别属性用y表示,样本数据集用o表示。

首先,根据公式(12)选择相关性最高的特征属性,并将其加入特征集h中,同时将其从特征属性集x去除。

然后,根据公式(16)通过欧式距离d,查找样本的最近邻样本,样本数量为k。这k个最近邻样本构成一个近邻数据集合

其中,(ynn)i表示第i个多标签类别属性的数据样本中,多个标签的类别结果数据,集中样本的数量为n。为将要进行样本分类的样本。

将近邻数据集中的属性数据分别与每一个标签类别属性经过最大投票准则来判断样本数据的分类属性。由多次使用knn分类器判断样本集中的样本在每一个标签下的类别,并判断样本数据是否被正确分类,如果每一个标签类别属性均被正确分类则将样本数据从数据样本集合中删除

然后,将特征集x中余下的特征属性和新的样本数据集从新计算信息熵,通过计算公式(13)将使公式(13)最大的特征属性加入特征集h中。同时将此特征属性从特征属性集x去除。

最后,重复操作步骤(2)与步骤(3)直到所有的特征属性均排列完成,或者数据样本不足knn分类器的分类数量为止。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求;

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1