一种互信息的组策略嵌入式动态特征选择方法与流程

文档序号:11655010阅读:328来源:国知局
一种互信息的组策略嵌入式动态特征选择方法与流程

本发明涉及模式识别领域,具体是一种基于互信息的组策略嵌入式动态特征选择方法。



背景技术:

随着科学技术的发展,包括计算机技术、信息技术在内的多领域出现了大量的高维度数据信息,这些信息在带给人们许多有用的知识信息的同时也带来了一系列前所未有的困难,给人们带来了许多关于学习任务方面的新挑战。现阶段人们获得和处理的数据大多数是高维数据集,它包含了很多的与分类十分相关的特征,但是也存在很多的无关特征信息和很多冗余特征信息、多特征共线性质的特征信息,有的样本数据中甚至还包含了噪声数据信息,这些无用的特征信息会使得人们在构建学习模型的过程中会产生过拟合或者减弱表征能力的现象,因此不能准确的表征数据集的特点信息。因此特征选择问题应运而生,特征选择的任务就是在高维度数据集中寻找出能够对分类说明力最强的“本征特征”并不会减弱数据样本的数据信息,达到较好的分类准确度,同时消除噪声数据的对分类的影响。

特征选择作为缩小数据集的数据规模、提高数据质量的一种手段被很多研究人员的广泛关注,特征选择的算法进行了分类,分为以下三类过滤式、包裹式、嵌入式。根据特征选择过程特征的评价标准的不同有一致性标准、距离标准、依赖性标准、分类错误率标准和信息量标准等。应运而生的产生一些特征选择的新算法,比如以特征权重为理论依据的relief算法、以最大相关性和最小冗余性为理论依据的mrmr算法。这些算法或多或少的存在着一些不足之处,比如说在mrmr算法在进行特征选择的过程中只考虑到单一特征属性与类别属性之间的相关性和单一特征属性与已选特征之间的冗余性,忽视了特征组与特征组之间同样也存在着相互作用关系。同时人们常用来衡量两变量之间的相互关系的互信息的估算方法仍未足够的有效,仅考虑特征与类别之间的相互关系以及特征与已选特征之间的相互关系,没有将随着特征被选择样本数据被不断被确定,信息熵的估算值在不断变化的动态过程表现出来。

基于以上的原因,方法提出了一种基于互信息的组策略嵌入式动态特征算法(gdifs),运用特征组间的相互关系这个切入点去研究特征与类别属性间的相互关系,杜绝对单一特征的过分依赖问题,提出的嵌入式动态特征选择算法,通过嵌入的分类器将已识别的样本数据进行剔除,以此保证信息熵估算的准确性、实时性。通过对此方法进行验证,该方法有较好的稳定性和有效性。



技术实现要素:

本发明的目的在于提供一种基于互信息的组策略嵌入式动态特征选择方法,以解决上述背景技术中提出的问题;为实现上述目的,本发明提供如下技术方案:具体是一种基于互信息的组策略嵌入式动态特征选择方法包括以下步骤:首先介绍传统基于互信息的特征选择方法。

1.数据集合预处理

当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:

2互信息的相关知识

特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要解决的问题有两个方面:一方面是度量标准问题,一方面是特征的评价函数的选择问题。在数据分类的研究过程中,如果一个特征属性与类别属性有强的相关性,那么该属性对于分类来说是十分重要的属性,如果一个特征属性与类别属性有弱的相关性,那么该属性对于分类来说是非重要的属性,因此针对这种相关性问题讨论,选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。

信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的是表述信息含量的多少。

其中,p(xi)表示变量x取值为xi的概率,变量x的不确定程度就可以用信息熵h(x)来表示,h(x)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的干扰。

条件熵是指已知一个变量的条件下,另一个变量的不确定程度,即一个变量对另一个变量的依赖程度的强弱程度,故随机变量x对另一个随机变量y的依赖程度可以用条件熵来表征。

其中,p(xi)表示变量x的先验概率p(xi|yj)表示变量y在已知的条件下变量x的后验概率。

互信息是表征两个随机变量之间的相互依赖程度,表示两个变量之间的共同拥有的信息量的多少,当互信息的值为0即为最小值表示两个变量之间不存在相同的信息,当互信息值较大时表示两个变量所包含的相同信息比较多。定义为:

i(x;y)=h(x)-h(x|y)(4)

互信息能够非常有效的反映出两个随机变量之间的相互关系,并且能通过数值的形式表示出来,用数值的大小来表述两个随机变量之间的相互关系的紧密程度,但是在计算两个随机变量相互的信息量的同时还要考虑信息的增长情况,如果直接用互信息的大小来选择特征,将会选择那些取值比较大的特征,所以将互信息进行归一化处理,处理过程中采用对称不确定性su度量特征变量与特征变量之间的相互关系的程度公式如下:

由公式(5)可以看出su相关度量值的变化范围是由0到1,如果su的值为0,表示x与y不存在相关性,即x与y是相互独立的。如果su的取值为1,表示x与y存在很强的相关性,如果x与y分别表示属性信息和类别信息,su的值越大则表示特征对于类别的选择存在强相关性。如果x与y分别表示两个属性信息,su的值越大则表示特征与特征之间,属性与属性之间最在很强的冗余性,由于以上的相关论述借鉴mrmr算法中最大相关最小冗余的核心思想,

提出在特征选择过程中对选择特征的评价函数的定义形式,形式如下:

其中,su(s∪fi,c)表示将备选特征加入已选特征集后与类别属性c之间的相关关系,su(fs,fi)表示备选特征与已选特征之间的冗余程度,在这里将传统的惩罚因子进行了改进,改为1/|s|,|s|表示已选特征集中特征的个数。这样克服了传统惩罚因子需要人工设置的不足。

作为本发明再进一步的方案:介绍基于互信息的组策略嵌入式动态特征方法。

3.特征组策略的线性相关分析

根据公式(4)分别计算数据集中每一个特征属性与类型属性之间的互信息的大小,并根据k-means算法将所计算的互信息的大小进行聚类分析,通过以上操作可以将特征集合进行特征的块划分,将特征集划分成k特征块的集合,表示为:

为了衡量特征块与属性之间的相互关系,采用线性相关分析进行分析,其中ca(si,c)表示特征块si与类别c之间的相互关系,ca的值越大则表示特征对于类别的选择存在强相关性,ca(si,sj)表示特征块与特征块之间的冗余性,ca的值越大则表示特征块与特征块之间的冗余性越大。ca的计算方法如下:

sxx=(x-x平均)(x-x平均)t(8)

syy=(y-y平均)(y-y平均)t(9)

sxy=(x-x平均)(y-y平均)t(10)

syx=(y-y平均)(x-x平均)t(11)

其中,s为相应样本数据的协方差矩阵,经计算可得:

分别计算r1与r2矩阵的特征值,最大的非0特征值即为相关系数也就ca(x,y)的值。根据特征块的评价函数对已经分块的特征块进行排序,特征块的评价函数如下:

其中ca(ss∪si,c)表示备选特征块加入已选特征集后与类别属性c之间的相关关系,ca(si,sj)表示备选特征块与已选特征块之间的冗余程度。

4.嵌入式的动态选择

基于互信息的度量标准,首先我们要对特征在样本数据集中的概率分布情况进行合理的计算,对于样本数据确定以后,特征在所在样本数据集的概率也就是唯一的确定下来,但随着特征的不断被选择出来,样本数据集中的样本数据将被不断的识别出来,那么在互信息的计算过程中将会有所变化,如果仍然选择传统基于互信息的计算方法将会产生较大的误差,因此,已识别的样本数据对未被选择的特征在计算方面提供了一些“虚假信息”。

对于算法中提出的动态的特征选择,主要的研究内容是如何识别那些可以通过已选特征识别的样本数据,并将数据从数据集中剔除,并根据剩余的样本数据计算信息熵,本文选择在算法运行的过程中嵌入一种分类器来进行样本的识别,本文选择嵌入knn分类器来识别可识别样本,并将经过knn分类器识别的样本数据从样本数据集中的删除,在不改变特征与类别相关性的同时,降低了数据集的样本数据的个数和特征的维数。

附图说明

图1基于互信息的组策略特征选择方法流程图

图2数据集为winegnifs方法与mrmr算法比较

图3数据集为winegnifs算法与fisher算法比较

图4数据集为zoognifs算法与mrmr算法比较

图5数据集为zoognifs算法与fisher算法比较

具体实施方式

将特征集合分为两个部分,分别是已选择特征集合和备选的特征集合,分别用s和f表示。类别属性用c表示,样本数据集用o表示。

首先,根据公式(5)计算所有特征与类别属性之间的相互关系程度,并根据k-means算法特征属性进行分块处理。

然后,通过公式(12)(13)将特征块根据特征块与类别属性的相关性的紧密程度进行由高到低的排序。

将相关性最大的特征块中的特征根据公式(6)

计算评价函数,选出评价函数最大的特征f并将其加s中,与此同时将f从特征块中删除,再根据公式(15)通过欧式距离d,查找样本的最近邻样本,样本数量为k。这k个最近邻样本构成一个近邻数据集合

其中,c={c1,c2…cm},m为类别的个数,样本集中样本的数量为n。为将要进行样本分类的样本。

最后,将近邻数据集中的数据点经过最大投票准则来判断样本数据的分类属性。由knn分类器判断样本集中的样本的类别,并判断样本数据是否被正确分类,如果被正确分类则将样本数据从数据样本集合中删除,再从新计算特征块的其他特征属性的信息熵,重复步骤(3)的操作,否则直接重复步骤(3)的操作,操作主要特征块,完成后就继续操作次要特征块,直到满足算法的终止条件,就终止算法的操作。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求;

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1