一种改进的基于Markovblanket红外光谱特征选择算法的制作方法

文档序号:13427479阅读:343来源:国知局

本发明属于红外光谱特征选择技术领域,尤其涉及的是一种改进的基于markovblanket红外光谱特征选择算法。



背景技术:

在当今的信息化时代,信息技术日新月异,计算机应用不断更新,红外光谱数据集的规模也就随之而不断扩大,然而,由于光谱数据集中往往存在着大量的冗余信息,这些冗余信息对机器学习算法的执行效率产生了重要的影响,去除光谱数据集中的冗余信息就成为了特征选择算法所要解决的关键问题。特征选择算法的应用领域非常广泛,最突出的就是应用在物质分析领域,例如:特征选择算法可应用于红外光谱分析仪的红外光谱特征提取的过程,此算法能够更加准确的选择出原始光谱的目标信息,删除冗余信息,为后续准确的进行物质成分分析提供了强有力的保障。filter型特征选择算法具有计算代价小、效率高、适用范围广的特点。目前,国内外学者所研究的很多高效filter型特征选择算法普遍存在的一个问题是一些作为特征集具有较强的表达特性,但就其本身而言具有较弱表达特性的特征在选择过程中会被遗漏。其主要原因是:这些特征选择算法及其采用的信息度量方法忽略了特征的内部相关性。综上考虑,提出了改进的基于markovblanket红外光谱特征选择算法(mbdwfs)。

在现有技术中,论文“光谱数据挖掘中的特征提取方法”(天文学进展,第30卷第1期,第94-105页,2012年2月)介绍了一种光谱特征提取的方法——主成分分析法(pca),该方法将已有的众多指标进行分解、重组,形成一系列线性无关的综合指标,并按照它们反映原始信号所蕴含信息的能力从高到低进行排序。在该文献中,作者采样一批不同天体的观测数据,构造该观测数据的协方差矩阵,然后采用该协方差矩阵的无偏估计进行pca分析,获取该矩阵的所有特征值和其对应的特征向量,最后依据累积方差贡献率筛选出最优的特征空间,这样达到了数据压缩的目的,以利于高效的计算,并抑制噪声等干扰因素对物质分析结果的不利影响。缺点:现有技术在进行光谱的特征选择过程中遗漏掉了一些重要信息,这样会影响到后续物质分析的准确性。

因此,现有技术存在缺陷,需要改进。



技术实现要素:

本发明所要解决的技术问题是针对现有技术的不足,提供一种改进的基于markovblanket红外光谱特征选择算法。

本发明的技术方案如下:

一种改进的基于markovblanket红外光谱特征选择算法,其中,包括以下步骤:

步骤1:计算候选特征集s中所有特征fn与类标签c的相关性度量值su,找出su最大的值作为初始权重w(f),并把su值最大的特征f加入到已选特征集w中,删除候选特征集s中的此特征;

步骤2:以新加入到已选特征集w的特征f作为条件计算所有特征fn的条件相关性度量值csu的值,找出初始权重w(f)与csu相乘后的最大值,并把该值作为新的权重,同时把新的最大权重值对应的特征f选入已选特征集w中,并将该特征从候选特征集s中删除;

步骤3:运用近似markovblanket删除已选特征集w中冗余性较高的特征,直到候选特征集s为空,从而获取到最优特征空间sbest。

采用上述方案,不仅可以去掉红外光谱特征原始空间中的无关和冗余特征,而且能够更好的保留内部成员相互关联的改进的基于markovblanket红外光谱特征选择算法。本发明更好的删除了红外光谱原始空间中的无关和冗余特征,并且不会遗漏掉重要信息,更好的保留了内部成员的相互关联,为后续的物质匹配提供了良好技术保障。

附图说明

图1为本发明算法与fcbf﹑id3以及relieff三种算法在dna_all上的平均准确率曲线图。

图2为本发明算法与fcbf﹑id3以及relieff三种算法在kr-vs-kp上的平均准确率曲线图。

图3为本发明算法与fcbf﹑id3以及relieff三种算法在lung_cance日上的平均准确率曲线图。

图4为本发明方法流程图。

具体实施方式

以下结合附图和具体实施例,对本发明进行详细说明。

实施例1

为了克服现有技术的缺陷,本发明提出的新的方法,如图4所示,具体步骤描述如下:

步骤1:计算候选特征集s中所有特征fn与类标签c的相关性度量值su,找出su最大的值作为初始权重w(f),并把su值最大的特征f加入到已选特征集w中,删除候选特征集s中的此特征;

步骤2:以新加入到已选特征集w的特征f作为条件计算所有特征fn的条件相关性度量值csu的值,找出初始权重w(f)与csu相乘后的最大值,并把该值作为新的权重,同时把新的最大权重值对应的特征f选入已选特征集w中,并将该特征从候选特征集s中删除;

步骤3:运用近似markovblanket删除已选特征集w中冗余性较高的特征,直到候选特征集s为空,从而获取到最优特征空间sbest。

以下内容是本发明算法对应的伪代码:

输入:候选特征集s={f1,f2,……,fn,c}

输出:最优特征子集sbest

为了对改进的基于markovblanket红外光谱特征选择算法(mbdwfs)算法与其他三种经典特征选择算法——fcbf﹑id3以及relieff进行性能比较,从uci机器学习库中选取了dna_all﹑kr-vs-kp和lung_cancer三组数据集作为实验的基准数据集,另外,还选择了朴素贝叶斯分类器﹑k近邻分类器和c4.5决策树分类器。实验采用的平台是智能分析环境weka。由于分类准确率是评价特征选择算法优劣的最重要的指标。因此,我们在实验过程中采用十次十折交叉法来获取分类的准确率,并将分类准确率作为评价特征选择算法性能的指标。以下图1、图2、图3分别表示本发明与fcbf﹑id3以及relieff3种选择算法在不同数据集中分类准确率的对比。

如图1-图3所示,相比其他三种特征选择算法,改进的基于markovblanket红外光谱特征选择算法(mbdwfs)都具有较强的相关特征的搜索以及对冗余特征的判断能力。

本发明将对称不确定性度量标准与近似markovblanket相结合来删除原始光谱数据集中的无关和冗余特征,从而获取数据规模较小且最优的特征子集。为后续的物质匹配达到更好的效果提供了重要保证。

采用上述方案,不仅可以去掉红外光谱特征原始空间中的无关和冗余特征,而且能够更好的保留内部成员相互关联的改进的基于markovblanket红外光谱特征选择算法。本发明更好的删除了红外光谱原始空间中的无关和冗余特征,并且不会遗漏掉重要信息,更好的保留了内部成员的相互关联,为后续的物质匹配提供了良好技术保障。

应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1