基于分类能力结构向量互补的最优特征子集选取方法

文档序号:9524554阅读:714来源:国知局
基于分类能力结构向量互补的最优特征子集选取方法
【技术领域】
[0001] 本发明属于机器学习和模式识别技术领域,具体提出一种合理有效的特征子集选 取方法。
【背景技术】
[0002] 特征选取是维数约简的两个主要方法之一。它在机器学习和模式识别中起着至关 重要的作用,也是其中研究的基础问题之一,是构造分类器中关键的数据预处理步骤。特征 选取是根据一些评价标准在原有的特征集合上选取对分类有意义的特征子集从而去除无 关或冗余特征,从而将原空间的维数降至远小于原维数的m维。随着互联网和高通量技术 的迅速发展,当下已进入大数据时代,数据呈数量巨大且纷繁复杂特点,运也使得特征选取 方法研究在当今社会更为重要。近年来,特征选取方法的研究已成为应用于含有成千上万 个特征的数据集时所面临的主要焦点问题之一。特征选取可W使数据更易于理解,降低度 量和存储要求,减少训练和实现时间,改进预测性能等。在运个研究方向中,如何评价特征 的分类能力并获得有效的特征子集的选取方法是一个关键。 近年来,国内学者对特征选取开展了大量的研究工作,国内期刊上也刊发了大量研究 成果。运些特征选取方法都存在一个共同之处,即各种分类能力度量方法都是对于一个特 征或特征子集给出描述该特征或者特征子集的分类能力大小的一个分值。通常认为分值大 的特征比分值小的特征的分类能力强,因而分值大的特征也就会被优先选取。然而,一些工 作已经表明一些分值小的特征也应该被选取,而且一些有较高分类能力值的特征的组合也 不总是得到好的分类结果。W单一值表示特征分类能力大小仅仅是对运个特征分类能力的 综合评价,而忽略了各个特征对于不同类别的分类能力不同的评价。

【发明内容】

[0003] 本发明为了解决上述现有方法中的问题,提出一种新的基于分类能力结构向量互 补的最优特征子集选取方法。本发明通过评价各个特征对不同子类问题的分类能力而获得 相应向量化分类能力,即用多个值表示特征对不同子类问题的区分能力,再按照分类能力 结构向量互补的原则选取特征或特征子集。本发明适用于多类且样本个数远小于特征个数 的数据集如癌症数据集等的分类预测。在【具体实施方式】中将W乳腺癌数据集为例说明本发 明的有效性。 本发明通过定义基于二进制形式的特征分类能力结构向量及分类能力结构互补的特 征,采用二分法分别计算各个子类问题的阔值,并在此基础上按照所选特征子集中不同特 征的结构互补性最大化原则和贪屯、策略进行最优特征子集选取。运种方法既符合优势互补 的自然规律,也能将特征分类信息发挥到极致,从而获得更好的特征子集。因此,研究考虑 分类能力结构互补性的特征选取方法是有很大意义的。 为实现上述目的,本发明公开了如下的技术内容: 一种基于分类能力结构向量互补的最优特征子集选取方法,其特征在于该方法首先要 进行基于二进制形式的特征分类能力结构向量的定义,并完成各个特征分类能力结构向量 的计算,具体步骤如下: 对于具有辨个特征喔类的分类问题齡满撫,首先采用1-VS-1形式将其转化为由任意 两类组成的,9个两分类子问题,其中邱、~化。,再采用Fisher判别率作为特征对子问题 分类区分能力值,简称FDR值,记为該|裝,盛分别计算每个特征对第f:个子问题的分类区 分能力顏ly!,其中,?乾鷄繁裘鷄i:,::穿迄藏.y奶 方法获得类区分能力的阔值将所有崇蘇:痛转化为0或1,从而得到每个特征对各个子问题的 分类区分能力结构向量。 其中采用二分法分别计算各个子类问题的阔值,具体步骤如下: 由于各个特征对各子类问题的分类能力有所不同,因此对每个子类问题分 别计算阔值,运样可W得到个阔值,为了减小阔值计算的时间复杂度,采用较简单的二分 捜索方法,W计算由顯囊撫I类构成的第i个子类问题的阔值为例,来说明阔值的计算过 程; 首先设置阔值胃的初值为
即为所有特征对第:^个子类问题的分类区分 能力的均值;对所有特征按分类区分能力iiiij进行降序排序,并将最大值和最小值赋给变 量學稱毒:處; 在此基础上再进行基于贪屯、策略和分类能力结构互补的最优特征子集选取。具体步骤 如下: 确定阔值后,将所有子问题中分类区分能力大于阔值的属性的并集作为初始特征子 集。对于初始特征子集中每个特征/,,及其分类能力结构向量,计算其总的区分能力,即, 对其结构向量分量为1的子问题的FDR值求加权和,作为总分类能力。按总分类能力大小 对初始子集的特征降序排序。 从前往后依次选取对初始特征子集中的每个特征并与已选取的特征子集的所 有特征进行比较,如果与所选特征子集中所有特征的分类能力结构向量都互补,则直接 选取/;进入特征子集,即乂;否则,对于所有/;分类能力结构向量覆盖的特征,分 别计算每个特征的样本误击向量与样本总误击向量或运算后,选择可使样本总误击向量中 1的个数增加最多的特征进入特征子集,如果所有特征均不能使样本总误击向量变化,则不 选。反复执行上述过程直到样本总误击向量为单位向量为止,则特征子集为选取的最优特 征子集。 与本发明有关的概念和定义。 子类问题: 设给定具有个特征稽类的分类问题,iF.C);F二…、,/;J为特征集合, 为类别,采用1-VS-1形式将其转化为由任意两类组成的:梦个两分类子问题,其中 巧二幻巧/2。将其中的每个两分类子问题称为子类问题。 特征分类能力: 是某个特征对分类问题的分类能力的度量。本发明采用特征的Fisher判别率,即
作为特征II对子问题?漏榮為的分类能力值,简称为抑R值,其中 篆麓鑽:.義样本中特征義惭平均值,而馬是《类样本中特征叢的平均值,€^^祗巧J 分别是特征II在两类样本上的方差。 特征分类能力结构向量: 某个特征对所有子问题的分类能力FDR值就构成了一个向量,运个向量被称为运个特 征的分类能力结构向量。为了简化计算的复杂度,本发明采用基于二进制形式的分类能力 结构向量,记为:
需要设置阔值辫将每个特征对各个子问题的分类能力FDR值转化为0或1。 本发明中特征li的分类能力结构向量中对子问题Ipfgpi的分量的计算公式定义如 下:
样本误击向量: 为了分别计算各子类问题的阔值及特征子集选择还引入了样本误击向量,W使得所选 取的子集能分类所有的样本。 如果一个属于1类的样本,其特征值在2类所有样本的特征^値的最小值和最大值 之间的话,则认为该1类样本被特征jll否则为击中。 则第f个子问题中特征的样本误击向量记为:
,〇表不该分量所对应样本被 误击,1表不击中D且義套議;禱|吊秦?唯一确定D 将特征ll的全部子问题的样本误击向量连接进来,作为特征/)的样本误击向量。 1. 覆盖: 假设两个特征^郝||的结构向量分别为,如果有
那么就称特征II濯盖了 ||特征,记为證如垂,否则特征襄被有覆盖藤特征,记为 柯;。 2. 分类能力结构向量互补特征: 对于特征^湘;||,如勇
成立,则称运两个特征是分类能力结构 向量互补特征,记为/^^/,-。 ·* .....Λ? 3. 初始特征子集和最优特征子集 初始特征子集:确定阔值后,将所有子问题中分类区分能力大于阔值的属性的并集作 为初始特征子集。 最优特征子集:在初始特征子集中按照特征分类能力结构向量互补性最大化原则和贪 屯、策略选取的特征子集称为最优特征子集。 本发明公开的基于分类能力结构向量互补的特征子集选取方法与现有技术相比所具 有的积极效果在于: (1) 本发明的选取方法不仅充分考虑每个特征对于不同类别的分类能力不同的评价, 而且也在特征选取过程中遵循分类能力结构互补性最大化的原则。运种方法既符合优势互 补的自然规律,也能将特征分类信息发挥到极致,从而获得更好的特征子集,W有效减少冗 余特征,提高分类预测的准确率。 (2) 本发明的选取方法可W解决现有的特征选取方法中分类能力度量方法都是W单一 值作为一个特征或特征子集的分类能力的综合评价,而忽略了每个特征对于不同类别的分 类能力不同的评价的问题。实验结果证明基于分类能力结构向量互补的特征子集选取方法 能有效减少冗余特征,提高分类预测的准确率,是有效的。 (3) 本发明可用于癌症数据集的分类预测,改进预测准确率,有利于发现引起癌症发生 的重要基因,W至于更好的研究治疗癌症的祀向药物。
【附图说明】
[0004] 图1分类问题数据集Ζ)二tF,C); 图2为基于二分法计算阔值的算法流程图。
【具体实施方式】
[0005] 为了更充分的解释本发明的实施,下面通过附图及实施例对本发明做进一步描述。运 些实施实例仅仅是解释、而不是限制本发明的范围。 实施例1 1.读取分类问题数据集。 通常分类问题数据集是一个二维矩阵,例如具有例如具有議I个特征於繫;个样本 的分类问题怒转I的数据集如图1所示,其中未示第《个样本的第i个特征的特征 值,表示第f个样本的类别。表1显示了乳腺癌breast数据集中部分样本的部分特征 基因的表达值,其中第二行为样本类别,第Ξ行为第一个特征在各个样本上的表达值,其他 行依此类推,一列表示一个样本,即某个人的各特征表达值及类别。将数据集中各样本的 所有特征值读到二维数组
尋各样本的类别读到一维数组 .二?(.?.句)中。 表1乳腺癌breast数据集中部分样本的部分特征基因的表达值

2. 计算各个特征对每个子类问题的分类区分能力值,即^f|i。 首先采用1-VS-1形式将多类分类问题转化为由任意两类组成的自!个两分类子问题,其 中。再采用Fisher判别率作为特征对子问题分类区分能力值, 则特征: ?对第著个子问题的分类区分能力,记为遊III,设第I个子问题中包含类别为游顆结 样本,则 计算公式如下:
其中嗅样本中特征||的平均值,而嗅样本中特征的平均值, 分别是特征?在两类样本上的方差。 按照上述计算方法,分别计算每个特征/;.对第芽个子问题的分类区分能力键懿據,其 中,i樂裝梁教肖,。巧I,1?攘藥捉..辦f。运样每个特征对各个子问题的分类区分能力就构成了一 个向葺,;;:?,称为特征分类能力结构向量。 3. 采用二分法分别计算各个子类问题的阔值。 由于各个特征对各子类问题的分类能力有所不同,因此对每个子类问题分别 计算阔值,运样可w得到思个阔值,为了减小阔值计算的时间复杂度,采用较简单的二分捜 索方法。W计算由冀和g构成的第个子类问题的阔值为例,来说明阔值的计算过程,其相 应
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1