一种高维数据的特征选择方法及装置的制造方法

文档序号:10612909阅读:321来源:国知局
一种高维数据的特征选择方法及装置的制造方法
【专利摘要】本发明公开了一种高维数据的特征选择方法及装置,该方法包括获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别集,所述类别集包括每个样本的类别;计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,以及每一个特征与已选特征子集的冗余值;根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集。本发明将MIC引入特征选择中,并基于MIC对特征进行有效评价,以根据评价产生的有效值选择特征,与现有技术相比,能有效地提高对高维数据特征选择的精确度。
【专利说明】
一种高维数据的特征选择方法及装置
技术领域
[0001] 本发明涉及数据挖掘技术领域,具体涉及一种高维数据的特征选择方法及装置。
【背景技术】
[0002] 飞速发展的信息社会每天都在产生海量的数据,如何快速地从这些数据中发掘有 用的信息成为急需解决的问题。研究者们从机器学习模型的角度来解决这一问题,并取得 了显著进展。但是,高复杂度的模型和高维度的特征空间越来越难以适应大数据应用的迫 切要求,而且特征空间中往往存在着大量无用信息。只有采用合适的特征选择方法,才能从 海量数据中获得有效的特征,进而提高机器学习模型处理数据的效率与准确率;同时特征 选择还能够防止模型过拟合以及进行去噪。因此,作为机器学习和数据挖掘的一个重要的 预处理步骤,特征选择一直都是机器学习领域的研究热点。
[0003] 特征选择的度量标准和搜索算法的选取至关重要。常用的度量标准有基于距离、 信息论和一致性的度量标准。基于距离的度量标准、Pearson系数等度量标准只能衡量变量 之间的线性关系,而信息增益、互信息等度量标准,可以对非线性关系进行度量。在生成特 征子集时,往往需要使用相应的搜索算法,在众多的搜索策略中近似马尔科夫毯条件在计 算复杂度和选择的特征的分类准确率上都有很不错的表现。但是其也有明显的缺点,无法 考虑特征和特征子集之间的冗余性。

【发明内容】

[0004] 针对现有技术中的缺陷,本发明提供了一种高维数据的特征选择方法及装置,针 对当前技术中的度量只能对变量间的线性和非线性关系度量,将MIC引入到特征选择中, MIC能够广泛地度量变量间的线性和非线性关系,甚至能够度量不能使用单个函数表示的 非函数关系。尽管MIC在变量度量上十分有效,但是只能度量单个变量间的相关性和冗余 性,因此本文提出一种新的度量mMIC(有效值),并应用到马尔科夫毯条件,以解决现有技术 因为难以适用高维数据集中的特征和特征子集之间的冗余性而导致特征选择精确度低的 问题。
[0005] 本发明提出了一种高维数据的特征选择方法,包括:
[0006] 获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别集,所 述类别集包括每个样本的类别;
[0007] 计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,以及每一 个特征与已选特征子集的冗余值;
[0008] 根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述 有效值从特征集中选择出特征子集。
[0009]优选地,所述计算获取所述特征集中每一个特征与类别集之间的最大信息系数 MIC的步骤具体包括:
[0010]通过公式(一),计算获取所述特征集中每一个特征与类别集之间的最大信息系数 MIC;
[0011]
[0012] 其中,B(n)为划定的网格数,ω(1)彡B(n)彡(KnKhCXeSl,!!为特征的个数,χ为 对η个特征划分的段数,y为对η个样本划分的段数,M(D) x,y表示特征和样本在x*y网格划分 下最大的互信息归一化后的值。
[0013] 优选地,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值 的步骤具体包括:
[0014] 通过公式(二),根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效 值;
[0015]
[00? 0] 其中,Smain为当前已选的特征子集,Sresidue为剩余特征子集,i和j分别表示特征fi 和fj,C为类别集
为冗余值。
[0017] 优选地,在所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效 值的步骤之前,该方法还包括:
[0018] 定义两个特征之间的近似马尔科夫毯条件:
[0019] ]\0<:(心,(3)>]\0(:(6,(3)且]\0(:(灼,(3)<]\0(:(乜,6)
[0020]相应地,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效 值,并根据所述有效值从特征集中选择出特征子集的步骤具体包括:
[0021] 根据所述最大信息系数MIC从特征集中依次选取特征,并将选取的特征从特征集 中删除;
[0022] 根据选取的特征的最大信息系数MIC和冗余值获取所述特征的有效值,并判断所 述有效值是否大于或者等于预设阈值,若是,则将该特征添加至最优子集。
[0023]优选地,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效 值,并根据所述有效值从特征集中选择出特征子集的步骤还包括:
[0024]根据所述近似马尔科夫毯条件从特征集中筛选出与所述选取的特征有近似马尔 科夫毯条件的所有特征,并根据公式二获取每一个筛选出的特征的有效值;
[0025]根据有效值判断筛选出的特征的有效值是否大于或者等于预设阈值,若否,则将 筛选出的特征从特征集中删除,并从特征集中选取下一个特征。
[0026] 本发明还提出了一种高维数据的特征选择装置,其特征在于,包括:
[0027] 获取模块,用于获取待处理的原始数据集,所述原始数据集包括特征集、若干样本 以及类别集,所述类别集包括每个样本的类别;
[0028] 处理模块,用于计算获取所述特征集中每一个特征与类别集之间的最大信息系数 MIC,以及每一个特征与已选特征子集的冗余值;
[0029] 选择模块,用于根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效 值,并根据所述有效值从特征集中选择出特征子集。
[0030] 优选地,所述处理模块,具体用于通过公式(一),计算获取所述特征集中每一个特 征与类别集之间的最大信息系数MIC;
[0031]
[0032] 其中,B(n)为划定的网格数,〇(1)^^(1〇<0(1^),0<8<1,11为特征的个数^为 对η个特征划分的段数,y为对η个样本划分的段数,M(D) x,y表示特征和样本在x*y网格划分 下最大的互信息归一化后的值。
[0033] 优选地,所述选择模块,具体用于通过公式(二),根据所述最大信息系数MIC和所 述冗余值,获取每一个特征的有效值;
[0034]
[0035] 其中,Smain为当前已选的特征子集,Sresidue为剩余特征子集,i和j分别表示特征fi 和fj,c为类别_
3冗余值。
[0036] 优选地,该装置还包括:预定义模块;
[0037] 所述预定义模块,用于在所述根据所述最大信息系数MIC和所述冗余值,获取每一 个特征的有效值的步骤之前,定义两个特征之间的近似马尔科夫毯条件:
[0038] MIC(fi,c) >MIC(fj,c)且 MIC(fj,c) <MIC(fi,fj)
[0039] 相应地,所述选择模块,还用于根据所述最大信息系数MIC从特征集中依次选取特 征,并将选取的特征从特征集中删除;根据选取的特征的最大信息系数MIC和冗余值获取所 述特征的有效值,并判断所述有效值是否大于或者等于预设阈值,若是,则将该特征添加至 最优子集。
[0040] 优选地,所述选择模块,还用于根据所述近似马尔科夫毯条件从特征集中筛选出 与所述选取的特征有近似马尔科夫毯条件的所有特征,并根据公式二获取每一个筛选出的 特征的有效值;根据有效值判断筛选出的特征的有效值是否大于或者等于预设阈值,若否, 则将筛选出的特征从特征集中删除,并从特征集中选取下一个特征
[0041] 由上述技术方案可知,本发明提出的高维数据的特征选择方法,通过最大信息系 数引入到特征选择中,同时基于最大信息对高维数据进行特征选择,以克服了现有技术只 能考虑两个特征之间相关性与冗余性的缺点,提高了选择的特征的分类准确率。
【附图说明】
[0042]通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理 解为对本发明进行任何限制,在附图中:
[0043] 图1示出了本发明一实施例提出的一种高维数据的特征选择方法的流程示意图;
[0044] 图2示出了本发明另一实施例提出的一种高维数据的特征选择方法的流程示意 图;
[0045] 图3示出了本发明一实施例提出的一种高维数据的特征选择装置的结构示意图。
【具体实施方式】
[0046] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人 员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]图1为本发明一实施例提出的一种高维数据的特征选择方法的流程示意图,参照 图1,该高维数据的特征选择方法,包括:
[0048] 110、获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别 集,所述类别集包括每个样本的类别;
[0049] 120、计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,以及 每一个特征与已选特征子集的冗余值;
[0050] 130、根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据 所述有效值从特征集中选择出特征子集。
[0051] 本发明通过最大信息系数引入到特征选择中,同时基于最大信息对高维数据进行 特征选择,因为难以适用高维数据集中的特征和特征子集之间的冗余性而导致特征选择精 确度低的问题,提高了选择的特征的分类准确率。
[0052]本实施例中,步骤120中计算MIC的过程具体包括:
[0053] 通过公式(一),计算获取所述特征集中每一个特征与类别集之间的最大信息系数 MIC;
[0054]
[0055] 其中,B(n)为划定的网格数,ω (1)<Β(η)彡0(nK),0<ε<1,η为特征的个数,X为 对η个特征划分的段数,y为对η个样本划分的段数,M(D) x,y表示特征和样本在x*y网格划分 下最大的互信息归一化后的值。
[0056] 本实施例中,步骤130具体包括:
[0057]通过公式(二),根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效 值;
[0058]
[0059] 其中,Smain为当前已选的特征子集,Sre3sidue3为剩余特征子集,i和j分别表示特征f i 和fj,c为类别集
%冗余值。
[0060] 本实施例中,在步骤130之前,该方法还包括:
[0061] 定义两个特征之间的近似马尔科夫毯条件:
[0062] ]\0<:(心,(3)>]\0(:(6,(3)且]\0(:(灼,(3)<]\0(:(乜,6)
[0063] 相应地,步骤130具体包括:
[0064] 根据所述最大信息系数MIC从特征集中依次选取特征,并将选取的特征从特征集 中删除;
[0065] 根据选取的特征的最大信息系数MIC和冗余值获取所述特征的有效值,并判断所 述有效值是否大于或者等于预设阈值,若是,则将该特征添加至最优子集;
[0066] 根据所述近似马尔科夫毯条件从特征集中筛选出与所述选取的特征有近似马尔 科夫毯条件的所有特征,并根据公式二获取每一个筛选出的特征的有效值;
[0067] 根据有效值判断筛选出的特征的有效值是否大于或者等于预设阈值,若否,则将 筛选出的特征从特征集中删除,并从特征集中选取下一个特征,直至特征集F为空。
[0068] 图2为本发明另一实施例提出的一种高维数据的特征选择方法的流程示意图,下 面参照图2对本发明的原理进行详细说明:
[0069] 该方法包括初始化阶段和特征删除阶段;
[0070] 一、初始化阶段包括:
[0071] S1、给定的数据集D有m个特征和η个样本,其包含的特征集为. . .,fm}, 类别集c={C1,C2, . . .,cn}包括数据集中每个样本的类别。进行数据预处理,设置最优特征 子集S为空,设定参数Θ,此处的参数Θ即为上述的预设阈值;
[0072]二、特征删除阶段包含步骤:
[0073] S2、计算特征集中每个特征与类别集之间的最大信息系数,并按照特征与类别集 的MKXuh)值对特征进行降序排序,其中,h为第i个特征,i大于0且小于等于m;
[0074] S3、根据本发明提出了近似马尔科夫毯条件和有效值mMIC评价函数,对特征集进 行处理,删除无关和冗余的特征,得到最后的特征子集;
[0075]优选的,步骤S1具体包括:
[0076] S11、对数据集D进行数据预处理,得到要求的文件格式;
[0077] S12、将最优特征子集S初始化为空集,对参数Θ进行初始化;
[0078]优选的,步骤S2具体包括:
[0079] S21、对特征集F中任意特征h,计算该特征与类别集之间的最大信息系数值MIC (c;fi);
[0080] S22、根据MIC(c;fi)对特征进行降序排序;
[0081]优选的,步骤S3所述的近似马尔科夫毯条件定义如下:
[0082]对于两个特征f_t(i辛j,j大于0且小于等于m)以及类别C,f^t的近似马尔科 夫毯的条件是:
[0083] MIC(fi,c) >MIC(fj,c)并且 MIC(fj,c) <MIC(fi,fj)。
[0084] 由此,最大信息系数的计算公式如下:
[0085]
[0086] 其中,B(n)为划定的网格数,ω (1)彡B(n)彡(Κη1-ε),0<ε<1。一般地,B(n)=n0· 6 时效果最好。X与y表示对两个变量值域划分的段数。式中M(D)x,y表示两个变量在x*y网格划 分下最大的互信息归一化后的值。
[0087] M(D)xj^计算公式如下:
[0088]
[0089]其中,Ml\D,X,y)表示x*y网格划分下最大的互信息。
[0090] MI*(D,x,y)的计算公式如下:
[0091] MI*(D,x,y)=maxMI(D|G)
[0092] 其中,D|G为数据集D使用G(x*y网格)进行划分,然后求解每个网格的互信息。而式 中互信息的i+笪公忒加下,
[0093]
[0094] 其中A={ai,i = l. · ·η}和B = {bi,i = 1 · · ·η}。
[0095] 优选的,步骤S3中基于最大信息系数的评价函数mMIC,可以对特征与类别之间的 相关性以及特征与特征子集之间的相关性进行度量,进而判断特征的好坏。
[0096] mMIC评价函数的计算公式如下:
[0097]
[0098] 其中,Smain为当前已选的特征子集,Sresldue为剩余特征子集。为了简化和表述上的 便利性使用i和j分别表示特征fdPfp上式表示从剩余特征子集选出的特征fj其好坏通过 该特征与类别集的相关性以及该特征与当前已有特征子集的冗余性决定。
[0099] 优选的,步骤S3包含步骤:
[0100] S31、重复下述操作直到F为空集;
[0101] a.从特征集F中选择MIC(c ;fi)值最大的特征;
[0102] b.从特征集F删除特征fi,如果其在冗余子集Sre3中,则计算该特征的mMIC值,如果 mMIC值小于Θ,返回到步骤a;否则直接将^添加到最优子集S中,并将h作为主元素继续执行 步骤c;
[0103] c.从特征集F中搜索以a中选出的主元素匕为近似马尔科夫毯条件的所有元素,将 选出的特征fj加入到Sre3中并计算选出的所有元素的mMIC值。如果特征fj的mMIC值小于Θ则 将特征fj从F中删除;
[0104] d.上述过程结束后,输出的特征子集S为最优特征子集。
[0105] 综上所述,本发明通过将mMIC加入到近似马尔科夫毯模型中,使得近似马尔科夫 毯条件可以衡量单个特征与类别之间的相关性与该特征与特征子集之间的冗余性的强弱, 来决定特征的去留。既保证了近似马尔科夫毯条件进行特征选择的效率也保证了选出的特 征选择的准确性。
[0106] 图3为本发明一实施例提出的一种高维数据的特征选择装置的结构示意图,参照 图3,该装置包括:
[0107] 获取模块310,用于获取待处理的原始数据集,所述原始数据集包括特征集、若干 样本以及类别集,所述类别集包括每个样本的类别;
[0108] 处理模块320,用于计算获取所述特征集中每一个特征与类别集之间的最大信息 系数MIC,以及每一个特征与已选特征子集的冗余值;
[0109] 选择模块330,用于根据所述最大信息系数MIC和所述冗余值,获取每一个特征的 有效值,并根据所述有效值从特征集中选择出特征子集。
[0110]本发明通过最大信息系数引入到特征选择中,同时基于最大信息对高维数据进行 特征选择,以克服了现有技术只能考虑两个特征之间相关性与冗余性的缺点,提高了选择 的特征的分类准确率。
[0111]对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单, 相关之处参见方法实施方式的部分说明即可。
[0112] 在一可行实施例中,所述处理模块320,具体用于通过公式(一),计算获取所述特 征集中每一个特征与类别集之间的最大信息系数MIC;
[0113]
[0114] 其中,B(n)为划定的网格数,(〇(1)^^(1〇<0(1^),0<8<1,11为特征的个数^为 对η个特征划分的段数,y为对η个样本划分的段数,M(D) x,y表示特征和样本在x*y网格划分 下最大的互信息归一化后的值。
[0115]对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单, 相关之处参见方法实施方式的部分说明即可。
[0116] 在一可行实施例中,所述选择模块330,具体用于通过公式(二),根据所述最大信 息系数MIC和所述冗余值,获取每一个特征的有效值;
[0117]
[0118] 其中,Smain为当前已选的特征子集,Sre3sidue3为剩余特征子集,i和j分别表示特征fi 和fj,c为类别集:
冗余值。
[0119] 对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单, 相关之处参见方法实施方式的部分说明即可。
[0120] 在一可行实施例中,该装置还包括:预定义模块340;
[0121] 所述预定义模块340,用于在所述根据所述最大信息系数MIC和所述冗余值,获取 每一个特征的有效值之前,定义两个特征之间的近似马尔科夫毯条件:
[0122] ]\0<:(心,(3)>]\0(:(6,(3)且]\0(:(灼,(3)<]\0(:(乜,6)
[0123] 相应地,所述选择模块330,还用于根据所述最大信息系数MIC从特征集中依次选 取特征,并将选取的特征从特征集中删除;根据选取的特征的最大信息系数MIC和冗余值获 取所述特征的有效值,并判断所述有效值是否大于或者等于预设阈值,若是,则将该特征添 加至最优子集;根据所述近似马尔科夫毯条件从特征集中筛选出与所述选取的特征有近似 马尔科夫毯条件的所有特征,并根据公式二获取每一个筛选出的特征的有效值;根据有效 值判断筛选出的特征的有效值是否大于或者等于预设阈值,若否,则将筛选出的特征从特 征集中删除,并从特征集中选取下一个特征,直至所述特征集为空。
[0124] 对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单, 相关之处参见方法实施方式的部分说明即可。
[0125] 在一可行实施例中,所述选择模块330,还用于在该特征的有效值小于预设阈值 时,从特征集中选取下一个特征。
[0126] 对于装置实施方式而言,由于其与方法实施方式基本相似,所以描述的比较简单, 相关之处参见方法实施方式的部分说明即可。
[0127] 应当注意的是,在本发明的装置的各个部件中,根据其要实现的功能而对其中的 部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或 者组合。
[0128] 本发明的各个部件实施方式可以以硬件实现,或者以在一个或者多个处理器上运 行的软件模块实现,或者以它们的组合实现。本装置中,PC通过实现因特网对设备或者装置 远程控制,精准的控制设备或者装置每个操作的步骤。本发明还可以实现为用于执行这里 所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产 品)。这样实现本发明的程序可以存储在计算机可读介质上,并且程序产生的文件或文档具 有可统计性,产生数据报告和 Cpk报告等,能对功放进行批量测试并统计。应该注意的是上 述实施方式对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所 附权利要求的范围的情况下可设计出替换实施方式。在权利要求中,不应将位于括号之间 的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在未列在权利要求中的元 件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个这样的元件。本发明可以借 助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置 的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、 第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0129]虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发 明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求 所限定的范围之内。
【主权项】
1. 一种高维数据的特征选择方法,其特征在于,包括: 获取待处理的原始数据集,所述原始数据集包括特征集、若干样本W及类别集,所述类 别集包括每个样本的类别; 计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,W及每一个特 征与已选特征子集的冗余值; 根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并根据所述有效 值从特征集中选择出特征子集。2. 根据权利要求1所述的方法,其特征在于,所述计算获取所述特征集中每一个特征与 类别集之间的最大信息系数MIC的步骤具体包括: 通过公式(一),计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC;(一) 其中,B(n)为划定的网格数,"(1)《8(11)《0(111-6),〇<6<1,〇为特征的个数,义为对〇 个特征划分的段数,y为对η个样本划分的段数,M(D)x,y表示特征和样本在x*y网格划分下最 大的互信息归一化后的值。3. 根据权利要求1所述的方法,其特征在于,所述根据所述最大信息系数MIC和所述冗 余值,获取每一个特征的有效值的步骤具体包括: 通过公式(二),根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值;(二) 其中,Smain为当前已选的特征子集,Sresidue为剩余特征子集,巧日j分别表示特征f 1和f J,C 为类别集为冗余值。4. 根据权利要求3所述的方法,其特征在于,在所述根据所述最大信息系数MIC和所述 冗余值,获取每一个特征的有效值的步骤之前,该方法还包括: 定义两个特征之间的近似马尔科夫毯条件: MIC(fi,c)>MIC(fj,c)^MIC(fj,c)<MIC(fi,fj) 相应地,所述根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值,并 根据所述有效值从特征集中选择出特征子集的步骤具体包括: 根据所述最大信息系数MIC从特征集中依次选取特征,并将选取的特征从特征集中删 除; 根据选取的特征的最大信息系数MIC和冗余值获取所述特征的有效值,并判断所述有 效值是否大于或者等于预设阔值,若是,则将该特征添加至最优子集。5. 根据权利要求4所述的方法,其特征在于,所述根据所述最大信息系数MIC和所述冗 余值,获取每一个特征的有效值,并根据所述有效值从特征集中选择出特征子集的步骤还 包括: 根据所述近似马尔科夫毯条件从特征集中筛选出与所述选取的特征有近似马尔科夫 毯条件的所有特征,并根据公式二获取每一个筛选出的特征的有效值; 根据有效值判断筛选出的特征的有效值是否大于或者等于预设阔值,若否,则将筛选 出的特征从特征集中删除,并从特征集中选取下一个特征。6. -种高维数据的特征选择装置,其特征在于,包括: 获取模块,用于获取待处理的原始数据集,所述原始数据集包括特征集、若干样本W及 类别集,所述类别集包括每个样本的类别; 处理模块,用于计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC, W及每一个特征与已选特征子集的冗余值; 选择模块,用于根据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值, 并根据所述有效值从特征集中选择出特征子集。7. 根据权利要求6所述的装置,其特征在于,所述处理模块,具体用于通过公式(一),计 算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC;(一) 其中,B(n)为划定的网格数,"(1)《8(11)《0(111-6),〇<6<1,〇为特征的个数,义为对〇 个特征划分的段数,y为对η个样本划分的段数,M(D)x,y表示特征和样本在x*y网格划分下最 大的互信息归一化后的值。8. 根据权利要求6所述的装置,其特征在于,所述选择模块,具体用于通过公式(二),根 据所述最大信息系数MIC和所述冗余值,获取每一个特征的有效值;(二) 其中,Smain为当前已选的特征子集,Sresidue为剩余特征子集,巧日j分别表示特征f 1和f J,C 为类别集%冗余值。 9 .根据权利要求8所述的装置,其特征在于,该装置还包括:预定义模块; 所述预定义模块,用于在所述根据所述最大信息系数MIC和所述冗余值,获取每一个特 征的有效值的步骤之前,定义两个特征之间的近似马尔科夫毯条件: MIC(fi,c)>MIC(fj,c)^MIC(fj,c)<MIC(fi,fj) 相应地,所述选择模块,还用于根据所述最大信息系数MIC从特征集中依次选取特征, 并将选取的特征从特征集中删除;根据选取的特征的最大信息系数MIC和冗余值获取所述 特征的有效值,并判断所述有效值是否大于或者等于预设阔值,若是,则将该特征添加至最 优子集。10.根据权利要求9所述的装置,其特征在于,所述选择模块,还用于根据所述近似马尔 科夫毯条件从特征集中筛选出与所述选取的特征有近似马尔科夫毯条件的所有特征,并根 据公式二获取每一个筛选出的特征的有效值;根据有效值判断筛选出的特征的有效值是否 大于或者等于预设阔值,若否,则将筛选出的特征从特征集中删除,并从特征集中选取下一 个特征。
【文档编号】G06F17/30GK105975589SQ201610298079
【公开日】2016年9月28日
【申请日】2016年5月6日
【发明人】孙广路, 宋智超, 陈腾, 何勇军
【申请人】哈尔滨理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1