基于最大信息系数的特征选择、分类方法及其装置制造方法

文档序号:6547774阅读:282来源:国知局
基于最大信息系数的特征选择、分类方法及其装置制造方法
【专利摘要】本发明涉及一种基于最大信息系数的特征选择、分类方法及其装置,所述特征选择方法包括:S1,基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并将所述相关度高于阈值的特征形成初始特征子集;S2,计算在所述初始特征子集中的特征之间的最大信息系数;S3,根据所述最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子集。本发明所述的特征选择方法通过使用互信息以及最大信息系数的方式进行特征选择,从而去除冗余特征,降低了数据的维度。
【专利说明】基于最大信息系数的特征选择、分类方法及其装置

【技术领域】
[0001] 本发明涉及无线通信领域,具体地,涉及一种基于最大信息系数的特征选择、分类 方法及其装置。

【背景技术】
[0002] 随着科学技术的发展,数据规模也随之快速增长,对这些数据进行智能化的分析 和处理变得越来越重要。但是随之而来的问题是,海量的原始数据中存在着大量冗余信息, 对模式识别、机器学习等领域的算法提出了挑战。一方面,冗余数据极大地增加了算法的 时间复杂度和空间复杂度,浪费了存储资源,增加了处理时间;另一方面,冗余数据由于存 在较大相关性,导致分类结果产生偏差,降低了智能信息处理软件的性能。特征选择以消除 数据冗余,降低数据维数为目的,是解决上述问题的有效方法,因而一直是学术界研究的热 点。
[0003] 网络流量的特征种类多样,数值覆盖范围广,兼有离散和连续特征,处理起来有着 很大的困难,难以得到有利于分类的优秀的特征子集。
[0004] 在特征选择方面已有许多成型方法,典型的有基于信息增益的、基于神经网络的、 基于决策树的方法等。从广义上来说,特征选择可分为两大类,第一类是特征排序,第二类 是特征子集选择。特征排序的方法首先计算特征与类别之间的相关性,然后根据相关性对 特征进行排序,保留与类别相关性强的特征。尽管这类方法速度快,但是难以消除冗余特 征。特征子集选择通过选择维数尽可能低、各位之间相关性尽可能小的一个特征子集,能有 效消除冗余特征。但传统的特征子集选择方法大都根据特征之间的线性相关性选择特征, 难以消除普遍存在的非线性冗余,这限制了该类方法性能的提高。


【发明内容】

[0005] 本发明提供了一种基于最大信息系数的特征选择、分类方法及其装置,通过使用 互信息以及最大信息系数的方式进行特征选择,从而去除冗余特征,降低了数据的维度。
[0006] 为此目的,本发明提出了一种基于最大信息系数的特征选择方法,其特征在于,所 述方法包括:S1,基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并 将所述相关度高于阈值的特征形成初始特征子集;S2,计算在所述初始特征子集中的特征 之间的最大信息系数;S3,根据所述最大信息系数,删除所述初始特征子集中的冗余特征, 得到低维特征子集。
[0007] 其中,步骤S1具体包括:根据所述原始特征与类别之间的相关程度对所述原始特 征进行排序,并将相关程度低于阈值的特征删除。
[0008] 其中,所述步骤S2包括:S21,将所述初始特征子集中的特征放置在二维坐标系 中;S22,对所述二维坐标系进行多次网格划分;S23,计算在每次网格划分下,每一块网格 中的特征之间的互信息值,计算每次网格划分的最大互信息值,并建立最大互信息矩阵; S24,通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。
[0009] 其中,所述建立最大互信息矩阵包括:设定每次网格划分的大小小于B,B为根据 所述特征的数量设定的值,所述最大互信息矩阵的计算公式如下:
[0010] M{D), ; - 1 (D,/,/) log min j/', /j
[0011] 其中,M(D)u为所述最大互信息矩阵的第i行第j列的值,表示在不同的网格划分 条件下得到的最大互信息值,且i,j满足〇 < i < B,0 < j < B,iX j < B。
[0012] 其中,所述步骤S3包括:选择最大信息系数超过设定阈值的特征对;将相互关联 的特征对组成冗余特征集合;选取每个冗余特征集合中贡献度最大的特征作为子特征,并 将所述每个冗余特征集合中的其他特征删除;将每个所述冗余特征集合的子特征组成所述 低维特征子集。
[0013] 根据本发明的另一个方面,提供了一种基于上述特征选择方法进行数据分类的方 法,所述方法包括:S101,根据上述特征选择方法对数据进行选择;S102,将选择后的数据 通过训练形成模型;S103,通过所述模型对待测数据进行识别。
[0014] 其中,使用增量式支持向量机模型对所述选择后的数据进行训练。
[0015] 根据本发明的又一个方面,提供了一种基于最大信息数的特征选择装置,其特征 在于,所述装置包括:初始特征形成模块,基于互信息准则将原始特征进行排序,并将低于 阈值的特征删除,形成初始特征子集;最大信息系数计算模块,计算在初始特征子集中的特 征之间的最大信息系数;特征选择模块,根据最大信息系数,删除所述初始特征子集中的冗 余特征,得到低维特征子集。
[0016] 其中,所述最大信息系数计算模块包括:坐标系建立单元,将所述初始特征子集中 的特征放置在二维坐标系中;网格划分单元,对所述二维坐标系进行多次网格划分;最大 互信息计算单元,计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算每次 网格划分的最大互信息值,并建立最大互信息矩阵;最大信息系数计算单元,通过最大户信 息矩阵计算所述初始特征子集中的特征的最大信息系数。
[0017] 根据本发明的又另一个方面,提供了一种基于上述特征选择装置的数据分类装 置,其特征在于,所述系统包括:上述特征选择装置,对数据进行选择,删除冗余数据;模型 训练模块,将选择后的数据通过训练形成模型;识别模块,通过所述模型对待测数据进行识 别。
[0018] 通过上述实施例可知,使用本发明所述特征选择、分类方法及其装置,具有以下有 益效果:
[0019] 1、对特征选择采用删除不相关特征和删除冗余特征两种方式,从而能够将网络量 中的大量冗余特征进行删除,从而降低了数据维数,便于在进行数据处理中减少了处理时 间和空间,避免了资源的浪费;
[0020] 2.采用最大信息系数的方法删除冗余特征,可以同时将特征集中的线性相关和非 线性相关的冗余特征去除,从而可以很好地降低数据的维数;
[0021] 3.使用本发明的特征选择方法后的特征进行分类,可以减少数据的处理量,从而 减少了计算的复杂度,并且不会影响数据的计算精度。

【专利附图】

【附图说明】
[0022] 通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理 解为对本发明进行任何限制,在附图中:
[0023] 图1示出了本发明的一种基于最大信息系数的特征选择方法的流程图;
[0024] 图2示出了本发明的一种基于最大信息系数的特征选择方法的步骤S2的流程 图;
[0025] 图3示出了本发明的一种基于最大信息系数的特征选择方法的步骤S3的流程 图;
[0026] 图4示出了本发明的一种基于上述特征选择方法进行数据分类的方法的流程图;
[0027] 图5示出了本发明的一种基于最大信息系数的特征选择装置1001的结构框图;
[0028] 图6示出了本发明的一种基于最大信息系数的特征选择装置的最大信息数计算 模块200的结构框图;
[0029] 图7示出了本发明的一种基于上述特征选择装置的数据分类装置的结构框图。

【具体实施方式】
[0030] 下面将结合附图对本发明的实施例进行详细描述。
[0031] 图1示出了本发明的一种基于最大信息系数的特征选择方法的流程图。
[0032] 参照图1,本发明的实施例的基于最大信息系数的特征选择方法包括步骤:
[0033] S1、基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并将相 关度高于阈值的特征形成初始特征子集。
[0034] 由于网络流量数据存在大量的冗余以及不相关特征,因此首先利用特征与类别之 间的相关程度对特征进行排序,保留与类别的相关性强的特征,删除相关性弱的特征。
[0035] 本实施例中,基于互信息的方法,计算特征&与类别C相关性的公式如下:

【权利要求】
1. 一种基于最大信息系数的特征选择方法,其特征在于,所述方法包括: S1,基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并将所述相 关度高于阈值的特征形成初始特征子集; 52, 计算在所述初始特征子集中的特征之间的最大信息系数; 53, 根据所述最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子 集。
2. 根据权利要求1所述的一种基于最大信息系数的特征选择方法,其特征在于,所述 步骤S1具体包括: 根据所述原始特征与类别之间的相关程度对所述原始特征进行排序,并将相关程度低 于阈值的特征删除。
3. 根据权利要求1所述的一种基于最大信息系数的特征选择方法,其特征在于,所述 步骤S2包括: S21,将所述初始特征子集中的特征放直在_维坐标系中; 522, 对所述二维坐标系进行多次网格划分; 523, 计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算每次网格划 分的最大互信息值,并建立最大互信息矩阵; 524, 通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。
4. 根据权利要求3所述的一种基于最大信息系数的特征选择方法,其特征在于,所述 建立最大互信息矩阵包括:设定每次网格划分的大小小于B,B为根据所述特征的数量设定 的值,所述最大互信息矩阵的计算公式如下: M(D)丨.=1⑴山八 "J log min{/, /; 其中,M(D) u为所述最大互信息矩阵的第i行第j列的值,表示在不同的网格划分条件 下得到的最大互信息值,且i,j满足〇 < i < B,0 < j < B,iX j < B。
5. 根据权利要求1所述的一种基于最大信息系数的特征选择方法,其特征在于,所述 步骤S3包括: S31,选择最大信息系数超过设定阈值的特征对; 532, 将相互关联的特征对组成冗余特征集合; 533, 选取每个冗余特征集合中贡献度最大的特征作为子特征,并将所述每个冗余特征 集合中的其他特征删除; 534, 将每个所述冗余特征集合的子特征组成所述低维特征子集。
6. -种基于权利要求1-5的任一项所述的特征选择方法进行数据分类的方法,其特征 在于,所述方法包括: S101,根据权利要求1-5的任一项所述的特征选择方法对数据进行选择; 5102, 将选择后的数据通过训练形成模型; 5103, 通过所述模型对待测数据进行识别。
7. 根据权利要求6所述的一种数据分类方法,其特征在于, 使用增量式支持向量机模型对所述选择后的数据进行训练。
8. -种基于最大信息数的特征选择装置,其特征在于,所述装置包括: 初始特征形成模块,基于互信息准则将原始特征进行排序,并将低于阈值的特征删除, 形成初始特征子集; 最大信息系数计算模块,计算在初始特征子集中的特征之间的最大信息系数; 特征选择模块,根据最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特 征子集。
9. 根据权利要求8所述的装置,其特征在于,所述最大信息系数计算模块包括: 坐标系建立单兀,将所述初始特征子集中的特征放直在-维坐标系中; 网格划分单元,对所述二维坐标系进行多次网格划分; 最大互信息计算单元,计算在每次网格划分下,每一块网格中的特征之间的互信息值, 计算每次网格划分的最大互信息值,并建立最大互信息矩阵; 最大信息系数计算单元,通过最大互信息矩阵计算所述初始特征子集中的特征的最大 信息系数。
10. -种基于权利要求8-9任一项所述的特征选择装置的数据分类装置,其特征在于, 所述系统包括: 权利要求8-9任一项所述的特征选择装置,对数据进行选择,删除冗余数据; 模型训练模块,将选择后的数据通过训练形成模型; 识别模块,通过所述模型对待测数据进行识别。
【文档编号】G06K9/62GK104050242SQ201410228055
【公开日】2014年9月17日 申请日期:2014年5月27日 优先权日:2014年5月27日
【发明者】孙广路, 何勇军, 刘广明 申请人:哈尔滨理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1