专利名称:用于模式分类的动态特征选择方法
技术领域:
本发明涉及模式分类技术领域,具体地讲,是一种用于模式分类的对动态 变化的模式样本进行特征选择的特征选择方法。
背景技术:
模式分类问题目前广泛应用于电力、金融、商业、军事、医药卫生等诸多 领域,其处理过程由样本预处理、特征提取、特征选择、分类等步骤组成。其 中,特征选择是模式分类系统中重要的处理过程。在实际模式分类中,待分类 的模式样本中往往含有大量的特征,特征选择可从这些大量的特征中删除掉对 分类无关或作用较小的特征,选择出对分类非常有用的特征,以便分类器分类, 从而可有效提高模式分类的效率和分类正确率。
在实际中的模式分类中,模式样本常常是动态变化的,原因有很多。以尿 沉渣为例,来自不同医院采集的尿沉渣图像样本有所不同,同一个医院来自不 同病人的尿沉渣图像样本有所不同,同一个病人不同情况下采集的尿沉渣图像 样本也有所不同,等等。目前,现有的特征选择方法常常是属于静态特征选择 方法,也就是在设计某一模式分类系统时,采集了一部分训练样本进行训练, 选择出一个最优特征组合,然后根据这个最优特征组合对输入样本数据进行规 则化,再输入到分类器进行分类。但在实际处理动态变化的模式样本的时候, 样本数据在发生变化,待选的每个特征的重要性以及特征间的相关性都在发生 变化,最优特征组合常常不是固定不变的,尤其对于复杂的高维特征选择问题 来说,这种情况尤其突出。因此,用静态特征选择方法来处理动态模式样本时, 常常会出现对于训练样本来说达到一定分类要求的最优特征组合用于其他样本 时分类正确率明显下降或者不稳定。
发明内容
本发明的目的在于提供一种用于模式分类的动态特征选择方法,能够对于 现实中不断变化的模式样本动态的选择出最优特征组合,从而最大限度的选出 具有较高分类正确率的特征,满足高精度的分类需求。
为了实现上述目的,本发明的技术方案如下 一种用于模式分类的动态特 征选择方法,包括下列步骤
(一) 预处理模块获取初始输入样本,并对初始输入样本进行预处理,获 得预处理输入样本;预处理包括归一化和矩阵变换两种处理,预处理完成后, 初始输入样本转换为特征矩阵,列向量表示输入样本个体的特征向量,行数表 示特征数。样本大小根据经验确定,通常要大于待选特征数。
(二) 预处理模块向知识库发出请求,该知识库对请求进行判断; 所述请求分为两种分类请求和特征选择请求;当请求是分类请求时,进
入分类流程,当请求是特征选择请求时,进入特征选择流程;如果在特征选择 流程中,收到分类请求,则中断特征选择流程,转入分类流程; 所述分类流程为
所述知识库向预处理模块输出存储的最优特征组合,该预处理模块根据该 最优特征组合对所述预处理输入样本进行规则化,并输出规则化后的输入样本 给分类器,分类器接收知识库传递的需动态调整的分类参数后,对接收的规则 化输入样本进行分类;
所述规则化是指根据最优特征组合,对特征矩阵中的特征进行取舍后,得 到新的样本矩阵,分类器对新的样本矩阵进行分类。
所述特征选择流程为
A、所述知识库随机读取所述预处理模块中的部分预处理输入样本个体,组 成输入训练样本,该输入训练样本与知识库中存储的存储训练样本整合,组成 整合训练样本;所述存储训练样本为经过归一化和矩阵变换处理后的样本。
B、 所述知识库随机选择整合训练样本中的部分个体,组成选择训练样本,
该知识库对特征选择模块和分类器进行知识加载,包括
所述知识库将所述选择训练样本分别送至特征选择模块和分类器;知识库 还将存储的特征选择模块需要动态调整的特征选择参数送至特征选择模块,将 存储的分类器需要动态调整的分类参数送至分类器;所述知识库还将存储的最 优特征组合和初始种群送入所述特征选择模块;
知识库存储的特征选择参数依照特征选择模块中釆用的具体的特征选择方 法而定,存储的分类参数依照分类器的种类而定。
C、 所述知识库中还将存储的比率系数送入所述特征选择模块;
D、 所述特征选择模块计算初始种群中所有个体的适应度值,并将初始种群 个体按照适应度值的高低排序,该特征选择模块按照所述比率系数规定的百分 比,从适应度值最高的个体起依次选择占所有个体百分比的部分个体组成分类 种群,送入分类器进行分类;
初始种群个体可以按适应度值从高到低排序,也可以从低到高排序。 所述比率系数范围在0到1之间,0表示不送入分类器分类,l表示全部送
到分类器分类,也可以反过来规定。
如果特征选择模块中采用的特征选择方法涉及到的初始种群只有一个个
体,则不需要排序,由比率系数决定是否送入分类器或者不送入分类器分类。
对于个体数较小的种群,可以采用四舍五入的方式选择比率系数规定的种群个
体数进入分类器分类。
E、 所述分类器根据所述分类种群对所述选择训练样本进行分类,算出每个 分类种群个体的分类正确率,并按分类种群个体的排序将该分类正确率返回给 所述特征选择模块;完成一次分类,分类器得到新一代的分类参数;
F、 所述特征选择模块按照分类正确率将分类种群个体进行重新排序,并和 初始种群中剩下的个体组合成新的种群,然后进行特征选择;G、完成一次特征选择后,得到新一代的最优特征组合和种群以及新一代的 特征选择参数,并判断是否符合终止条件,如果不符合,再返回到步骤D,对新 一代种群进行操作;如果符合终止条件,则结束特征选择和分类,输出得到的 新一代最优特征组合,并对知识库进行知识更新将得到的新一代最优特征组 合和种群以及新一代特征选择参数和分类参数返回给所述知识库,对知识库存 储的最优特征组合、初始种群以及特征选择参数和分类参数进行更新。
所述终止条件包括两个部分第一部分是判断迭代次数是否超过设定的最 大迭代次数,第二部分是判断每代的最优特征组合的适应度值之差是否连续低 于某个阈值规定的次数,两个终止条件只需要满足一个,就算符合终止条件。
在返回到步骤D时,用得到的新一代种群代替步骤D中的初始种群后,进
行操作。
所述知识库还通过人机接口与外界进行数据交换。在实际分类中,有可能 知识库中保存的相关专业知识未考虑周全,专业人士可以通过人机接口进行完 善和指正,以得到更好的最优特征组合。
所述特征选择模块中采用遗传选择方法进行特征选择。所述特征选择模块 中还可以采用其他方法进行特征选择,如分支定界法、模拟退火法、顺序前进 法、顺序后退法、增1减r法等。
所述分类器为支持向量机分类器。所述分类器还可以为其他类型的分类器, 如多层神经网络、BP神经网络、SOM自组织聚类等。
所述知识库中存储的最优特征组合个数范围为[1, 20],在对知识库存储的 最优特征组合进行更新时,对存储中的适应度值最低的最优特征组合进行更新。 所述知识库传送给预处理模块和特征选择模块的最优特征组合都是随机从该知 识库存储的所有最优特征组合中随机选择。
有益效果与现有技术相比,本发明采用特征选择和分类器按比率结合使 用的模式,用分类结果检验特征选择的结果,从现实中不断变化的模式样本中 动态的选择出最优特征组合,从而最大限度的选出具有较高分类正确率的特征, 满足高精度的分类需求。同时建立知识库进行参数的存储和管理,并通过知识 传递机制动态更新和加载这些知识,使得知识被及时获取从而赋予特征选择模 块和分类器达到动态的高性能特征选择和分类能力。而且,可以根据现实中的 侧重要求,合理设置比率系数,进行高效的特征选择,如在处理海量数据需要 快速分类时,相应的特征选择方法需要侧重于选择速度;在处理量不大,但对 分类正确率要求较高时,相应的特征选择方法侧重于选择精度等等。
图1为本发明的结构方框示意图2是本发明的工作流程示意图3是本发明的特征选择流程示意图。
具体实施例方式
下面结合附图和实施例进一步对本发明加以说明。
如图1、 2所示 一种用于模式分类的动态特征选择方法,包括有下列步骤
(一) 预处理模块1获取初始输入样本,并对初始输入样本进行预处理, 获得预处理输入样本;预处理包括归一化和矩阵变换两种处理,预处理完成后, 初始输入样本转换为特征矩阵,列向量表示输入样本个体的特征向量,行数表 示特征数。样本大小根据经验确定,通常要大于待选特征数。
(二) 预处理模块1向知识库2发出请求,该知识库2对请求进行判断;
知识库2中存储有特征选择模块4和分类器3需要动态调整的特征选择参数和 分类参数,还存储有3个最优特征组合,以及种群和存储训练样本。本实施例 中,特征选择模块4中采用遗传选择方法,该遗传选择方法需动态调整的特征 选择参数有选择率、交叉率、变异率;分类器3采用支持向量机分类器,该分 类器需要动态调整的分类参数有特征向量的范数的度"以及核函数构造的超平 面与最近样本的间隔7。
所述请求分为两种分类请求和特征选择请求;当请求是分类请求时,进 入分类流程,当请求是特征选择请求时,进入特征选择流程;如果在特征选择 流程中,收到分类请求,则中断特征选择流程,转入分类流程;
所述分类流程为:
所述知识库2向预处理模块1随机输出一个最优特征组合,该预处理模块1 根据该最优特征组合对所述预处理输入样本进行规则化,并输出规则化后的输 入样本给分类器3,分类器3接收知识库2传递的需动态调整的分类参数后,对接收的规则化输入样本进行分类;
支持向量机分类器3的分类过程如下首先,支持向量机通过核函数将接
收的规则化输入样本映射到另一个空间,在那个空间里样本之间是线性可分的;
然后通过线性关系式将样本进行分类;最后输出分类结果。核函数的获取是分
类好坏的关键,而参数的优化是获取好的核函数的关键,在这里,所需参数特
征向量的范数的度"和核函数构造的超平面与最近样本的间隔/由知识库2动态
加载和更新,即动态优化。其核函数如下<formula>formula see original document page 10</formula>
所述规则化是指根据最优特征组合,对特征矩阵中的特征进行取舍后,得 到新的样本矩阵,分类器3对新的样本矩阵进行分类。假设预处理训练样本中 涉及10个特征,最优特征组合为{0, 1, 1, 0, 0, 1, 1, 0, 1, 0},只选取了 第二、三、六、七、九这五个特征,则经过规则化后的训练样本为这五个特征 组成的新样本矩阵。
如图3所示所述特征选择流程为
A、 所述知识库2随机读取所述预处理模块中的部分预处理输入样本个体, 组成输入训练样本,该输入训练样本与知识库2中存储的存储训练样本整合, 组成整合训练样本;所述存储训练样本为经过归一化和矩阵变换处理后的样本。
B、 所述知识库2随机选择整合训练样本中的部分个体,组成选择训练样本, 该知识库2对特征选择模块4和分类器3进行知识加载,包括
所述知识库2将所述选择训练样本分别送至特征选择模块4和分类器3;知 识库2还将存储的特征选择模块4需要动态调整的特征选择参数选择率、交叉 率、变异率送至特征选择模块4,将存储的分类器3需要动态调整的分类参数特 征向量的范数的度^以及核函数构造的超平面与最近样本的间隔;r送至分类器 3;所述知识库2还从存储3个最优特征组合中随机选择一个最优特征组合以及 初始种群送入所述特征选择模块4;
C、 所述知识库2中还将存储的比率系数送入所述特征选择模块4;
D、 所述特征选择模块4计算初始种群中所有个体的适应度值,并将初始种 群个体按照适应度值从高到低排序,该特征选择模块4按照所述比率系数规定 的百分比,从适应度值最高的个体起依次选择占所有个体百分比的部分个体组 成分类种群,送入分类器3进行分类;
所述比率系数范围在0到1之间,0表示不送入分类器3分类,l表示全部 送到分类器3分类。
本实施例中采用遗传选择方法进行特征选择,初始种群个体一般大于待选 特征数,如果特征选择模块4中采用的特征选择方法涉及到的初始种群只有一 个个体,则不需要排序,由比率系数决定是否送入分类器或者不送入分类器分 类。对于个体数较小的种群,可以采用四舍五入的方式选择比率系数规定的种 群个数进入分类器3分类。
E、 所述分类器3根据所述分类种群对所述选择训练样本进行分类,算出每 个分类种群个体的分类正确率,并按分类种群个体的排序将该分类正确率返回 给所述特征选择模块4;完成一次分类,分类器3得到新一代的分类参数;每个
种群个体对应的分类正确率的计算方法为将每一类的分类正确率进行算术平
均就是该个体对应的分类正确率。
F、 所述特征选择模块4按照分类正确率将分类种群个体进行重新排序,并 和初始种群中剩下的个体组合成新的种群,然后进行特征选择;
采用遗传选择方法进行特征选择,按照知识库2加载的选择率、交叉率、
变异率,依次进行选择、交叉、变异操作,三步操作完成后,完成一次特征选 择。
G、完成一次特征选择后,得到新一代的最优特征组合和种群以及新一代的 特征选择参数,并判断是否符合终止条件,如果不符合,再返回到步骤D,对新 一代种群进行操作;如果符合终止条件,则结束特征选择和分类,输出得到的 新一代最优特征组合,并对知识库2进行知识更新将得到的新一代最优特征 组合和种群以及新一代特征选择参数和分类参数返回给所述知识库2,对知识库 2存储的最优特征组合、初始种群以及特征选择参数和分类参数进行更新。
所述终止条件包括两个部分第一部分是判断迭代次数是否超过设定的最 大迭代次数,第二部分是判断每代的最优特征组合的适应度值之差是否连续低 于某个阈值规定的次数,两个终止条件只需要满足一个,就算符合终止条件。
在返回到步骤D时,用得到的新一代种群代替步骤D中的初始种群后,进 行操作。
所述知识库2还通过人机接口 5与外界进行数据交换。在实际分类中,有 可能知识库2中保存的相关专业知识未考虑周全,专业人士可以通过人机接口 5 进行完善和指正,以得到更好的最优特征组合。
本发明中的特征选择模块4中采用的特征选择方法不限于遗传选择方法, 采用的分类器3不限于支持向量机分类器。本实施例中未详细描述之处为公知 技术,本领域技术人员都能实现,因此这里不再累述。
权利要求
1、一种用于模式分类的动态特征选择方法,其特征在于包括有下列步骤(一)预处理模块(1)获取初始输入样本,并对初始输入样本进行预处理,获得预处理输入样本;(二)预处理模块(1)向知识库(2)发出请求,该知识库(2)对请求进行判断;所述请求分为两种分类请求和特征选择请求;当请求是分类请求时,进入分类流程,当请求是特征选择请求时,进入特征选择流程;如果在特征选择流程中,收到分类请求,则中断特征选择流程,转入分类流程;所述分类流程为所述知识库(2)向预处理模块(1)输出存储的最优特征组合,该预处理模块(1)根据该最优特征组合对所述预处理输入样本进行规则化,并输出规则化后的输入样本给分类器(3),分类器(3)接收知识库(2)传递的需动态调整的分类参数后,对接收的规则化输入样本进行分类;所述特征选择流程为A、所述知识库(2)随机读取所述预处理模块中的部分预处理输入样本个体,组成输入训练样本,该输入训练样本与知识库(2)中存储的存储训练样本整合,组成整合训练样本;B、所述知识库(2)随机选择整合训练样本中的部分个体,组成选择训练样本,该知识库(2)对特征选择模块(4)和分类器(3)进行知识加载,包括所述知识库(2)将所述选择训练样本分别送至特征选择模块(4)和分类器(3);知识库(2)还将存储的特征选择模块(4)需要动态调整的特征选择参数送至特征选择模块(4),将存储的分类器(3)需要动态调整的分类参数送至分类器(3);所述知识库(2)还将存储的最优特征组合和初始种群送入所述特征选择模块(4);C、所述知识库(2)中还将存储的比率系数送入所述特征选择模块(4);D、所述特征选择模块(4)计算初始种群中所有个体的适应度值,并将初始种群个体按照适应度值的高低排序,该特征选择模块(4)按照所述比率系数规定的百分比,从适应度值最高的个体起依次选择占所有个体百分比的部分个体组成分类种群,送入分类器(3)进行分类;E、所述分类器(3)根据所述分类种群对所述选择训练样本进行分类,算出每个分类种群个体的分类正确率,并按分类种群个体的排序将该分类正确率返回给所述特征选择模块(4);完成一次分类,分类器(3)得到新一代的分类参数;F、所述特征选择模块(4)按照分类正确率将分类种群个体进行重新排序,并和初始种群中剩下的个体组合成新的种群,然后进行特征选择;G、完成一次特征选择后,得到新一代的最优特征组合和种群以及新一代的特征选择参数,并判断是否符合终止条件,如果不符合,再返回到步骤D,对新一代种群进行操作;如果符合终止条件,则结束特征选择和分类,输出得到的新一代最优特征组合,并对知识库(2)进行知识更新将得到的新一代最优特征组合和种群以及新一代特征选择参数和分类参数返回给所述知识库(2),对知识库(2)存储的最优特征组合、初始种群以及特征选择参数和分类参数进行更新。
2、 根据权利要求1所述用于模式分类的动态特征选择方法,其特征在于 所述知识库(2)还通过人机接口 (5)与外界进行数据交换。
3、 根据权利要求1所述用于模式分类的动态特征选择方法,其特征在于 所述特征选择模块(4)中采用遗传选择方法进行特征选择。
4、 根据权利要求1所述用于模式分类的动态特征选择方法,其特征在于所述分类器(3)为支持向量机分类器。
5、根据权利要求1所述用于模式分类的动态特征选择方法,其特征在于所述知识库(2)中存储的最优特征组合个数范围为[1,20],在对知识库(2) 存储的最优特征组合进行更新时,对存储中的适应度值最低的最优特征组合进 行更新。
全文摘要
本发明公开了一种用于模式分类的动态特征选择方法,按下列步骤进行预处理模块对样本进行预处理后向知识库发出请求,如果请求为分类请求,则预处理模块向知识库获取最优特征组合对样本进行规则化后交给分类器进行分类,如果请求为特征选择请求,则预处理模块将部分样本输出给知识库,并结合知识库的部分样本进行组合,从组合的样本中输出部分样本进入特征选择模块,知识库中还输出特征选择模块和分类器需要动态调整的参数以及比率系数,指导特征选择模块和分类器结合进行特征选择,选择结束后,将相关参数反馈给知识库进行知识更新。本发明能够从不断变化的模式样本中动态选择出最优特征组合,更符合实际情况,满足高精度分类的需求。
文档编号G06K9/62GK101339619SQ20081007010
公开日2009年1月7日 申请日期2008年8月11日 优先权日2008年8月11日
发明者曾孝平, 李勇明 申请人:重庆大学