一种基于二叉树支持向量机的分类方法

文档序号:6610463阅读:347来源:国知局
专利名称:一种基于二叉树支持向量机的分类方法
技术领域
本发明属于缺陷识别技术领域,尤其是涉及一种基于二叉树支持向量机的分类方法。
背景技术
缺陷的智能识别是在缺陷特征提取的基础上,确定识别算法,设计出相应的分类器,并用样本集合进行训练,最后完成对缺陷的自动分类。目前主要有统计分类方法、基于规则的分类方法和基于学习的分类方法。常见的分类器有决策树分类、贝叶斯分类、模糊分类法、人工神经网络分类法和支持向量机分类法等,在数据信号处理方面应用较多的是后两种。其中,人工神经网络分类法由于人工神经网络没有专门的训练和学习函数来确定网络结构,且需要大量训练样本,因而实际应用中条件往往难以满足。支持向量机(Support Vector Machine, SVM)是上世纪九十年代一种新的模式识别方法,其通过非线性变换将输入空间映射到高维空间,在新空间中求得最优分类超平面。由于实际样本中,可能存在孤立点或者噪声,它对常用的C-SVM或者v-SVM的最优分类超平面影响较大。针对该问题,有些学者提出了模糊支持向量机FSVM(Fuzzy Support VectorMachine FSVM)。孙波等人提出一种计算样本隶属度的新方法,降低噪声点的隶属度,提高了支持向量对最优分类面的贡献。陈小娟等人针对分类问题的支持向量机方法中存在对噪声和野值敏感的问题,提出了一种新的隶属度函数确定方法。徐鲁强等人提出了一种符合高斯形式的构建模糊隶属度函数方法,减弱了野点样本对分类的影响,提高了情感状态识别效果。Qi Xu等人应用模糊支持向量机对带有噪声和孤立点的脑电图信号进行分类,结果表明FSVM分类性能减少了噪声和孤立点对分类的影响。SVM本身是一个两分类方法,如何将其推广到多分类,以适应实际中缺陷或故障快速、准确识别,是一个迫切需要解决的问题。目前,多类SVM成为多类模式识别研究与应用的热点。现在已有的多类SVM分类方法大致可分为两种直接求解算法和分解重构算法。直接求解法是在所有训练样本上求解一个大型二次规划问题,同时将所有类别分开。该方法变量个数多,计算复杂度很高,尤其当类别数目较多时,它的训练速度很低,分类精度也不高;分解重构法是一种将多类分类问题转化为多个两类分类问题,并采用某种策略将多个两类分类器组合起来实现多类分类的方法。分解重构法比直接求解法更适合于实际应用,用它实现多类分类需要解决两个关键问题模糊类的生成和多个两类分类器的组合策略。当前应用较广泛的SVM分解重构算法有1-a-r (one-against-rest)方法,1-a-l(one-against-one)方法、DAGSVM(Directed Acyclic Graph Support VectorMachines)方法,DTSVM(Decision Tree Support Vector Machines)方法以及 HSVM 方法(Hierarchical Support Vector Machines)等。这些方法在多分类中各有优缺点,研究表明l-a-r分类方法简单、有效,可用于大规模数据,但当工作集过大时,训练速度将会很慢;同时它存在误分、拒分区域,泛化能力较差。1-a-l分类速度,比传统的Ι-a-r方法快,而且其分类精度也较Ι-a-r高;但其缺点是如果单个两类分类器不规范,则整个分类器将趋向于过学习,分类器的数目随类数急剧增加,导致在决策时速度很慢,存在推广误差无界及误分、拒分区域。DAGSVM方法较1-a-l方法提高了测试速度,而且不存在拒分区域;另外,由于其特殊的结构,故有一定的容错性,分类精度较一般的二叉树方法高,但该方法的泛化能力与各子分类器在有向无环图中的位置有关。DTSVM和HSVM采用树结构的组合策略,具有较高的训练和分类速度,但分类树存在错分积累,如果选择合理的树结构可以获得较高的分类速度和精度。通过以上多分类方法特点比较,二叉树SVM综合性能较好,关键是要选择合理的二叉树结构。综合分析神经网络和支持向量机在缺陷多分类方面的优缺点,为了有效提高缺陷或故障分类的可靠性、实时性,必须对现有的分类方法进行改进。

发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于二叉树支持向量机的分类方法,其设计合理、操作简便、实现方便且使用效果好、实用价值高,不仅可以选出SVM分类器的最优参数,且能减少噪声和孤立点对分类的影响,提高了分类速 度和精度。为解决上述技术问题,本发明采用的技术方案是一种基于二叉树支持向量机的分类方法,其特征在于该方法包括以下步骤步骤一、信号采集采用状态信息检测单元对被检测对象在N种不同工作状态时的工作状态信息分别进行实时检测,并将所检测信号同步传送至数据处理器,相应获得与N种不同工作状态相对应的N组工作状态检测信息,N组所述工作状态检测信息中均包括所述状态信息检测单元在不同采样时刻检测到的多个检测信号,其中N为正整数且N > 3 ;步骤二、特征提取待数据处理器接收到所述状态信息检测单元所传送的检测信号时,自各检测信号中分别提取出能代表并区别该检测信号的一组特征参数,且该组特征参数包括W个特征量,并对W个所述特征量进行编号,W个所述特征量组成一个特征向量,其中W彡2 ;步骤三、训练样本获取分别在经特征提取后的N组所述工作状态检测信息中,随机抽取m个检测信号组成训练样本集;所述训练样本集中相应包括I个训练样本,其中m > 2,l=mXN ;I个所述训练样本分属于N种样本类,每一个样本类中均包括被检测对象工作于同一个工作状态时的m个训练样本,N种样本类分别与被检测对象的N种不同工作状态相对应的样本类I、样本类2···样本类N ;N种样本类中的每一个训练样本均记作Xks,其中k为样本类的类别标号且k=l、2···N, s为各样本类中所包括m个训练样本的样本序号且s=l、2···!!! ;Xks为样本类k中第s个训练样本的特征向量,Xks e Rd,其中d为Xks的向量维数且d=W ;步骤四、分类优先级别确定,其确定过程如下步骤401、样本类的类中心计算采用数据处理器对N种所述样本类中任一个样本类k的类中心进行计算;
_m且对样本类k的类中心进行计算时,根据公式义(P) = Σ xL⑷丨m,计算得出样本
Si=I
类k中所有训练样本的各特征量均值;式中为样本类k中第s个训练样本的第P个特征量,X, (P)为样本类k中所有训练样本的第P个特征量均值;步骤402、类间距离计算采用数据处理器且根据公式4, (尤(P)·爲(P))2,
V P=1
对步骤201中所述任一个样本类k与N种所述样本类中任一个样本类h之间的间距分别进行计算,其中尤,(/^为样本类k中所有训练样本的第P个特征量均值,为样本类h中所有训练样本的第P个特征量均值,且h=l、2*"N ;步骤403、类间距之和计算采用数据处理器且根据公式&—(幻=;|> ,,对步骤401中所述任一个样本类k的类间距之和;步骤404、多次重复步骤401至步骤403,直至计算得出N种所述样本类中所有样本类的类间距之和; 步骤405、按照步骤404中计算得出的所有样本类的类间距之和由大到小的顺序,采用数据处理器确定出N种所述样本类的分类优先级别Y,其中Υ=1、2···Ν ;其中,类间距之和最大的样本类的分类优先级别最高且其分类级别为1,类间距之和最大的样本类的分类优先级别最低且其分类级别为N ;步骤五、多分类模型建立所建立的多分类模型包括N-I个二分类模型,且N-I个所述二分类模型均为支持向量机模型;Ν-1个所述二分类模型按照步骤405中所确定的分类优先级别,将N种所述样本类自所述训练样本集中由先至后逐类分出来,N-I个所述二分类模型的建立方法均相同且均采用数据处理器进行建立;对于N-I个所述二分类模型中的任一个二分类模型ζ来说,其建立过程如下步骤501、核函数选取选用径向基函数作为二分类模型ζ的核函数;步骤502、分类函数确定待惩罚参数C与步骤501中所选用径向基函数的核参数Y确定后,获得二分类模型ζ的分类函数,完成二分类模型ζ的建立过程;其中,O
<C 彡 1000,0 < y ^ 1000 ;所建立的二分类模型ζ为待分类优先级别高于ζ的所有样本类自所述训练样本集中分出来后,将分类优先级别为ζ的样本类自所述训练样本集中剩余的Ν-ζ+1个样本类中分出来的二分类模型,其中ζ=1、2…N-I ;步骤503、二分类模型分类优先级别设定根据步骤502中所述二分类模型ζ自所述训练样本集中剩余的Ν-ζ+1个样本类中分出来的样本类的分类优先级别ζ,对二分类模型ζ的分类优先级别R进行设定,且R=Z ;步骤504、多次重复步骤501至步骤503,直至获得N_1个所述二分类模型的分类函数,便完成N-I个所述二分类模型的建立过程,获得建立完成的多分类模型;步骤六、多分类模型训练将步骤三中所述训练样本集中的I个训练样本输入到步骤五中所建立的多分类模型进行训练;步骤七、信号实时采集及同步分类采用所述状态信息检测单元对被检测对象的当前工作状态进行实时检测,且将所检测信号同步输入至步骤五中所建立的多分类模型中,并自动输出被检测对象当前工作状态的类别。上述一种基于二叉树支持向量机的分类方法,其特征是步骤三中获取训练样本的同时,还需分别在N组所述工作状态检测信息中随机抽取b个检测信号组成测试样本集;所述测试样本集中相应包括Q个测试样本,其中b ^ 2,Q=bXN ;0个所述测试样本分属于N种所述样本类;步骤六中对所建立的多分类模型进行训练后,还需输入Q个所述测试样本,对所建立多分类模型的分类正确率进行测试。上述一种基于二叉树支持向量机的分类方法,其特征是步骤一中N种所述不同工作状态为被检测对象发生故障时的多种不同故障状态或出现缺陷时的多种不同缺陷状态,且所述状态信息检测单元所检测信号为被检测对象发生故障时的故障信号或出现缺陷时的缺陷信号,步骤七中自动输出的被检测对象当前工作状态的类别为被检测对象当前发生的故障类别或当前出现的缺陷类别。上述一种基于二叉树支持向量机的分类方法,其特征是步骤五中N-I个所述分类模型均为模糊支持向量机模型,且步骤三中进行训练样本获取时,N种样本类中的每一个训练样本中均包括模糊隶属度Uks,其中Uks为Xks对其所属样本类k的模糊隶属度。上述一种基于二叉树支持向量机的分类方法,其特征是步骤五中对模糊隶属度 Uks进行确定时,采用模糊统计法、例证法、专家经验法、二元对比排序法或基于线性距离的隶属度函数进行确定。上述一种基于二叉树支持向量机的分类方法,其特征是步骤502中对惩罚参数C与所选用径向基函数的核参数进行确定时,所选用的径向基函数为RBF核函数,核参数为
RBF核函数中的核参数Y,其中f = ^ ;对惩罚参数C与核参数Y进行确定时,采用改进
2<J
的遗传算法对所选取的惩罚参数C与核参数Y进行优化,其优化过程如下步骤5021、种群初始化将惩罚参数C的一个取值与核参数Y的一个取值作为一个个体,并将多个个体集合为一个种群,同时所述种群中的所有个体均进行二进制编码后形成初始化种群;其中,惩罚参数C的一个取值和核参数Y的一个取值均为自区间(0,1000]中随机抽取的一个数值;步骤5022、初始化种群中各个体适应度值计算初始化种群中所有个体的适应度值计算方法均相同;初始化种群中多个所述个体,分别对应多个不同的分类模型ζ ;对于所述初始化种群中的任一个个体来说,采用步骤三中所述训练样本集中剩余的N-Z+1个样本类,对与该个体对应的分类模型ζ进行训练,且以该分类模型ζ的分类准确率作为该个体的适应度值;待所述初始化种群中所有个体的适应度值均计算出来后,再相应计算出所述初始化种群的种群平均适应度值;步骤5023、选择操作根据步骤5022中计算得出的所述初始化种群中所有个体的适应度值,选出所述初始化种群中适应度值高的多个个体作为子代群体;步骤5024、交叉操作与变异操作对选取的子代群体进行交叉操作与变异操作,获得新一代的子代群体;步骤5025、子代群体中各个体适应度值计算子代群体中所有个体的适应度值计算方法均相同;子代群体中多个所述个体,分别对应多个不同的分类模型ζ ;对于所述子代群体中的任一个个体来说,采用步骤三中所述训练样本集中剩余的N-Z+1个样本类,对与该个体对应的分类模型ζ进行训练,且以该分类模型ζ的分类准确率作为该个体的适应度值;待所述子代群体中所有个体的适应度值均计算出来后,再相应计算出所述子代群体的种群平均适应度值;步骤5026、选择操作根据步骤5025中计算得出的所述子代群体中所有个体的适应度值,选出所述子代群体中适应度值高的多个个体作为子代群体;步骤5027、判断是否满足终止条件当进化代数超过预先设定的最大进化代数itmax或者子代群体中个体的最大适应度值大于或等于预先设定的适应度设定值时,遗传算法终止并输出当前所获得所述子代群体中适应度值最高的个体;否则,返回步骤5024。上述一种基于二叉树支持向量机的分类方法,其特征是步骤5024中进行交叉操
作与变异操作时,按照交叉概率P。进行交叉操作,且按照变异概率Pm进行变异操作;其中,
P; — fP^~P-AXiter J'>fayg
权利要求
1.一种基于二叉树支持向量机的分类方法,其特征在于该方法包括以下步骤 步骤一、信号采集采用状态信息检测单元对被检测对象在N种不同工作状态时的工作状态信息分别进行实时检测,并将所检测信号同步传送至数据处理器(2),相应获得与N种不同工作状态相对应的N组工作状态检测信息,N组所述工作状态检测信息中均包括所述状态信息检测单元在不同采样时刻检测到的多个检测信号,其中N为正整数且N > 3 ; 步骤二、特征提取待数据处理器(2)接收到所述状态信息检测单元所传送的检测信号时,自各检测信号中分别提取出能代表并区别该检测信号的一组特征参数,且该组特征参数包括W个特征量,并对W个所述特征量进行编号,W个所述特征量组成一个特征向量,其中W彡2 ; 步骤三、训练样本获取分别在经特征提取后的N组所述工作状态检测信息中,随机抽取m个检测信号组成训练样本集; 所述训练样本集中相应包括I个训练样本,其中m > 2, l=mXN ;I个所述训练样本分属于N种样本类,每一个样本类中均包括被检测对象工作于同一个工作状态时的m个训练样本,N种样本类分别与被检测对象的N种不同工作状态相对应的样本类I、样本类2…样本类N ;N种样本类中的每一个训练样本均记作Xks,其中k为样本类的类别标号且k=l、2…N,s为各样本类中所包括m个训练样本的样本序号且s=l、2…m ;Xks为样本类k中第s个训练样本的特征向量,Xks e Rd,其中d为Xks的向量维数且d=W ; 步骤四、分类优先级别确定,其确定过程如下 步骤401、样本类的类中心计算采用数据处理器(2)对N种所述样本类中任一个样本类k的类中心进行计算; 且对样本类k的类中心进行计算时,根据公式(P) = (P) Zw,计算得出样本类k S=I中所有训练样本的各特征量均值;式中k=l、2-N,p=l、2-d,Xks(p)为样本类k中第s个训练样本的第P个特征量,Xi 为样本类k中所有训练样本的第P个特征量均值; 步骤402、类间距离计算采用数据处理器(2)且根据公式Jtt =I(IiIp)-(P))2,对Vp=1步骤201中所述任一个样本类k与N种所述样本类中任一个样本类h之间的间距分别进行计算,其中Xft 00为样本类k中所有训练样本的第P个特征量均值,Zft 00为样本类h中所有训练样本的第P个特征量均值,且h=l、2-N ; 步骤403、类间距之和计算采用数据处理器(2)且根据公式*二,对步骤 ^=I401中所述任一个样本类k的类间距之和; 步骤404、多次重复步骤401至步骤403,直至计算得出N种所述样本类中所有样本类的类间距之和; 步骤405、按照步骤404中计算得出的所有样本类的类间距之和由大到小的顺序,采用数据处理器(2)确定出N种所述样本类的分类优先级别Y,其中Y=l、2…N ;其中,类间距之和最大的样本类的分类优先级别最高且其分类级别为1,类间距之和最大的样本类的分类优先级别最低且其分类级别为N ;步骤五、多分类模型建立所建立的多分类模型包括N-I个二分类模型,且N-I个所述二分类模型均为支持向量机模型;N-1个所述二分类模型按照步骤405中所确定的分类优先级别,将N种所述样本类自所述训练样本集中由先至后逐类分出来,N-I个所述二分类模型的建立方法均相同且均采用数据处理器(2)进行建立; 对于N-I个所述二分类模型中的任一个二分类模型z来说,其建立过程如下 步骤501、核函数选取选用径向基函数作为二分类模型z的核函数; 步骤502、分类函数确定待惩罚参数C与步骤501中所选用径向基函数的核参数Y确定后,获得二分类模型z的分类函数,完成二分类模型z的建立过程;其中,O < C < 1000,O < Y ^ 1000 ; 所建立的二分类模型z为待分类优先级别高于z的所有样本类自所述训练样本集中分出来后,将分类优先级别为Z的样本类自所述训练样本集中剩余的N-Z+1个样本类中分出来的二分类模型,其中ζ=1、2···Ν-1 ; 步骤503、二分类模型分类优先级别设定根据步骤502中所述二分类模型ζ自所述训练样本集中剩余的Ν-ζ+1个样本类中分出来的样本类的分类优先级别ζ,对二分类模型ζ的分类优先级别R进行设定,且R=Z ; 步骤504、多次重复步骤501至步骤503,直至获得N-I个所述二分类模型的分类函数,便完成N-I个所述二分类模型的建立过程,获得建立完成的多分类模型; 步骤六、多分类模型训练将步骤三中所述训练样本集中的I个训练样本输入到步骤五中所建立的多分类模型进行训练; 步骤七、信号实时采集及同步分类采用所述状态信息检测单元对被检测对象的当前工作状态进行实时检测,且将所检测信号同步输入至步骤五中所建立的多分类模型中,并自动输出被检测对象当前工作状态的类别。
2.按照权利要求I所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤三中获取训练样本的同时,还需分别在N组所述工作状态检测信息中随机抽取b个检测信号组成测试样本集;所述测试样本集中相应包括Q个测试样本,其中b ^ 2,Q=bXN ;Q个所述测试样本分属于N种所述样本类;步骤六中对所建立的多分类模型进行训练后,还需输入Q个所述测试样本,对所建立多分类模型的分类正确率进行测试。
3.按照权利要求I或2所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤一中N种所述不同工作状态为被检测对象发生故障时的多种不同故障状态或出现缺陷时的多种不同缺陷状态,且所述状态信息检测单元所检测信号为被检测对象发生故障时的故障信号或出现缺陷时的缺陷信号,步骤七中自动输出的被检测对象当前工作状态的类别为被检测对象当前发生的故障类别或当前出现的缺陷类别。
4.按照权利要求I或2所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤五中N-I个所述分类模型均为模糊支持向量机模型,且步骤三中进行训练样本获取时,N种样本类中的每一个训练样本中均包括模糊隶属度yks,其中y ks为Xks对其所属样本类k的模糊隶属度。
5.按照权利要求2所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤五中对模糊隶属度μ ks进行确定时,采用模糊统计法、例证法、专家经验法、二元对比排序法或基于线性距离的隶属度函数进行确定。
6.按照权利要求I或2所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤502中对惩罚参数C与所选用径向基函数的核参数进行确定时,所选用的径向基函数为RBF核函数,核参数为RBF核函数中的核参数Y ,其中;Τ = ·^γ ;对惩罚参数C与核参数Y
7.按照权利要求6所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤5024中进行交叉操作与变异操作时,按照交叉概率P。进行交叉操作,且按照变异概率Pm进行变异操作;其中,
8.按照权利要求I或2所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤202中计算得出样本类k与N种所述样本类中任一个样本类h之间的间距dkh后,获得样本类k的类间距离数据;步骤204中多次重复步骤201至步骤203后,获得N种所述样本类的类间距离数据和类间距之和;随后,所述数据处理器(2)将N种所述样本类的类间距离数据组成一个类间距离对称矩阵Dkxk,且每一个所述样本类的类间距离数据位于类间距离对称矩阵Dkxk的同一行上;N种所述样本类的类间距之和分别为类间距离对称矩阵Dkxk中的各行数据之和,且类间距离对称矩阵Dkxk中的各行数据之和组成一个数组(Sumd (I),Sumd (2)…Sumd (N)); 步骤205中对N种所述样本类的分类优先级别Y进行确定时,其确定过程如下 步骤2051、初始参数设定对分类优先级别Y和样本总数η的初始值分别进行设定,其中分类优先级别Υ=0,样本总数η=Ν ; 步骤2052、比较数组(Sumd(l), Sumd(2) ··· Sumd(N))中当前所有数据的大小,从中选出最大值Sumd(L),其中L=l、2…N,并将样本类L的分类优先级别为Y+1,且此时Y=Y+1,η=Ν-1 ;同时,将类间距离对称矩阵Dkxk中的第L行数据全部置0,将数组(Sumd(I),Sumd (2)... Sumd (N))中的 Sumd (L)置 O ; 步骤2053、多次重复步骤2052,直至η=0为止。
9.按照权利要求I或2所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤502中对惩罚参数C与所选用径向基函数的核参数进行确定时,所选用的径向基函数为RBF核函数,核参数为RBF核函数中的核参数Y,其中 对惩罚参数C与核参数 Y进行确定时,采用网格搜索法进行确定,并利用步骤三中所述训练样本集中的I个训练样本,且采用K折交叉验证法对所建立的二分类模型Z进行验证。
10.按照权利要求7所述的一种基于二叉树支持向量机的分类方法,其特征在于步骤5024中进行交叉操作与变异操作时,交叉操作采用多点交叉,且变异操作采用实值变异;且进行交叉操作与变异操作时,还需对当前的进化代数iter进行统计;预先设定的最大交叉概率P ax=0. 6,预先设定的最小交叉概率Pcmin=O. 9,预先设定的最大变异概率p_x=0. 1,预先设定的最小变异概率Pnmin=O. 0001,预先设定的最大进化代数Umax=IOO ;步骤5021中进行种群初始化之前,将进化代数iter的初始值设定为I。
全文摘要
本发明公开了一种基于二叉树支持向量机的分类方法,包括步骤一、信号采集采用状态信息检测单元对被检测对象在N种不同工作状态时的工作状态信息分别进行检测,并将所检测信号同步传送至数据处理器,相应获得与N种不同工作状态相对应的N组工作状态检测信息;二、特征提取;三、训练样本获取分别在经特征提取后的N组工作状态检测信息中,随机抽取m个检测信号组成训练样本集;四、分类优先级别确定;五、多分类模型建立;六、多分类模型训练;七、信号实时采集及同步分类。本发明设计合理、操作简便、实现方便且使用效果好、实用价值高,不仅可以选出SVM分类器的最优参数,且能减少噪声和孤立点对分类的影响,提高了分类速度和精度。
文档编号G06K9/62GK102915447SQ201210352700
公开日2013年2月6日 申请日期2012年9月20日 优先权日2012年9月20日
发明者毛清华, 马宏伟, 张旭辉, 陈海瑜, 张大伟, 姜俊英 申请人:西安科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1