利用全局互信息加权的支持向量机分类器的制作方法

文档序号:6483494阅读:490来源:国知局

专利名称::利用全局互信息加权的支持向量机分类器的制作方法
技术领域
:本发明涉及模式识别及分类
技术领域
的方法,具体涉及一种加权型支持向量机分类器及由其所组成的多分类器。(二)
背景技术
:支持向量机(SVM)的形成时期在1992-1995年,由Vapnik首先提出,它以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。由于SVM的求解最后转化成二次规划问题的求解,因此SVM的解是全局唯一的最优解。SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。概括的说,SVM就是首先通过用内积函数定义的非线性变换将输入空间变换到一个高维空间,在这个高维空间中求最优分类面。根据泛函的有关理论,只要一种核函数K(x,x')满足Mercer条件,它就对应某一变换空间中的内积,因此,在最优分类面中采用适当的内积函数就可以实现某一非线性变换后的线性分类,而计算复杂度却不会增加。用不同核函数《(x,x')可以构造实现输入空间中不同类型的非线性决策面的学习机,从而导致不同的支持向量算法。SVM的各输入向量,无论是用于训练还是用于分类,都具有同等的维数。在实际应用中,同维的数据往往具有相同的采样条件(如同一时刻采集或同一传感器采集等),因而各向量的同维数据所构成的集合往往具有不同于其它维的特性,然而现有的支持向量机分类器并没有考虑输入向量各维数之间的内在联系,因而在分类性能上留下了较大上升空间。(三)
发明内容本发明的目的在于提供一种利用全局互信息来定量分析同维数据的重要信息含量,有效地挖掘潜在信息,不仅可以作为后续分类算法中加权系数,也可用于各维数据质量评价或分析的利用全局互信息加权的支持向量机分类器。本发明的目的是这样实现的通过三个步骤实现一种利用全局互信息加权的支持向量机分类器,其流程图见图l,具体歩骤如下步骤一利用全局互信息度量同维数据的重要信息含量实际物理系统中的很多用于SVM的输入向量,其同维数据在物理采集的过程中往往具有相同或相近的采样条件,因而不同维数据对于分类而言具有不同的重要性。为了挖掘这种潜在的重要信息含量并对其进行度量,采取一种基于全局互信息的算法,通过同维数据与其余所有同维数据之间的互信息和来定量描述该重要信息。令x,x;'),L,x^),1S"似,为SVM的M个输入向量,则其可以组合成7V个同维数据的向量X,(x,w,x尸,L,x,(M)),B"iV。互信息是信息论中用来度量两随机变量之间统计相关性的基本概念。对于X,和X,其边缘概率分布分别为j^,(x,)和;^(x》,联合概率分布为ft^O,,x》,则X,和X^的互信息M/(X,,X》被定义为<formula>formulaseeoriginaldocumentpage6</formula>由于7V个同维数据向量的数据等同于M个输入向量的数据内容,因此可以通过下式定量分析同维数据向量x,所含的重要信息量系数《<formula>formulaseeoriginaldocumentpage6</formula>本歩骤完成内容为计算重要信息量系数5,,1SKW。同维数据之问由于采样条件的相同或相似,往往潜在含有不同于其它维数数据的关联信息。但这种特性是普遍润含的,因此,即使同维数据的采样条件并不相同或相似,也可以利用该歩骤挖掘出重要信息量指数,并同样对分类过程具有有益的指导作用,此种情况亦属于本发明的保护之列。步骤二利用加权型支持向量机融合同维数据的重要信息含量,完成加权型支持向量机的训练及测试样本的类别判定任务对于重要信息量系数^较大的同维数据,在分类中应该发挥更为重要的作用,进而可以提高分类精度。为了实现这一点,需要将重要信息含量系数融合于SVM的具体算法,可以采用加权型核函数来实现这一要求。常用的核函数有线性核函数K^(x,x')、多项式核函数《,,一(x,x')、径向基核函数^^(x,x')和Sigmoid核函数K^(x,x'),其相应的计算公式分别如下<formula>formulaseeoriginaldocumentpage6</formula>A:s,g(x,x')=tanh(x、'+,)(6)对满足Mercer条件的核函数K(x,x'),令/(x)=Sx,其中SeR歸,xeR嵐。则尺(x,x')是半正定的。进一步还注意到/(x)eRWx1,因此《(/(x),/(x'))也是半正定的。所以K(/(x),/(x'))也满足Mercer条件。将步骤一所得重要信息量系数《组合为对角矩阵S:S=,&,L,^)(7)则可得到加权型核函数K(Sx,Sx〕《(Sx,Sx')=AT(Wag",&,L,~)x,血g(^,&,L,^)x')(8)该核函数利用歩骤一中得到的重要信息量系数^对同维数据进行加权,可以实现有所侧重的精细分类,由其所构成的加权型SVM实现了在分类中融合同维数据重要信息含量的目的。令a:(",,^,L,)为拉格朗闩乘子,乂e(-l,I)为分类目标,则加权型SVM分类器/(X)可表示为/(x)=sgn(》',cr,攀,,Sx)+6)(9)有时会遇到两种类别评分相同的情况,此时可以将样本归入先验概率较高的类别。本歩骤完成内容为首先,利用i:(Sx,Sx')所构造的加权型SVM对训练样本中的输入数据及对应分类目标进行训练,得到支持向量及拉格朗H乘子;然后,输入测试样本中的输入数据,得到其对应的分类结果。如果分类任务需要构建多个加权型SVM,则本歩骤需要执行多次,且每次对应的训练与测试样本均不同。步骤三构建分类器,并对测试样本的最终类别作出决策如果分类任务仅为二分类性质,则只需利用一个步骤二所得到的加权型SVM即可,且分类结果直接标示出输入向量的类别归属,无需再做决策。因此对于二分类情况,歩骤三省略。如果分类任务为多分类性质,由于SVM的本质二分性,则需要利用多个加权型SVM结合一定的策略构建多分类器,常用的策略有"决策树"型,"一对多"型及"一对一"型。而加权型SVM无论使用了多少个,所使用的重要信息量系数均保持一致,即步骤一只需计算一次即可。但步骤二由于涉及多个二分类子任务,需要计算多次,并在本步骤中进行最终的决策确定输入向量的类别归属。对于"决策树"型策略,只要完成所有分割面的二分类任务,即可得到最终的类别归属,因此基于此种策略的加权型SVM多分类器,不需要再做类别归属的决策。对于"一对多"型策略,每个SVM都要解决某一类对其余所有类的两分类问题,最后通过比较分类函数值的大小确定最终类别。对于『类的多分类任务,需要构造『个分类器厶(x),1^/^『,分别处理类别/z和其余所有类别之间的分类任务。为了完成该任务,步骤二需要执行『次。决策采用"赢家通吃"的原则,即最终判定类别r为=argmax{/(x)}(10)'=1,对于"一对一"型策略,任意两类都需要构造一个加权型SVM来处理。对于『类的多分类任务,需要构造『(『-1)/2个分类器厶00,分别处理类别/7和类别A之间的分类任务。为了完成该任务,步骤二需要执行『(『-1)/2次。在决策之前,需要计算每一类别的评分函数《(x),该函数统计了各子分类器的TH负得分。评分函数f(x)可表示为《(x)=f/7(X)(11)风/到"一对一"型策略的决策也采用"贏家通吃"的原则,并根据下式求出最终类别r:/*二argmax{/^(x)}(12)/=.,1V针对现有支持向量机分类器无法考虑输入向量各维数之间的内在联系(当输入向量的同维数据在物理采集的过程中满足相同的采样条件时,这种联系显得尤为密切)的缺陷,本发明提出了一种利用全局互信息加权的支持向量机分类器,使得位置处在重要维的数据能够在分类中发挥更为显著的作用,从而提高分类精度。本发明的有益效果在于传统SVM分类器将输入向量的各维数据一致对待,没有考虑到同维数据所含重要信息的差异。当同维数据来源于同一传感器或同一时刻时,这种差异尤为明显。本发明利用全局互信息来定量分析同维数据的重要信息含量,有效地挖掘出这种潜在的信息。这种度量方法不仅可以作为后续分类算法中加权系数,也可用于各维数据质量的评价或分析。全局互信息的算法无需任何先验知识,可以实现系数的实时求取,此外,即使对于多个SVM二分类器,该系数也只需计算一次。本发明通过加权型SVM将同维数据的重要信息量系数融合于核函数之中,使得处在重要信息多的维数的数据能够在分类中发挥更为显著地作用,从而提高分类精度。而且整个运算过程中无需对训练和测试样本中的数据做任何格式转换,使得算法易于实施。图1为本发明的流程图2为"一对一"型多分类策略下加权SVM的分类流程图;图3为具体实施方式中220个同维数据的重要信息系数曲线。具体实施例方式下面结合高光谱图像分类的实施例对本发明作进一歩的说明图l中101为步骤一的流程图;102为步骤二的流程图;103为步骤三的流程图。输入向量来自于AVIRIS(AirbomeVisible/InfraredImagingSpectrometer)传感器所采集的92AV3C数据集合。该传感器将分光与成像技术相结合,以优于20X20n^的分辨率对地面像素点进行可见光到红外线范围内的光谱反射信息采集,分光能力为10nm左右。92AV3C数据集合采集是一个丌放性的数据源,从400nm到2500nm,包含220个波段(另有4个波段全为O值而被丢弃),图像大小为145X145,并附带通过实地测量所标定的各像素类别参考图,即地物真实参考图。由于同一波段的图像来源于相同波长的光波分光结果,因此他们具有内在的关联信息,整体表现出不同于其他波段图像的信息含量。由于部分地面区域难以归类,所以也不是所有像素都有确定属性,在排除了没有被标定的像素以后,所有16种地物所对应的像素被用來生成一个含有50%像素点的训练样本以及一个同样含有50%像素点的测试样本。训练和测试样本中各类地物的具体像素数目见表1。表1训练和测试样本中各类地物的贝体像素数H<table>tableseeoriginaldocumentpage9</column></row><table>对该16类地物的分类任务,选取"一对一"型多分类策略(分类流程图见图2),具体执行歩骤如下执行步骤一输入向量x,:(x^,x^,L,xg。)为220维高光谱数据向量,代表高光谱图像中某一点的各波段数据,共可分成220个同维数据向量。考虑到同维数据向量X,和^为两幅图像数据,其边缘分布可通过统计每个像素的数值出现在图像中的次数除以总的像素数目来得到。因此对边缘概率分布j^,(x,),i^(^)以及联合概率分布/^,》(x,,x》的估计可通过归一化的边缘直方图以及两幅图像的联合直方图来获得。接着,利用式(1)和式(2),可计算出220个同维数据的重要信息系数A,1^/^220,具体系数值参看图3。执行步骤二基本核函数选取径向基核函数《;^(x,x'),对其进行加权处理后得到加权型径向基核函数《朋f(Sx,Sx'):<formula>formulaseeoriginaldocumentpage10</formula>经过筛选择优后,惩罚因子C取60,参数(j取0.4。由i^^(Sx,Sx')所构成的加权型SVM分类器/(x)为<formula>formulaseeoriginaldocumentpage10</formula>本实施例采用"一对一"型策略构建16类地物分类器,需要16x(16-1)/2=120个加权型SVM,分别处理其中两类地物的鉴别任务。因此,本歩骤需要执行120次。执行歩骤三由于采用的是"一对一"型策略,在决策之前,需要利用式(ll)计算每一类别的评分函数巧(x),1"S16。最后利用式(12)确定测试样本中各输入像素的类别归属。本实施例结论山于测试样本也拥有实地测量的类别属性,因此可据此对歩骤三所得分类结果的精度进行评判。为了比较本发明方法的有效性,采用基于径向基核函数的标准SVM对同样的数据进行训练和分类,并亦计算其分类精度。表2为两种方法所得各类地物的分类精度及平均分类精度。表2两种方法所得各类地物的分类精度及平均分类精度<table>tableseeoriginaldocumentpage10</column></row><table>从表2中实验结果的对比可以看出利用全局互信息加权的支持向量机分类器具有更高的平均分类精度,升幅达到1.63%。具体16类地物的分类精度中有12类得到提高,3类维持不变,仅l类有所下降。权利要求1、一种利用全局互信息加权的支持向量机分类器,其特征在于它包括如下步骤步骤一利用全局互信息度量同维数据的重要信息含量;步骤二利用加权型支持向量机融合同维数据的重要信息含量,完成加权型支持向量机的训练及测试样本的类别判定任务;步骤三构建分类器,并对测试样本的最终类别作出决策。2、根据权利要求1所述的利用全局互信息加权的支持向量机分类器,其特征在于所述的步骤一为令x,-(x,"),^'),!^,x力)),K,、似,为SVM的M个输入向量,则其可以组合成iV个同维数据的向量X,(x^,x,②,L,x,(M)),B"7V;互信息是信息论中用来度量两随机变量之间统计相关性的基本概念,对于X,和X"首先计算其边缘概率分布;^,(x,)和;^(x》,以及联合概率分布Px,》",、),进而可求出二者之间的互信息iW/(X,,X》由于iV个同维数据向量的数据等同于M个输入向量的数据内容,因此可以通过下式定量分析同维数据向量X,所含的重要信息量^:<formula>formulaseeoriginaldocumentpage2</formula>本步骤完成内容为计算重要信息量系数S,,lS^iV。3、根据权利要求2所述的利用全局互信息加权的支持向量机分类器,其特征在于所述的步骤二为首先,利用i:(Sx,Sx')所构造的加权型SVM对训练样本中的输入数据及对应分类目标进行训练,得到支持向量及拉格朗日乘子;然后,输入测试样本中的输入数据,得到其对应的分类结果,如果分类任务需要构建多个加权型SVM,则本步骤需要执行多次,且每次对应的训练与测试样本均不同。4、根据权利要求3所述的利用全局互信息加权的支持向量机分类器,其特征在于所述的步骤二为实施分类时所选择的加权型核函数可以藉由任何一种满足Mercer条件的核函数《(x,x')演变而来,而不仅限于从线性核函数、多项式核函数、径向基核函数和Sigmoid核函数加权得到,其特征是具有《(tfcg(^,A,L,^)x,cftag(X,&,L,^)x')的形式,其中重要信息量系数a,lSKiV,通过步骤一计算得到;采用加权型核函数将重要信息含量系数融合于SVM,常用的核函数有线性核函数A,(x,x')、多项式核函数《一(x,x')、径向基核函数i:,(x,x')和Sigmoid核函数i^O,x'),其相应的计算公式分别如下-<formula>formulaseeoriginaldocumentpage3</formula>对满足Mercer条件的核函数兀(x,x'),令/(x)=Sx,其中SeR7^,xeRWxl。则《(x,x')是半正定的,/(x)eR洞,K(/(x),/(x'))也是半正定的,《(/(x),/(x'))也满足Mercer条件,将步骤一所得重要信息量系数A组合为对角矩阵S:<formula>formulaseeoriginaldocumentpage3</formula>则可得到加权型核函数《(Sx,Sx'):<formula>formulaseeoriginaldocumentpage3</formula>该核函数利用步骤一中得到的重要信息量系数^对同维数据进行加权,实现有所侧重的精细分类,由其所构成的加权型SVM实现了在分类中融合同维数据重要信息含量的目的,令o^(^^,L,)为拉格朗日乘子,y,e(-l力为分类目标,则加权型SVM分类器/(x)可表示为<formula>formulaseeoriginaldocumentpage3</formula>利用该加权型SVM分类器可完成任意两种类别之间的分类任务。5、根据权利要求4所述的利用全局互信息加权的支持向量机分类器,其特征在于所述的步骤三为如果分类任务仅为二分类性质,则只需利用一个步骤二所得到的加权型SVM即可,且分类结果直接标示出输入向量的类别归属,无需再做决策。6、根据权利要求5所述的利用全局互信息加权的支持向量机分类器,其特征在于所述的步骤三为如果分类任务为多分类性质,由于SVM的本质二分性,则需要利用多个加权型SVM结合一定的策略构建多分类器,策略包括"决策树"型、"一对多"型及"一对一"型,无论基于何种策略,完成分类任务的核心工作都是由各加权型SVM所完成,只是在最终判定测试向量的类别归属时需要综合各加权型SVM的分类结果;加权型SVM无论使用了多少个,所使用的重要信息量系数均保持一致,即步骤一只需计算一次即可;而步骤二由于涉及多个二分类子任务,需要计算多次,并在本步骤中进行最终的决策确定输入向量的类别归属;对于"决策树"型策略,只要完成所有分割面的二分类任务,即可得到最终的类别归属,因此基于此种策略的加权型SVM多分类器,不需要再做类别归属的决策;对于"一对多"型策略,每个SVM都要解决某一类对其余所有类的两分类问题,最后通过比较分类函数值的大小确定最终类别,对于『类的多分类任务,需要构造『个分类器厶(x),1《/《『,分别处理类别/;和其余所有类别之间的分类任务,为了完成该任务,步骤二需要执行『次,决策采用"赢家通吃"的原则,即最终判定类别/'为<formula>formulaseeoriginaldocumentpage4</formula>对于"一对一"型策略,任意两类都需要构造一个加权型SVM来处理,对于『类的多分类任务,需要构造『(『-1)/2个分类器厶(x),分别处理类别/7和类别A之间的分类任务。为了完成该任务,步骤二需要执行『(『-l)/2次,在决策之前,需要计算每一类别的评分函数《(x),该函数统计了各子分类器的正负得分,"一对一"型策略的决策也采用"赢家通吃"的原则,评分函数《(x)和最终判定类别/'可分别表示为<formula>formulaseeoriginaldocumentpage4</formula>全文摘要本发明提供了一种利用全局互信息加权的支持向量机分类器,本发明的步骤为一、利用全局互信息度量同维数据的重要信息含量;二、利用加权型支持向量机融合同维数据的重要信息含量,完成加权型支持向量机的训练及测试样本的类别判定任务;三、构建分类器,并对测试样本的最终类别作出决策。本发明利用全局互信息定量分析各维数据的重要信息量指数,并作为系数加权于SVM的核函数之中,使得处于重要性较强维的数据在分类中发挥更加重要的作用,从而提高分类精度。本发明充分挖掘输入向量同维数据之间隐含的关联信息并据此来指导SVM的分类过程,进而获得分类精度上的提升。文档编号G06K9/62GK101599126SQ20091007185公开日2009年12月9日申请日期2009年4月22日优先权日2009年4月22日发明者淼张,毅沈,强王申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1