一种基于多核学习分类器融合的图像分类方法及装置与流程

文档序号:11952083阅读:359来源:国知局
一种基于多核学习分类器融合的图像分类方法及装置与流程
本发明涉及人工智能
技术领域
,具体涉及一种基于多核学习分类器融合的图像分类方法及装置。
背景技术
:图像处理在人们的日常生活中扮演着越来越重要的位置,其中图像分类在图像处理中有非常重要的应用。包括地形检测、人脸识别、肿瘤诊断以及互联网领域的图像检索等。支持向量机(SupportVectorMachine,SVM)是一种基于结构风险最小化原则(StructureRiskMinimization,SRM)的通用学习算法,它的基本思想是在样本输入空间或特征空间构造出一个最优超平面,使得超平面到两类样本集之间的距离达到最大,从而取得最好的泛化能力。他的解是全局最优的,不需要人工设计网络结构。对于非线性问题,SVM设法将它通过非线性变换(核函数)转化为另一空间中的线性问题,在这个变换空间来求解最优的线性分类面。而这种非线性变换可以通过定义适当的内积函数,即核函数实现。所谓核函数就是把特征从低维空间映射到高维空间,但是目前我们经常使用的SVM都是单核(singlekernel)的,在使用的时候,需要根据经验或试验来选择用哪种核函数、怎样指定它的参数,这样很不方便。另一方面,实际应用当中,特征往往不是单一性的,而是异构的。就图像分类来说,可能用到颜色相关的特征、纹理相关的特征、空间相关的特征,这几类特征对应的最佳的核函数未必相同,让他们共用同一个核函数,未必能得到最优的映射,也就是说无法得到较为准确的分类结果。技术实现要素:针对现有技术中的缺陷,本发明提供一种图像分类方法及装置,可以提高图像分类的准确度。第一方面,本发明提供了一种图像分类方法,包括以下步骤:S1、建立样本库,所述样本库中包括不同类型的样本;S2、对不同类型的样本分别进行特征提取,根据特征提取结果获取与不同类型样本分别对应的核函数;S3、将S2获取的核函数进行合成,建立多核模型;S4、运用所述多核模型训练得到多个分类器;S5、采用Adaboost算法对S4训练得到的多个分类器赋予不同的权重,以使多个分类器进行融合,得到目标分类器;S6、利用所述目标分类器对待分类的图像进行分类,获取分类结果。优选地,所述S3将S2获取的核函数进行合成,建立多核模型,包括:k(x,z)=Σj=1Mβjk^j(x,z),βj≥0,Σj=1Mβj=1]]>其中,k(x,z)为多核模型;为S2获取的核函数,x,z是训练数据,M是核函数总个数;βj,j=1,2,…,M为各个核函数的合成系数。优选地,所述各个核函数的合成系数βj为采用Nystrom逼近算法获取的合成系数。优选地,所述S5利用Adaboost算法对S4训练得到的多个分类器赋予不同的权重,以使多个分类器进行融合,得到目标分类器,包括:S51、选取n个学习样本(x1,y1),…,(xn,yn);S52、集成已有的样本提取方法对样本库进行若干个特征的提取;S53、用多核模型训练样本得到若干个特征对应的MKL弱分类器;S54、初始化所有训练样例的权重为1/N,其中N是样例数;S55、进行如下循环迭代,以更新权重;其中,循环迭代M次:a、训练弱分类器hm(),使其最小化权重误差函数:是第m次循环中第n个分类器的误差权重;b、计算该弱分类器的话语权α:αm=ln{1-ϵmϵm}]]>c、更新权重:ωm+1,i=ωm,iZmexp(-αmyihm(xi)),i=1,2,...N]]>其中,Zm是规范化因子,使所有ω的和为1;ωm+1,i是在m+1次循环中第i个分类器的权重误差;其中,S56、得到最后的二值分类器模型:YM(x)=sign(Σm=1Mαmhm(x))]]>所述二值分类器模型即为目标分类器;相应地,S6利用所述目标分类器对待分类的图像进行分类,获取分类结果包括:利用得到的二值分类器模型运用一对多法one-versus-rest扩展到解决多类问题;将某一个类别的样本记为一类,其余统一看成是另一类,得到与样本类型个数对应个数的二值分类器,然后将样本归类至测试输出值较大的一类,得到分类结果。第二方面,本发明还提供了一种图像分类装置,包括:建立单元,用于建立样本库,所述样本库中包括不同类型的样本;特征提取单元,用于对不同类型的样本分别进行特征提取,根据特征提取结果获取与不同类型样本分别对应的核函数;合成单元,用于将所述特征提取单元获取的核函数进行合成,建立多核模型;训练单元,用于运用所述多核模型训练得到多个分类器;融合单元,用于采用Adaboost算法对所述训练单元训练得到的多个分类器赋予不同的权重,以使多个分类器进行融合,得到目标分类器;分类单元,用于利用所述目标分类器对待分类的图像进行分类,获取分类结果。优选地,所述合成单元,具体用于将所述特征提取单元获取的核函数进行合成,建立下面的多核模型:k(x,z)=Σj=1Mβjk^j(x,z),βj≥0,Σj=1Mβj=1]]>其中,k(x,z)为多核模型;为S2获取的核函数,x,z是训练数据,M是核函数总个数;βj,j=1,2,…,M为各个核函数的合成系数。优选地,所述各个核函数的合成系数βj为采用Nystrom逼近算法获取的合成系数。优选地,所述融合单元,具体用于:选取n个学习样本(x1,y1),…,(xn,yn);集成已有的样本提取方法对样本库进行若干个特征的提取;用多核模型训练样本得到若干个特征对应的MKL弱分类器;初始化所有训练样例的权重为1/N,其中N是样例数;进行如下循环迭代,以更新权重;其中,循环迭代M次:a、训练弱分类器hm(),使其最小化权重误差函数:ϵm=Σn=1Nωn(m)|hm(xn)-yn|]]>ωn(m)是第m次循环中第n个分类器的误差权重;b、计算该弱分类器的话语权α:αm=ln{1-ϵmϵm}]]>c、更新权重:ωm+1,i=ωm,iZmexp(-αmyihm(xi)),i=1,2,...N]]>其中,Zm是规范化因子,使所有ω的和为1;ωm+1,i是在m+1次循环中第i个分类器的权重误差;其中,得到最后的二值分类器模型:YM(x)=sign(Σm=1Mαmhm(x))]]>所述二值分类器模型即为目标分类器;相应地,所述分类单元具体用于利用得到的二值分类器模型运用一对多法one-versus-rest扩展到解决多类问题;将某一个类别的样本记为一类,其余统一看成是另一类,得到与样本类型个数对应个数的二值分类器,然后将样本归类至测试输出值较大的一类,得到分类结果。由上述技术方案可知,本发明提供的基于MKL-MKB(多核学习-分类器融合)的图像分类方法,将图像异构特征综合运用,最大程度上表征图像;在核空间运用合成的多核模型进行分类器的构造,使算法更具有普遍适用性,由于融合了各核函数,因此可以照顾到异构的特征,使得分类效果有大大提升。此外,将利用多核模型训练得到的各个分类器通过Adaboost算法,调节各分类器的权重比例,将弱分类器话语权削弱,强分类器权重提升,从而进一步提高了图像分类的准确度。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例一提供的基于多核学习分类器融合的图像分类方法的流程图;图2为基于本发明实施例一提供的基于多核学习分类器融合的图像分类方法的MKL-MKB的图像分类系统示意图;图3为基于本发明实施例一提供的基于多核学习分类器融合的图像分类方法的图像分类算法流程图;图4为步骤105的算法流程图;图5是本发明实施例二提供的基于多核学习分类器融合的图像分类装置的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为了解决
背景技术
提到的技术问题,本发明提供了一种基于多核学习分类器融合MKL-MKB的图像分类方法,该方法可以提高图像分类的准确度。图1示出了本发明实施例一提供的基于多核学习分类器融合的图像分类方法的流程图,参见图1,所述方法包括如下步骤:步骤101:建立样本库,所述样本库中包括不同类型的样本。在本步骤中,根据样本建立样本库,将样本根据其不同种类,并对每一类进行标号。步骤102:对不同类型的样本分别进行特征提取,根据特征提取结果获取与不同类型样本分别对应的核函数。在本步骤中,对样本库中每一类样本进行特征提取,如小波颜色特征、Gabor、GLCM纹理特征等。用这些具有代表性的特征表达图像。例如,对于遥感地形图像来说,对建立的样本库中的不同类型的样本分别进行特征提取,特征提取的结果分别为小波颜色特征、Gabor特征以及GLCM特征。那么根据特征提取的结果分别获取与小波颜色特征对应的多项式核函数,与Gabor特征对应的径向基函数,与GLCM特征对应的S形函数。其中,多项式核函数为:Κ(x,z)=[xΤz+1]q;径向基函数为:K(x,z)=exp(-|x-z|2σ2);]]>S形函数为:Κ(x,z)=tanh(v(xΤz)+c);其中x,z是训练数据;σ,q是常数;v是一个量标;c为位移参数。下面采用对上述线性组合合成核进行描述。假定k(x,z)是已知核函数,是他的归一化形式。其中,k^(x,z)=k(x,z)k(x,z).]]>步骤103:将102获取的核函数进行合成,建立多核模型。在本步骤中,用不同特征对应的核函数在核空间上进行核合成。求取每个核函数的权重βj,用它们的线性组合表述核函数。具体地,将102获取的核函数进行合成,建立多核模型,包括:k(x,z)=Σj=1Mβjk^j(x,z),βj≥0,Σj=1Mβj=1]]>其中,k(x,z)为多核模型;为S2获取的核函数,x,z是训练数据,M是核函数总个数;βj,j=1,2,…,M为各个核函数的合成系数。针对现存多和学习分类器效率问题,本步骤将Nystrom逼近算法引入多个核函数融合的过程中去,以此来达到提高效率的目的。这个思路的核心就是将核组合系数的确定过程与分类器自身的算法框架分隔开,这样,先通过Nystrom逼近算法确定核组合系数,再将组合后的最终核矩阵参与到分类器框架中去,有效的降低了空间的浪费,并且Nystrom逼近算法的特有性质也使最终的计算复杂度大大下降。Nystrom逼近是目前最流行的“低秩矩阵逼近”算法之一。它随机的从矩阵K中选择m(m<=n)列,然后使用这m列和对应的行构造两个矩阵:W∈Rm×m和C∈Rn×m。通过重新排列矩阵的行列,可以得到:C=WSK=WSTST]]>接下来,对矩阵W进行奇异值分解(SingularValueDecomposition,SVD)得到W=UΛUT,其中U是由W的特征向量组成的正交矩阵,而Λ=(s1,…,sm)是由W的奇异值组成的对角矩阵。那么,矩阵K的k-秩(k≤rank(W))。Nystrom逼近矩阵可以定义为:K~=CWk+CT]]>其中,称为矩阵W的k-秩伪逆,k(k≤rank(W))是一个随机选定的表示矩阵Wk+的秩的值,si是第i个奇异值,U(i)是矩阵U的第i列。对上述建立多核模型的过程来说,可以这样理解,简单地说,给定一些基础核函数,比如linear核,Polynomial核,RBF核,Sigmoid核等等,对于每一个,可以指定多组参数,也就是一共有M个基础核函数,想用它们的线性组合来作为最终的核函数。通过训练,得到这个线性组合中每个核的权重βj(weight)。由于融合了各核函数,可以照顾到异构的特征;由于自动学习权重,不需要考虑用哪一个核和哪一种参数,组合使用可能的核、参数。如前所述,本实施例采用小波、Gabor以及GLCM等来表达特征。多核模型最终需要通过计算多个核矩阵线性组合时的组合,而传统的多核学习分类器则是将这一个问题与相应的分类算法融合为一个优化问题求解。但这个转化为优化问题的过程中需要非常复杂的推导,另外,由于确定核组合系数的过程融入了最后的优化问题,多个核矩阵需要同时储存在内存中,从头到尾参与运算,这在一定程度上造成了空间的浪费。综上可知,本步骤利用Nystrom逼近算法将计算核组合系数的过程与分类器自身的算法分离开,提高计算机空间利用率的同时也降低了计算的复杂度。步骤104:运用所述多核模型训练得到多个分类器。步骤105:采用Adaboost算法对步骤104训练得到的多个分类器赋予不同的权重,以使多个分类器进行融合,得到目标分类器。在本步骤中,采用Adaboost算法将多核模型在决策层进行融合,有效提高分类器精度。具体地,利用Adaboost算法对步骤104训练得到的多个分类器赋予不同的权重,以使多个分类器进行融合,得到目标分类器,参见图4,包括:S51、选取n个学习样本(x1,y1),…,(xn,yn);S52、集成已有的样本提取方法对样本库进行若干个特征的提取;S53、用多核模型训练样本得到若干个特征对应的MKL弱分类器;S54、初始化所有训练样例的权重为1/N,其中N是样例数;S55、进行如下循环迭代,以更新权重;其中,循环迭代M次:a、训练弱分类器hm(),使其最小化权重误差函数:是第m次循环中第n个分类器的误差权重;b、计算该弱分类器的话语权α:αm=ln{1-ϵmϵm}]]>c、更新权重:ωm+1,i=ωm,iZmexp(-αmyihm(xi)),i=1,2,...N]]>其中,Zm是规范化因子,使所有ω的和为1;ωm+1,i是在m+1次循环中第i个分类器的权重误差;其中,S56、得到最后的二值分类器模型:YM(x)=sign(Σm=1Mαmhm(x))]]>所述二值分类器模型即为目标分类器;相应地,步骤106利用所述目标分类器对待分类的图像进行分类,获取分类结果包括:利用得到的二值分类器模型运用一对多法one-versus-rest扩展到解决多类问题;将某一个类别的样本记为一类,其余统一看成是另一类,得到与样本类型个数对应个数的二值分类器,然后将样本归类至测试输出值较大的一类,得到分类结果。例如,对于图2来说,包括6种样本,这6个类别就产生了6个二值分类器,最后将样本归类到测试输出值较大的那类。步骤106:利用所述目标分类器对待分类的图像进行分类,获取分类结果。本实施例提供的基于MKL-MKB(多核学习-分类器融合)的图像分类方法,将图像异构特征综合运用,最大程度上表征图像;在核空间运用合成的多核模型进行分类器的构造,使算法更具有普遍适用性,由于融合了各核函数,因此可以照顾到异构的特征,使得分类效果有大大提升。此外,将利用多核模型训练得到的各个分类器通过Adaboost算法,调节各分类器的权重比例,将弱分类器话语权削弱,强分类器权重提升,从而进一步提高了图像分类的准确度。下面结合附图对实施例一提供的基于MKL-MKB(多核学习-分类器融合)图像分类方法进行详细说明。下面以对遥感图像分类为例进行说明。针对遥感地形图像特点,结合小波、Gabor以及GLCM等特征的提取,现提出一种基于MKL-MKB(多核学习-分类器融合)图像分类系统,示意图如图2。首先根据待分类样本建立一系列样本库,每一类分为测试集与训练集,并对它们进行特征提取。对于每个特征选取一个核函数进行SVM分类器分类,得出分类结果。然后将每个SVM分类器进行多核化处理得到一组新的分类器SVM*。最后,将这些新的分类器进行决策层融合,通过重新分配之前每一个分类器的权重得到一个强分类器,完成对图像的分类。算法流程图如图3。下面结合实验结果分析一下本发明提供的图像分类方法的效果。本发明所用样本集包含4435个训练样本以及2000个测试样本。样本集共分为六类,特征维数是36维。实验结果如下表1所示:表1算法对比实验结果从实验结果中可以看出,本发明所提出的MKL-MKB算法对图像分类精度跟其他方法相比有很大的提高,分类效果明显增强。为证实本发明提供的图像分类方法具有普遍适用性,本发明使用五个UCI数据集来检验算法的图像分类性能。数据集信息如下表2所示:表2UCI数据集信息测试训练按1:4比例分配,为避免偶然性,每个数据集进行10次实验,结果统计参见下表3。表3UCI数据集实验结果可以看出本算法在以上几个样本中也取得了比较好的效果,证实了本发明所提出算法的适用性。综上可知,本发明提供的图像分类方法的优点在于:(1)本发明提出一种基于MKL-MKB(多核学习-分类器融合)图像分类算法,将图像异构特征综合运用,最大程度上表征图像;(2)本发明在该算法中,在核空间运用合成核进行分类器的构造,使算法更具有普遍适用性;(3)本发明在该算法中,利用Nystrom逼近算法将计算核组合系数的过程与分类器自身的算法分离开,提高计算机空间利用率的同时也降低了计算的复杂度;(4)本发明在该算法中,用Adaboost算法将多核模型在决策层进行融合,有效提高分类器精度。本发明实施例二提供了一种基于多核学习分类器融合的图像分类装置,参见图5,该装置包括:建立单元51、特征提取单元52、合成单元53、训练单元54、融合单元55和分类单元56;建立单元51,用于建立样本库,所述样本库中包括不同类型的样本;特征提取单元52,用于对不同类型的样本分别进行特征提取,根据特征提取结果获取与不同类型样本分别对应的核函数;合成单元53,用于将所述特征提取单元获取的核函数进行合成,建立多核模型;训练单元54,用于运用所述多核模型训练得到多个分类器;融合单元55,用于采用Adaboost算法对所述训练单元训练得到的多个分类器赋予不同的权重,以使多个分类器进行融合,得到目标分类器;分类单元56,用于利用所述目标分类器对待分类的图像进行分类,获取分类结果。优选地,所述合成单元,具体用于将所述特征提取单元获取的核函数进行合成,建立下面的多核模型:k(x,z)=Σj=1Mβjk^j(x,z),βj≥0,Σj=1Mβj=1]]>其中,k(x,z)为多核模型;为S2获取的核函数,x,z是训练数据,M是核函数总个数;βj,j=1,2,…,M为各个核函数的合成系数。优选地,所述各个核函数的合成系数βj为采用Nystrom逼近算法获取的合成系数。优选地,所述融合单元55,具体用于:选取n个学习样本(x1,y1),…,(xn,yn);集成已有的样本提取方法对样本库进行若干个特征的提取;用多核模型训练样本得到若干个特征对应的MKL弱分类器;初始化所有训练样例的权重为1/N,其中N是样例数;进行如下循环迭代,以更新权重;其中,循环迭代M次:a、训练弱分类器hm(),使其最小化权重误差函数:是第m次循环中第n个分类器的误差权重;b、计算该弱分类器的话语权α:αm=ln{1-ϵmϵm}]]>c、更新权重:ωm+1,i=ωm,iZmexp(-αmyihm(xi)),i=1,2,...N]]>其中,Zm是规范化因子,使所有ω的和为1;ωm+1,i是在m+1次循环中第i个分类器的权重误差;其中,得到最后的二值分类器模型:YM(x)=sign(Σm=1Mαmhm(x))]]>所述二值分类器模型即为目标分类器;相应地,所述分类单元56具体用于利用得到的二值分类器模型运用一对多法one-versus-rest扩展到解决多类问题;将某一个类别的样本记为一类,其余统一看成是另一类,得到与样本类型个数对应个数的二值分类器,然后将样本归类至测试输出值较大的一类,得到分类结果。本实施例提供的图像分类装置,可以用于执行上述实施例所述的图像分类方法,其原理和技术效果类似,此处不再赘述。在本发明的描述中,需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1