一种基于局部典型相关分析的分类器集成车牌识别方法与流程

文档序号:12471249阅读:230来源:国知局
本发明涉及模式识别、集成学习、计算机视觉领域,尤其是基于多媒体应用技术方向的图像处理技术,具体是一种基于局部典型相关分析的分类器集成车牌识别方法。
背景技术
:车牌识别技术在智能交通领域能够有效加强有关部门对道路交通的监管,大大降低人力物力资源的使用,是现代智慧城市发展的重要组成部分。现阶段主要的车牌识别技术,如:基于支持向量机(SVM)的车牌识别方法,基于稀疏表示(SRC)的车牌识别方法以及基于模糊分类的车牌识别方法等。上述车牌识别方法,并不能充分依据不同样本特征而发挥分类器的最大效用。传统的车牌识别方法往往会因为单分类器的分类结果过于集中化、单一化的特点而发生分类结果具有偶然性。同时单分类器的训练会过度依赖训练样本集本身。当训练样本不足,或者是训练样本过于复杂的情况下,训练得到的分类器模型并不能满足正常道路交通车牌的识别与检测。综上,在上述技术发展的基础上引进了分类器集成的概念,由多个相对独立的分类器共同决定待测样本的类别,从而提高车牌的检测率。现今,分类器集成的方案例如,基于Adaboost(adaptiveboosting)的分类集成方法,基于Bagging(Bootstrapaggregating)的分类器集成方法等。AdaBoost方法,是基于弱分思想的分类器优化方法。该方法能够将训练得到的分类器利用其检测错误分类再学习的原理,优化传统分类器分类效果。Bagging是一种基于投票选择思想的算法。其优点在于可以对任何分类器进行泛化融合,对分类器的界定没有特殊的要求,对于类似神经网络的学习算法,Bagging能够并行训练多组分类器,可以极大的缩短算法的时间开销,其分类结果由多数投票决定。可以看出以上分类器集成方法并没有兼顾局部样本特征与整体分类器分类结果之间的联系,平衡局部样本特征在样本分类时的权重。从而会因为整体分类效果过度依赖训练样本集,训练分类效果较差的弱分类器。例如,AdaBoost算法容易发生过度训练的情况,并不能平衡整体训练样本与分类器之间的联系,随着训练迭代次数的增加其准确率反而会下降。而Bagging方法由于其训练的分类器对训练样本的过度依赖,在面对小样本问题时,特别是类别复杂繁多的训练样本的情况下,其分类效果反而差强人意,并不能兼顾局部样本与整体弱分类器在分类时起到的作用。应对上述问题,本发明提出一种基于局部典型相关分析的分类器集成车牌识别方法。本发明应用典型相关分析的思想寻找特征与分类结果,这两组变量的相关关系,进而确定各个单分类器的置信度,从而给每个单分类器分配权重。并且为了平衡局部样本与整体分类结果之间的关系利用类KNN的方法,寻找出待测样本的K个近邻,从而能够利用这K个近邻分析局部样本特征与分类结果的联系,同时能够自适性的动态调整分类器的权重。实验证明本发明能够有效的提高车牌识别的准确率,且应对不同样本集具有较高的鲁棒性。技术实现要素:本发明的目的在于为了发挥每个单分类器在应对不同样本集时的最大效用,提供一种基于局部典型相关分析的分类器集成车牌识别方法。进一步研究局部样本特征与分类器分类结果之间的联系,从而有效提高车牌识别准确率和动态规划性。为了解决上述技术问题,本发明采用的具体技术方案如下:一种基于局部典型相关分析的分类器集成车牌识别方法,包括如下步骤:步骤一:处理数据样本集,将数据集分为训练样本To、测试样本Ts、二次测试样本Tp,并且依据样本特点提取样本的HOG特征;步骤二:在步骤一的基础上,利用提取的训练样本To的特征,通过改变训练单分类器时的参数与核函数来训练多种相对独立的单分类器;步骤三:利用类KNN的方法,寻找与测试样本Ts相类似的样本,并利用典型相关分析的方法考虑局部样本特征与整体分类器分类结果之间的关系,从而调整各个分类器权重得到分类器集成模型;步骤四:待测样本的最终检测结果由经过步骤三集成后的分类器共同决定,判断待测样本所属类别。进一步地,所述步骤一的具体实现包括:所述提取样本特征包括三部分:第一部分是训练样本To的HOG特征提取,用于训练多种不同的且相对独立的分类器;第二部分是利用类KNN方法寻找的与测试样本Ts相近的K个二次测试样本Tp的特征提取,用于对各个单分类器检测其样本准确率从而实现对单分类器置信度的动态调整;第三部分是测试样本Ts的特征提取,用于检测样本最终的分类结果。进一步地,所述步骤二的具体实现包括:采用的分类器为支持向量机SVM,为得到多个不同的分类器,在进行分类器训练时,采用调整惩罚相关系数C和gamma相关系数G,并且在不同的参数组合上采取不同的内核,以组成多种不同的分类器。进一步地,所述步骤三的具体实现包括如下步骤:A.利用类KNN的方法从原始训练样本Tr中对每个测试样本Ts选择若干个二次测试样本,进而通过训练得到的单分类器对这若干个二次测试样本进行测试得到分类结果概率值DTp(x);并由得到的概率值DTp(x)计算每个分类器对于样本X的测试准确率ATp,计算公式如下:ATpi=DTp(XC=j)(i=1.2.3…L)其中dLC(x)表示第N个测试样本X(N<=K)在第L个分类器测得是类别C的概率值,DTp(Xc=j)表示测得样本X的类别C为样本实际类别j的概率,即每个单分类器对样本X的检测准确率;由得到的ATpi值得到作为K个二次测试样本在L个分类器中的测试结果值Yji:Yji=y11...yji=ATp1...ATpi]]>其中表示第j(j<=K)个样本在各个单分类器分类结果正确的概率值;B.构造K个样本的特征向量XKi,并且利用典型相关分析的方法计算局部样本特征Xn与L个分类器分类准确率Yci之间的整体相关系数矩阵Rxy,计算公式如下:XKi=(b1…bq)其中bq表示样本X第q维上的特征,i=1.2.3…K;M11表示变量XK自身的协方差矩阵COV(X,X);M12表示COV(X,Y);M21表示COV(Y,X);M22表示COV(Y,Y);Cq+k,q+k表示各个变量之间的相关关系;C.由步骤B得到样本特征与分类器分类准确率的相关关系矩阵Rxy,接着应用本步骤中第3个公式求当变量XK与Yc处于最大相关关系时的典型变量系数aiT,biT,得到Xk与Yc之间最大线性相关组合Uq、Vp(p<=q,p,q=1.2.3….)即是所求的典型变量,计算公式如下:Up=aΤXkqVp=bΤYcpmaxρxy=corr(u,v)=cov(u,v)σuσv=aTM12baTM11abTM22b]]>Subjectto:aTM11a=1bTM22b=1D.由步骤C得到针对某一个测试样本的K个近邻的特征与分类器分类结果之间最大相关关系得到的分类器线性组合Vp,同时根据得到的典型变量的系数biT分配单分类器权重,进而可以计算分类器线性组合与样本特征最大相关性的近似值,由此得到不同分类器组合对样本X预测时的置信度£(X,Vp),计算公式如下:其中Dij表示测试样本X的特征与分类器线性组合Vp的相关关系。进一步地,所述步骤四的具体实现包括:确定最终测试样本Ts中待测样本X的类别,需要检测其K个相关近邻对该类别测试样本的相关近似值Ψj(x),并且处理待测样本X,得到其与样本特征的关系D(x,y),进而计算待测样本X的近似值MTsn(x),计算公式如下:MTsn(x)=1pq*ΣijD(dij)]]>其中MTsn(n=1.2.3…)表示待测样本X分别属于第n类时的近似值;最后通过计算测试样本近似值与该类样本类别近似值之间的差值,该差值最小即是待测样本最终的类别,计算公式如下:Fin-test(x)=argmin1+||ψj-MTsn(x)||22Σj(1+ψj-MTsj(x)).]]>本发明的有益效果:1、本发明规避了传统基于单一分类器车牌识别方法中存在的检测结果偶然性问题。利用集成学习的思想,将多个分类器共同决策结果进行分析,最终对待测样本的标签进行决策。这种方法可以有效提高分类准确率。2、本发明与现存的分类器集成方法具有较大的差别。传统分类器集成方案,并没有兼顾局部与整体之间的联系,从而会导致训练得到的弱分类器过度依赖训练样本集本身。当样本容量小,或者训练样本集复杂时,训练的到的到单分类器的作用也会减弱。同时在分类器集成优化时,也会存在过优化的问题,使得检测准确率反而下降。而本发明所用方法利用类KNN的思想寻找样本的K个近邻,从而能够平衡局部样本特征与整体检测结果之间的联系,同时对每个测试样本都能够动态的调整多分类器在分类时的置信度,从而有效解决上述问题。3、传统多分类器集成的方案,在于考虑多分类器的优化集成,并没有考虑样本与分类器之间的联系。本发明应用典型相关分析(CCA)的思想,研究了样本特征与分类器结果之间的典型相关关系,通过对其的研究了解多分类器对样本特征的敏感性,因而能够寻找出更能适合某类样本检测时的多分类器权重调整参数。附图说明图1为基于CCA的多分类器集成模型。图2为基于CCA的多分类器集成策略流程图。图3为车牌数据集实验结果图。图4为数据集Madelon实验结果图。具体实施方式下面结合附图,对本发明的技术方案作进一步详细说明。图1描述了本发明的总体思路。本发明提出的方法包括以下步骤:步骤一:处理数据样本集,将数据集分为原始训练样本、测试样本、二次测试样本、训练样本,并且依据样本特点提取样本特征。具体如下:本发明车牌识别方法的实施例中,数据样本集S是已有的车牌样本。样本集中包括原始训练样本Tr与测试样本Ts。其中原始训练样本Tr中又分为训练样本To与二次测试样本Tp(即通过类KNN的方法从原始训练样本Tr中挑选出的与测试样本Ts最相近的样本),即S=Tr+Ts=To+Tp+Ts。车牌数据集中,总共包含2100个样本对象,其中原始训练样本有Tr=1550个,测试样本有Ts=550个,二次测试样本Tp=9个。所述样本特征提取包括三部分:本专利所有数据集皆是提取方向梯度直方图(HistogramofOrientedGradient,HOG)特征。第一部分是训练样本To的HOG特征提取,其目的在于训练多种不同的且相对独立的分类器;第二部分是利用类KNN方法寻找的与测试样本Ts相近的K个二次测试样本Tp的特征提取,这部分样本主要是用于对各个单分类器检测其样本准确率从而实现对单分类器置信度的动态调整;第三部分是测试样本Ts的特征提取,用于检测样本最终的分类结果。步骤二:在步骤一的基础上,利用提取的训练样本To的特征,通过改变训练单分类器时的参数与核函数来训练多种相对独立的单分类器。具体如下:采用的分类器为支持向量机SVM,为得到多个不同的分类器,在进行分类器训练时,采用调整惩罚相关系数C和gamma相关系数G,并且在不同的参数组合上采取不同的内核函数,以此来组成多种不同的分类器;所述核函数包括:RBF、Liner、Polynomial、Sigmoid。具体如表1所示。表1多个分类器模型步骤三:利用类KNN的方法,寻找与测试样本Ts相类似的样本,并利用典型相关分析的方法考虑局部样本特征与整体分类器分类结果之间的关系,从而调整各个分类器权重得到分类器集成模型。如图2所示,具体实现如下:A.利用类KNN的方法从原始训练样本Tr中对每个测试样本Ts选择Tp=9个二次测试样本。进而通过训练得到的单分类器对这9个二次测试样本进行测试得到分类结果概率值DTp(x)。并由得到的概率值DTp(x)计算每个分类器对于样本X的测试准确率ATp。计算公式如下:ATpi=DTp(XC=j)(i=1.2.3…L)(2)其中dLC(x)表示第N个测试样本X(N<=K)在第L个分类器测得是类别C的概率值。DTp(Xc=j)表示测得样本X的类别C为样本实际类别j的概率,即每个单分类器对样本X的检测准确率;K表示二次测试样本的个数。由得到的ATpi值得到作为K个二次测试样本在L个分类器中的测试结果值Yji。Yji=y11...yji=ATp1...ATpi---(3)]]>其中表示第j(j<=K)个样本在各个单分类器分类结果正确的概率值。B.构造K个样本的特征向量XKi,并且利用典型相关分析(CCA)的方法计算局部样本特征Xn与L个分类器分类准确率Yci之间的整体相关系数矩阵Rxy。计算公式如下:XKi=(b1…bq)(4)其中bq表示样本X第q维上的特征,i=1.2.3…K。M11表示变量XK自身的协方差矩阵COV(X,X);M12表示COV(X,Y);M21表示COV(Y,X);M22表示COV(Y,Y);Cq+k,q+k表示各个变量之间的相关关系。C.由步骤B得到样本特征与分类器分类准确率的相关关系矩阵Rxy,接着应用公式(8)求当变量Xk与Yc处于最大相关关系时的典型变量系数aiT,biT,得到Xk与Yc之间最大线性相关组合Uq、Vp(p<=q,p,q=1.2.3….)即是所求的典型变量,计算公式如下:Up=aΤXkq(6)Vp=bΤYcp(7)maxρxy=corr(u,v)=cov(u,v)σuσv=aTM12baTM11abTM22b---(8)]]>Subjectto:aTM11a=1bTM22b=1D.由步骤C得到针对某一个测试样本的K个近邻的特征与分类器分类结果之间最大相关关系得到的分类器线性组合Vp,同时根据得到的典型变量的系数biT分配单分类器权重,进而可以计算分类器线性组合与样本特征最大相关性的近似值,由此得到不同分类器组合对样本X预测时的置信度£(X,Vp),计算公式如下:其中Dij表示测试样本X的特征与分类器线性组合Vp的相关关系。步骤四:待测样本的最终检测结果由经过步骤三集成后的分类器共同决定,判断待测样本所属类别。具体如下:确定最终测试样本Ts中待测样本X的类别,需要检测其K个相关近邻对该类别测试样本的相关近似值Ψj(x),并且处理待测样本X,得到其与样本特征的关系D(x,y),进而计算待测样本X的近似值MTsn(x),计算公式如下:MTsn(x)=1pq*ΣijD(dij)---(12)]]>其中MTsn(n=1.2.3…)表示待测样本X分别属于第n类时的近似值。最后通过计算测试样本近似值与该类样本类别近似值之间的差值,该差值最小即是待测样本最终的类别。计算公式如下:Fin-test(x)=argmin1+||ψj-MTsn(x)||22Σj(1+ψj-MTsj(x))---(13)]]>实验结论下面从几组实验数据中,来验证本发明的有效性。同时为了规避实验的偶然性造成的误差,这里提供一组开源数据集的测试结果,数据集Madelon数据集是从NIPS2003FeatureSelectionChallenge数据库中获取所得的。以下是针对不同数据集的测试结果。图3描述的是本方法在车牌数据集中的实验结果。在车牌数据集中我们发现在相同的内核下,不同的C(损失参数)、G(gamma参数)参数对实验有很大的影响。单分类器最低能达到41.82%,最高能达到97.82%。而在分类器融合后,分类准确率低的那一部分分类器被分配的权重接近于0。而本实验所提方法能达到98.32%。图4描述的是在Madelon数据集的实验结果,我们提取在不同的参数下中的实验结果研究,发现当使用多项式内核(Polynomial)时,相对独立的单分类器之间,样本分类准确率最高能达到67.5%。而应用本发明所提出的方法分类准确率能达到75.28%。综上,本发明提出的一种基于局部典型相关分析的分类器集成车牌识别方法能够有效提升车牌识别准确率。分析实验数据发现在单个分类器分类效果较好的情况下,本实验所提方法分类效果提升有限,最大能提高1%。在类似Madelon数据集的实验结果中发现原本单分类器分类结果之间差距较大的情况下的本发明所提方法对样本分类准确率具有比较明显的提高,分类器融合后的分类准确率提高近8%。本发明所采用的基于CCA的分类器集成方法能够有效的提高复杂样本中图片分类的准确率,且具有较高的鲁棒性。上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1