基于线性表示多视图鉴别字典学习的分类方法与流程

文档序号：11143342阅读：265来源：国知局

本发明具体涉及基于线性表示多视图鉴别字典学习的分类方法，属于模式识别
技术领域：
。
背景技术：
：现有的“基于不相关多视图鉴别字典学习的识别方法”(UMDDL，X.Y.Jing,R.M.Hu,F.Wu,X.L.Chen,Q.Liu,andY.F.Yao,“UncorrelatedMulti-viewDiscriminationDictionaryLearningforRecognition”,AAAIConferenceonArtificialIntelligence,pp.2787-2795,2014)：对于M个视图的数据集Ak(k＝1,…,M)，UMDDL方法通过求解下面的问题学习M个鉴别字典Dk(k＝1,…,M)：s.t.Corr(Dk,Dl)＝0,l≠k其中，Xk(k＝1,…,M)表示数据集Ak对应字典Dk的稀疏表示系数，C表示数据集中的类别个数，表示数据集Ak中第i类的数据子集，表示数据子集对应字典Dk的稀疏表示系数，表示字典Dk中对应第i类的子字典，表示数据子集对应子字典的稀疏表示系数，λ是一个权重系数，Corr(Dk,Dl)＝0表示字典Dk和Dl之间的相关性为0。通过交叉迭代更新D1,D2,…,DM和X1,X2,…,XM得到字典D1,D2,…,DM之后，对于包含M个视图的测试样本y＝{y1,y2,…,yM}，UMDDL方法按照下面的方式使用字典D1,D2,…,DM进行稀疏编码：其中，αk表示yk对应字典Dk的稀疏表示系数，γ是一个权重系数。然后计算测试样本y对应第i类的重构误差：其中，表示yk对应子字典的最优稀疏表示系数。最后，UMDDL方法按照如下方式进行分类：上述UMDDL方法通过稀疏编码技术获得稀疏表示系数，求解过程较为复杂；且无论是在训练阶段还是在测试阶段，目标函数中稀疏项采用的都是L1范数近似表示，而不是L0范数的精确表示，求解过程的不精确必然会对识别结果的准确性产生不利影响；另外，训练阶段多个视图字典之间的相关性约束也使得求解过程变得复杂。技术实现要素：发明目的：为克服现有技术的不足，基于线性表示多视图鉴别字典学习的分类方法使用线性表示来获得线性表示系数，没有稀疏性限制，从而可以简化求解过程，使求解结果更加精确，有效地提高分类效果；此外，训练阶段多个视图字典之间使用正交约束可以进一步简化求解过程。在AR人脸数据库(A.M.Martinez,andR.Benavente,“TheARFaceDatabase”,CVCTechnicalReport#24,1998)和MNIST手写体数字数据库(Y.Mizukami,K.Tadamura,J.Warrell,P.Li,andS.Prince,“CUDAImplementationofDeformablePatternRecognitionandItsApplicationtoMNISTHandwrittenDigitDatabase”,Int.Conf.PatternRecognition,pp.2001-2004,2010)上做仿真实验，证明基于线性表示多视图鉴别字典学习的分类方法能够更好地对测试样本进行分类。本发明的技术方案如下：设X＝[X1；X2；…；XM]表示一个包含M个视图的训练样本集，X中包含c个类别，第j个类别中包含Nj个样本，表示第i个视图的训练样本集，表示Xi中第j个类别的训练样本集，(Rd表示d维的实向量集合)表示中的第t个训练样本，y＝[y1；y2；…；yM]表示一个包含M个视图的测试样本，yi∈Rd表示第i个视图的测试样本，包括如下阶段步骤：A、在训练阶段，基于线性表示多视图鉴别字典学习的分类方法通过求解下面的问题获得(1)对应第i个视图第j个类别的字典(表示d×Nj阶实矩阵集合)，i＝1,2,…,M，j＝1,2,…,c；(2)使用线性表示的线性表示系数矩阵k＝1,2,…,c：通过依次更新线性表示系数矩阵和字典进行迭代求解，可以得到这两组变量的解。B、在分类测试阶段，步骤1，基于线性表示多视图鉴别字典学习的分类方法通过求解下面的问题获得M个线性表示系数向量计算用第j个类别的字典去重构测试样本y的重构误差，如下：步骤2，如果rk(y)在r1(y),r2(y),…,rc(y)中最小，基于线性表示多视图鉴别字典学习的分类方法将y归到第k类。有益效果本发明采用以上技术方案与现有技术相比，具有以下有益效果：基于线性表示多视图鉴别字典学习的分类方法使用线性表示来获得线性表示系数，没有稀疏性限制，从而可以简化求解过程，使求解结果更加精确，有效地提高字典的分类能力；此外，训练阶段多个视图字典之间使用正交约束可以进一步简化求解过程。具体实施方式以下具体说明本发明的技术方案。实验验证选用AR人脸数据库(A.M.Martinez,andR.Benavente,“TheARFaceDatabase”,CVCTechnicalReport#24,1998)和MNIST手写体数字数据库(Y.Mizukami,K.Tadamura,J.Warrell,P.Li,andS.Prince,“CUDAImplementationofDeformablePatternRecognitionandItsApplicationtoMNISTHandwrittenDigitDatabase”,Int.Conf.PatternRecognition,pp.2001-2004,2010)。AR人脸数据库包含119个人，每个人26张60×60的灰度图像，包含光照变化和遮挡变化。实验中每个人选择8张图像作为训练样本、18张图像作为测试样本。MNIST手写体数字数据库由10个阿拉伯数字，共10000张图片组成，每个数字有863～1127张28×28的灰度图像，包含了各种形式的手写阿拉伯数字。实验中每个数字选择40张图像作为训练样本、其余图像作为测试样本。实验中通过构造Gabor变换特征集、Karhunen-Loeve(KL)变换特征集和LocalBinaryPatterns(LBP)特征集来生成三个视图的数据集(X.Y.Jing,R.M.Hu,F.Wu,X.L.Chen,Q.Liu,andY.F.Yao,“UncorrelatedMulti-viewDiscriminationDictionaryLearningforRecognition”,AAAIConferenceonArtificialIntelligence,pp.2787-2795,2014)。实验统计UMDDL和基于线性表示多视图鉴别字典学习的分类方法(即表中的LR-MDDL)的平均识别率，见表1。从表1中可以看出，与UMDDL方法相比，基于线性表示多视图鉴别字典学习的分类方法的平均识别率明显更高一些，这说明基于线性表示的字典学习有效地提高了字典的分类能力。表1UMDDL和LR-MDDL的平均识别率(％)分类器AR人脸数据库MNIST手写体数字数据库UMDDL95.1689.35LR-MDDL96.9191.24当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘茜;荆晓远;吴飞;
技术所有人：南京信息工程大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。