基于低秩稀疏表示的图像分类方法与流程

文档序号:14396323阅读:1070来源:国知局
本发明涉及图像识别
技术领域
,具体地说是基于低秩稀疏表示的图像分类方法。
背景技术
:图像识别是生物识别,计算机视觉和机器学习中最具吸引力和具有挑战性的研究课题之一。然而,原始的数据图像通常是高维的,这将导致在图像识别过程中需要大量的计算和较高的内存。而且,原始的高维图像数据通常包含大量的噪声信息,这会降低图像识别的性能。为了解决这些问题,提出了许多特征提取方法来降维。最经典且有代表性的降维方法有主成分分析(pca)和线性判别分析(lda)。pca是一种无监督算法,在这个算法中保留了全局方差,且重构误差最小;lda是一种有监督算法,投影空间中类间散布矩阵(sb)最大化,而类内散布矩阵(sw)最小化。由于pca和lda简单有效,所以提出了许多基于pca或lda的线性降维算法。模块化图像pca和加权模块化图像pca都使用模块化图像分解技术进行特征提取。但是,目前的方法都不能处理新样本,换句话说,这些方法中没有投影矩阵,他们不能处理新的样本。为了解决这个问题,本文提出了局部保持投影(lpp)算法,以获得保存局部信息的嵌入投影轴。稀疏表示被广泛用于稀疏重构,图像识别,去噪,图像分类等。wright等人首先将稀疏表示引入图像识别,并给出了一种基于稀疏表示的分类(src)算法。在src中,所有训练样本用于线性表示新样本。当同一类信息的训练样本与新样本对应的线性表示系数不为零,其余系数均为零时,将获得很好的分类性能。l1范数优化问题可以满足上述要求,这是src的关键。受src和图像重建的启发,wei等人提出了一个局部敏感的字典学习算法。稀疏表示不能很好地描述样本的判别信息。为了解决这个问题,提出了基于src的fisher判别准则(src-fdc)算法。在src-fdc中,局部重建关系和空间欧氏分布都具有很好的特征。wang等人提出了一种流形正则化局部稀疏表示(mrlsr)算法。通过将流形学习为核心的src(改进算法),提出了核局部src算法(klsrc)。在这些方法中,每个类对应的重构误差被用来作为分类识别的判别信息。然而,类信息和判别信息没有被强制执行到稀疏编码系数中。低秩矩阵表示已成为计算机视觉,人工智能和机器学习领域最受欢迎的研究领域之一,引起了人们的高度重视。为了解决子空间聚类问题,恢复观测数据的子空间结构,提出了低秩表示(lrr)算法。通过求解一个基于核范数正则化的优化问题,lrr可以得到所有样本的最低秩表示。数据的局部结构信息对于聚类和分类问题尤为重要。但是,这个信息被lrr忽略。因此,peng等人建立了一种基于流形学习的新型lrr(mlrr)方法。zhang等人提出了一种低秩矩阵分解方法,在矩阵分解中引入流形正则化方法。为了得到低秩表示的最大似然估计解,通过求解重新加权的不精确增广拉格朗日乘子算法,提出了一个鲁棒的低秩表示。在低秩表示中,所有子空间都是独立的。但是,这种推定通常不适用,tang等人提出了一个基于结构约束的lrr(sc-lrr)来解决这个问题。在lrr算法中,预计子空间是独立的,然而,他们并没有像预期的那样独立。此外,src和lrr属于无监督的方法,他们不利用类别信息,这对分类是非常重要的。因此,本文提出了一种基于鲁棒低秩稀疏表示的特征提取方法,即基于低稀疏表示的图像分类方法。技术实现要素:本发明所要解决的技术问题是提供基于低秩稀疏表示的图像分类方法,解决现有方法不能处理新的样本等问题。本发明为解决上述技术问题所采用的技术方案是:基于低秩稀疏表示的图像分类方法,包括以下步骤:步骤一、来自c类训练样本矩阵a=[a1,a2,…,ac]∈rm×n,测试样本y=[y1,y2,…,ym]∈rm×m,将训练样本a和测试样本y的每一列分别归一化为单位l2范数,其中n表示训练样本个数,m表示测试样本个数,m表示样本的维数;步骤二、计算投影矩阵p;步骤三、计算训练样本a的投影矩阵a':a'=pa;步骤四、计算测试样本y的投影矩阵y':y'=py;步骤五、使用最近邻分类器完成分类任务。所述步骤二中计算投影矩阵p的方法为:步骤2.1、初始化:令参数λ>0,γ>0,α>0,η>0,z0=w0=e0=y10=y20=0,p0为随机矩阵,μ0=0.1,μmax=1010,ρ=1.1,ε=10-3,maxiter=1000,k=0,其中μ为惩罚参数,k为迭代次数,η和α为平衡因子,z、w和e为系数矩阵,y1k,y2k为拉格朗日乘数;步骤2.2、使用公式(1)更新系数矩阵z:步骤2.3、使用公式(2)更新系数矩阵w:步骤2.4、使用公式(3)更新系数矩阵e:步骤2.5、使用公式(4)更新拉格朗日乘数:y1(k+1)=y1k+μk(a-azk+1-ek+1),y2(k+1)=y2k+μk(zk+1-wk+1)(4);步骤2.6、使用公式(5)更新惩罚变量μ:μk+1=min(ρμk,μmax)(5);步骤2.7、根据公式(6)更新投影矩阵p:步骤2.8、检查收敛:如果(||a-azk+1-ek+1||∞<εand||zk+1-wk+1||∞<ε)ork>maxiter,则输出投影矩阵p,否则,令k=k+1,同时返回步骤2.2继续进行循环,直到输出投影矩阵p。本发明的有益效果是:1)本发明将稀疏表示、低秩表示和判别投影集成到一个框架中,并考虑了观测数据的局部和全局结构信息,数据点的局部结构信息和全局信息都是通过稀疏表示和低秩表示来保存的,而且,观测数据的类别信息被充分利用;2)与其他降维方法相比,该方法对离群点和噪声具有更强的鲁棒性。附图说明图1为yale数据库中同一个对象在不同条件下的面部图像;图2为yale数据库中的识别率与相应维度之间的关系图;图3为cmupie数据库中同一个对象在不同条件下的图像;图4为pie数据库的识别率与相应维数的关系图;图5为georgiatech人脸数据库中同一个对象在不同条件下的图像;图6为georgiatech数据库的识别率与相应维数的关系图;图7为feret数据库中同一个对象在不同条件下的图像;图8为feret数据库数据库的识别率与相应维数的关系图;图9为polyu掌纹数据库中同一个手掌的六个图像;图10为polyu掌纹数据库的识别率与相应维数的关系图;图11为ar数据库中同一个主体在不同条件下的图像;图12为ar数据库的识别率与相应维数的关系图。具体实施方式基于低秩稀疏表示的图像分类方法,包括以下步骤:步骤一、来自c类训练样本矩阵a=[a1,a2,…,ac]∈rm×n,测试样本y=[y1,y2,…,ym]∈rm×m,将训练样本a和测试样本y的每一列分别归一化为单位l2范数,其中n表示训练样本个数,m表示测试样本个数,m表示样本的维数。步骤二、计算投影矩阵p:步骤2.1、初始化:令参数λ>0,γ>0,α>0,η>0,z0=w0=e0=y10=y20=0,p0为随机矩阵,μ0=0.1,μmax=1010,ρ=1.1,ε=10-3,maxiter=1000,k=0,其中μ为惩罚参数,k为迭代次数,η和α为平衡因子,z、w和e为系数矩阵,y1k,y2k为拉格朗日乘数;步骤2.2、使用公式(1)更新系数矩阵z:步骤2.3、使用公式(2)更新系数矩阵w:步骤2.4、使用公式(3)更新系数矩阵e:步骤2.5、使用公式(4)更新拉格朗日乘数:y1(k+1)=y1k+μk(a-azk+1-ek+1),y2(k+1)=y2k+μk(zk+1-wk+1)(4);步骤2.6、使用公式(5)更新惩罚变量μ:μk+1=min(ρμk,μmax)(5);步骤2.7、根据公式(6)更新投影矩阵p:步骤2.8、检查收敛:如果(||a-azk+1-ek+1||∞<εand||zk+1-wk+1||∞<ε)ork>maxiter,则输出投影矩阵p,否则,令k=k+1,同时返回步骤2.2继续进行循环,直到输出投影矩阵p。步骤三、计算训练样本a的投影矩阵a':a'=pa。步骤四、计算测试样本y的投影矩阵y':y'=py。步骤五、使用最近邻分类器完成分类任务。实验数据为了验证本发明方法(简写为dp-lrsr方法)的有效性,在6个公开的图像数据库上进行了大量的光照和姿势变化。为了有所比较,对一些有影响的算法如pca,lpp,lsda,dp-sr,lrr-dp和lspp也进行了实验。通过上述方法提取特征后,采用最近邻分类器完成这些方法的分类任务。为了节省时间,在运行我们的方法和其他对比方法之前,可以通过将pca应用于训练样本a和测试样本y=[y1,y2,…,ym]来初始化以减小尺寸,即a=ppcaa,y=ppcay。另外,在实验中选择了每个参数的最优值。(1)yale图像数据库实验yale图像数据库包括165张来自15个人的人脸图像,每个对象在不同的照明条件和不同的面部表情下有11张人脸图像。所有图像在实验中设置为25×20像素。图1显示了同一个对象在不同条件下的面部图像。在这个实验中,每个人的前五个图像被用作训练集,其余的每个人的图像被用作测试集。对于本发明方法,参数η,λ,γ和α分别设置为10,0.09,1和0.5。对于lpp和lsda,k最近邻数分别被设置为5和6。dp-sr中的参数λ1和λ2分别设为0.05和0.9。lrr-dp的参数ξ和λ分别设为1和0.5。lspp的参数k,γi和γe分别设为8,5×10-4和10-4。图2列出了识别率与维度之间的关系。从图2可以看出,本发明方法在所有算法中都达到了最佳识别性能。当维数在35至65之间时,lpp和dp-lrsr方法的识别性能更接近。表1给出了7种算法的最大识别率。从表1可以看出,dp-lrsr在维数为15维时的识别率是98.89%。表1yale人脸库上不同算法的最大识别率(百分比)及其相应的维数方法pcalpplsdadp-srdp-lrsrlrr-dplspp识别率88.8996.6794.4493.3398.8997.7896.53维数20203015152030(2)cmupie图像数据库实验cmupie数据库拥有来自68个人的41368张图像。图像是在各种表情,照明和姿势下获得的。本文选择同一个表情和姿势,但是不同照明条件下的21幅面部图像。所有的图像被设置为32×32像素。图3列出了同一个对象在不同条件下的图像。在这个实验中,每个人的前3个图像被用于训练样本,其余的图像用于测试样本。对于dp-lrsr方法,参数η,λ,γ和α分别设置为10,0.05,1和2。对于lpp和lsda,k最近邻数设置为5。dp-sr中的参数λ1和λ2分别设为0.005和2.5。lrr-dp的参数ξ和λ分别设为1和0.5。lspp的参数k,γi和γe分别设为5,5×10-4和10-4。图4给出了识别结果,从图4中可以看出,dp-lrsr方法可以得到与其他算法相当的结果。但它在所有的比较算法中达到了最高的识别率。最大识别率见表2。pca,lpp,lsda,dp-sr,dp-lrsr,lrr-dp和lspp的最高识别率分别为69.12%,95.10%,98.53%,69.12%,99.18%,97.12%和96.98%。表2所有算法在pie数据库中的最大识别率(百分比)及其相应的维数方法pcalpplsdadp-srdp-lrsrlrr-dplspp识别率69.1295.1098.5369.1299.1897.1296.98维数65655570706565(3)georgiatech数据库实验georgiatech数据库(gt)包含来自50个对象的图像数据,这些数据在两到三次会话中被获得。gt数据库是由乔治亚理工学院制作。每个对象都有15张背景混乱的彩色图像。图像数据的大小是640x480像素。不同尺寸下的图像,各种照明和表情可能是正面的和/或倾斜的。每个图像被裁剪到60×50像素。此外,所有彩色图像都被转换成灰度图像。图5显示了同一个对象在不同条件下的图像。表3列出了最大识别率。在这个实验中,每个人的前7张图像被用作训练样本,剩余的图像被用作测试样本。对于dp-lrsr方法,参数η,λ,γ和α分别设置为1.5,0.09,1和1.5。对于lpp和lsda,k最近邻数分别被设置为6和8。dp-sr中的参数λ1和λ2分别设为0.005和2。lrr-dp的参数ξ和λ分别设为1和0.5。lspp的参数k,γi和γe分别设为10,5×10-4和10-4。识别性能如图6所示,从图6可以看出,dp-lrsr的识别性能优于其他方法,且与尺寸的变化无关。表3列出了最大识别率,从表3可以看出,当维数为20时,dp-lrsr的识别率最高。表3所有算法在georgiatech数据库中的最大识别率(百分比)及其相应的维数方法pcalpplsdadp-srdp-lrsrlrr-dplspp识别率70.256970.6370.7572.7569.8270.9维数40602001502060170(4)feret数据库实验feret图像数据库[52]共包含1565个对象的13539个图像。这些图像在不同的面部表情和照明下被捕获。我们选择一个子集,其中包括来自200个对象的1400个图像,每个对象有7个图像。所有的图像被调整为40×40像素。图7显示了同一个对象的在不同条件下的图像。对于这个实验,每个主体的前3个图像被用作训练样本,剩余的图像被用作测试样本。对于dp-lrsr方法,参数η,λ,γ和α分别设置为10,0.4,1和1.5。对于lpp和lsda,k最近邻数分别被设置为10和6。dp-sr中的参数λ1和λ2分别设为0.5和1.5。lrr-dp的参数ξ和λ分别设为1和0.5。lspp的参数k,γi和γe分别设为5,5×10-4和10-4。图8列出了所有方法的识别率。当维数大于20时,dp-lrsr方法的识别率优于其他算法。最大识别率如表4所示。当尺维数为150时,dp-lrsr的最大识别率为55.75%。表4所有算法在feret数据库中的最大识别率(百分比)及其相应的维数方法pcalpplsdadp-srdp-lrsrlrr-dplspp识别率45.8742.1851.1254.2555.7551.7552.87维数9017016020015050170(5)polyu掌纹数据库实验在polyu数据库中,有来自100个不同手掌的600个掌纹图像,每个手掌包含6个图像。每个手掌的所有图像在两个会话中获得,其中每个手掌的前三个图像在第一个会话中获得,并且每个手掌的其余图像在第二个会话中获得。所有图像被调整为64×64像素。图9显示了同一个手掌的6个掌纹图像。在本实验中,随机选取每个手掌任意三个掌纹图像作为训练样本,其余三个掌纹图像作为测试集。实验重复5次。对于dp-lrsr方法,参数η,λ,γ和α分别设置为0.5,0.09,1和3。对于lpp和lsda,k最近邻数分别被设置为4和6。dp-sr中的参数λ1和λ2分别设为0.05和0.9。lrr-dp的参数ξ和λ分别设为1和0.5。lspp的参数k,γi和γe分别设为5,5×10-4和10-4。图10显示了平均识别率。从图10可以看出,dp-lrsr可以在所有方法中具有最好的识别性能。表5显示了最大平均识别率。从表5可知,dp-lrsr方法的最大平均识别率在维数为140时为97.12%。表5所有算法在polyu掌纹数据库中的最大识别率(百分比)及其相应的维数方法pcalpplsdadp-srdp-lrsrlrr-dplspp识别率6177.6792.86997.1295.4193.98维数120180200100140120200(6)ar图像数据库实验ar数据库拥有来自126个主体的4000多个彩色图像。每个主体包含26个正面视图,这些图像在各种光照,表情和遮挡条件下被捕捉。来自120个主体的图像在两个会话中被捕获,并且每个会话中有26个彩色人脸图像。所有的图像调整为50×40像素。另外,所有图像都被转换成灰度图像。图11显示了同一个主体的在不同条件下的图像。在这个实验中,选取了两个会话中每个对象的14个不遮挡图像作为实验对象。随机选取每个对象的7幅面部图像作为训练集,其余的每幅图像用于测试集。每个实验重复5次。对于dp-lrsr方法,参数η,λ,γ和α分别设置为0.5,0.09,1和2。对于lpp和lsda,k最近邻数设置为7。dp-sr中的参数λ1和λ2分别设为0.05和0.9。lrr-dp的参数ξ和λ分别设为1和0.5。lspp的参数k,γi和γe分别设为8,5×10-4和10-4。图12显示了平均识别率与维度变化的关系。表6列出了每种方法的最大平均识别率和相应的维数。从图12可以看出,dp-lrsr方法在所有算法中达到了最佳识别性能。dp-lrsr平均最高识别率为67.38%。表6所有算法在ar数据库中的最大识别率(百分比)及其相应的维数方法pcalpplsdadp-srdp-lrsrlrr-dplspp识别率63.9563.9365.1365.9267.3866.7365.13维数160140180200100140180当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1