基于增量线性判别分析的多类标场景分类方法

文档序号:8488140阅读:436来源:国知局
基于增量线性判别分析的多类标场景分类方法
【技术领域】
[0001] 本发明属于图像处理技术领域,特别涉及一种多类标图像场景分类方法,可用于 快速准确地处理特征丰富且类别数较多的复杂场景检测。
【背景技术】
[0002] 近年来,随着电脑和其他数据采集设备容量的增加,数据的规模变得越来越大。 由于高维度和数据的扩充涌现出了大量的数据。人们普遍预期可以通过降低数据维数来减 少时间和资源消耗。降维可以在很大程度上减少数据量,通过将数据从高维维特征空间映 射到低维特征空间为后面的处理提供了便利。投影保持了在高维空间中尽可能多的信息。 一个广泛使用的监督降维方法是线性判别分析。当数据投影到低维空间,线性判别分析通 过同时最小化类内距离和最大化类间距离从不同类别中寻求数据最好的分离。在许多应用 中线性判别分析表现良好。由于线性判别分析良好的属性和流数据挖掘的需求,增量线性 判别分析吸引了越来越多的兴趣。在数据流进的情况下,用需要的流入数据更新线性判别 分析的解,因为它避免了线性判别分析的解决方案中耗时的批模式再计算。在过去的几年 里,各种增量线性判别分析算法被开发出来。他们中的大多数提供近似解并面临着很高的 计算成本。
[0003] C.Chatterjee等人在1997年使用神经网络研宄增量线性判别分析,但经常面临 收敛缓慢的问题,违背了增量学习的重要性。S.Pang等人在2009年提出了线性判别分析的 增量版本,它提供了一种方法来更新类内和类间的散布矩阵,但是却没有给出更新后续特 征分析的耗时步骤。J.Ye等人在2005年出的IDR/QR算法将线性判别分析应用于一个类 间距最大的投影子空间。但是该算法的不足是在第一次投影中丢失了大量的信息。T.-K. Kim等人在2007年提出一种增量线性判别分析算法,该算法将足够的生成集的概念用来更 新类间和类内的散射矩阵,其中在每一步中都要移除保存和更新矩阵的特征向量和次要成 分,在判别成份的计算中,散射矩阵投影到一个完成了本征分解的低维空间。H.Zhao等人 在2008年提出增量线性判别分析算法,GSVD-ILDA,该算法的核心步骤是更新集中数据矩 阵的特征向量。在更新过程中,次要的成份被删除,从而降低计算成本。但是T.-K.Kim等 人提出的增量线性判别分析算法和H.Zhao等人提出的GSVD-ILDA算法遇到了一个同样的 问题,即很难确定效率与性能的权衡等级。如果删除太多的次要成份,性能会恶化,否则效 率会很低。此外,性能对于参数设置很敏感,不易调节参数,导致分类结果不稳定。

【发明内容】

[0004] 本发明的目的在于针对上述已有技术的不足,提出一种基于增量线性判别分析的 多类标场景分类方法,以缩短分类时间,提高分类精度。
[0005] 实现本发明目的的技术方案是:在新的样本到来,通过增量算法更新线性判别分 析的最小二乘解,将高维数据投影到低维空间,得到低维特征;使用多类标K最近邻分类器 对降维后的特征样本进行分类。其实现步骤包括如下:
[0006] (1)提取图像库中每一个样本的特征得到特征集{七丨二,其中毛表示第i个样本的 特征,i= 1,…,N,N表示特征集中样本个数;
[0007] (2)将上述图库中样本的地物标签矩阵表示为Y,当第i个样本属于第j个类别 时,则地物标签矩阵Y中的元素y(i,j) = 1,否则,y(i,j) = -1,并规定上述特征集中任 意一个样本至少属于一个类别,其中j= 1,…,M,M表示类别数;
[0008] (3)使用步骤⑴所述的特征集和步骤⑵所述的地物标签矩阵构成样本集
【主权项】
1. 一种用于基于增量线性判别分析的多类标场景分类方法,包括如下步骤: (1) 提取图像库中每一个样本的特征得到特征集化匕,其中4表示第i个样本的特 征,i= 1,…,N,N表示特征集中样本个数; (2) 将上述图库中样本的地物标签矩阵表示为Y,当第i个样本属于第j个类别时,则 地物标签矩阵Y中的元素y(i,j) = 1,否则,y(i,j) = -1,并规定上述特征集中任意一个 样本至少属于一个类别,其中j= 1,…,D,D表示类别数; (3) 使用步骤⑴所述的特征集和步骤⑵所述的地物标签矩阵构成样本集 {xk,yf^,其中,xk是第k个样本特征,用一个行向量表示,yf是与xk相对应的第j个类 别的地物标签,N是样本个数; (4) 采用增量线性判别分析的方法对上述样本集{xk,进行降维,得到低维样本 集{ik,yAL; (5) 从上述低维样本集{lk,7丨\,中随机选取训练样本集江,yfUP测试样本集 {4,tyf}^,其中,4是第k个训练特征样本,用一个行向量表示,y!"是与【相对应的第j个 类别的地物标签,n是训练样本个数,&是第k个测试特征样本,用一个行向量表示,ty^是 与tlk相对应的第j个类别的地物标签,tn是测试样本个数; (6) 将上述训练样本集和测试样本集输入到基于单示例多标签的K最近邻分类器中进 行分类,得到测试样本的输出向量Tk; (7) 根据测试样本的输出向量Tk判断测试样本的标签向量: 当测试样本的输出向量Tk中每一个值都小于0时,则第k个测试样本的标签向量为:
当测试样本的输出向量Tk中至少有一个值大于0时,则第k个测试样本的标签向量 为:
其中j= 1,2~6表示类别数,k= 1,2…tn表示测试样本数; (8) 根据步骤(7)的判别结果得到测试样本的标签向量tyk,再由标签向量tyk构成测 试样本的标签矩阵,即得到测试样本的分类结果。
2. 根据权利要求1所述的方法,其中所述步骤4中采用增量线性判别分析的方法对样 本集{xk,y〗1}:进行降维,得到低维样本集队,巧\~,按如下步骤进行: 4a)取样本集丨Xk,$>丨【中前50%作为初始样本集{&,,后50%作为新增样本 2 集 4b)用初始样本集中的特征集丨构成特征矩阵X; 4c)分别求取特征矩阵X的类间离散矩阵Sh和离散矩阵St:
其中XeRrfxn是以列为样本的特征矩阵,m是特征矩阵的均值向量,m。是样本属于第c类的均值向量,n是样本个数,n。是属于第c类的样本个数,1T是单位行向量,T表示矩阵转 置,C是总类别数; 4d)根据离散矩阵St的奇异性,计算得到变换矩阵W: 当离散矩阵St是非奇异的矩阵时,变换矩阵W是对离散矩阵的逆矩阵&1与类间离散矩 阵Sb的乘积进行特征值分解得到的非零特征值所对应的特征向量; 当离散矩阵St是奇异矩阵时,变换矩阵W是对离散矩阵的逆矩阵乂+与类间离散矩阵Sb 的乘积进行特征值分解得到的非零特征值所对应的特征向量; 4e)初始化特征矩阵X和它的伪逆矩阵X+、均值向量m、标签矩阵Y、新增样本?和它 的标签向量y; 4f)利用新增样本的标签向量y对标签矩阵Y更新,得到新的标签矩阵h4g)通过上述新增样本x'对上述均值向量m更新,得到新的均值向量rh, m = m +」一(x'-m); 77+1 4h)根据特征维数与样本个数的大小关系,对变换矩阵w更新得到新的变换矩阵r; 4i)对原始样本特征X进行投影,得到低维特征矩阵:z 义,从而得到低维样本集 {ik,,其中{U匕是低维特征矩阵L的集合形式。
3.根据权利要求2所述的方法,其中所述步骤4f)中利用新增样本的标签向量y对标 签矩阵Y更新,按如下步骤进行: 4fl)设新增样本x'属于第p类,np=np+l,np表示属于类别p的样本个数; 4f2)定义上述新增样本的标签向量y中的第j个类别的标签yu)为:
4f3)将新增样本的标签向量7以一个新增行的形式添加到标签矩阵Y的最后一行中; 4f4)根据下式更新得到新的标签矩阵f: CN 104809475 A 不乂利旻豕书 3/4页
其中迭代系数操作符表示如果P小于等于Y的列数,则Y的第p列乘以ap,否则,给Y添加一列零元素。
4.根据权利要求2所述的方法,其中所述步骤4h)中根据特征维数与样本个数的大小 关系,更新得到新的变换矩阵#,按如下两种情况进行: 4hl)当数据维数大于样本个数时,其更新步骤如下: 4hll)按照如下公式对上述特征矩阵的伪逆矩阵X+更新,得到新的伪逆矩阵f+,
J 其中h表示空间参数,
1表示单位列向量; 4hl2)通过新的标签矩阵f、新的均值向量rh和新的伪逆矩阵f+,计算得到新的变换 矩阵
其中x'表示新增样本,n表示样本个数,m表示目前的均值向量,X表示目前的特征矩 阵,1T表示单位行向量,W表示目前的变换矩阵,操作符表示如果p小于等于Y的列数, 贝1JY的第p列乘以ap,否则,给Y添加一列零元素; 4h2)当数据维数小于等于样本个数时,其更新步骤如下: 4h21)通过下式利用特征矩阵X计算散射矩阵小: <i> =XXT; 4h22)通过散射矩阵巾的秩判断信号参数t的取值:
其中d表示特征矩阵X的行数,rank〇表示求矩阵的秩; 4h23)通过信号参数t的取值,对散射矩阵的伪逆矩阵巾+更新,得到新的散射矩阵的 伪逆矩阵多+:
其中U表示中心参数,m= s表示核参数,s=巾+u,0表示偏置系数,0 V? +l =l+uT <})+u; 4h24)通过新的标签矩阵f、新的均值向量A:和新的散射矩阵<i>+对变换矩阵W进行更 新,得到新的变换矩阵#:
【专利摘要】本发明公开了一种基于增量线性判别分析的多类标场景分类方法,主要解决现有技术中图像降维和多标记分类的问题。其实现步骤为:首先,将多类标分解成多个单类标;其次使用初始样本计算初始线性判别分析的变换矩阵,使用新增样本增量更新线性判别分析的变换矩阵,并将高维数据投影到低维空间;再从降维后的样本集中随机选取训练样本和测试样本,使用单示例多标记的K最近邻分类器对降维后的特征样本分类,并得到测试样本输出值;最后,预测出测试样本的标签,得到分类结果。本发明具有分类精度更高,分类时间更短的优点,可用于快速准确地处理海量高维度并且类别较多的多类标数据分类问题。
【IPC分类】G06K9-62
【公开号】CN104809475
【申请号】CN201510227553
【发明人】焦李成, 马文萍, 张曼, 屈嵘, 杨淑媛, 侯彪, 王爽, 马晶晶, 刘红英
【申请人】西安电子科技大学
【公开日】2015年7月29日
【申请日】2015年5月6日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1