基于核空间的线性鉴别稀疏表示分类器的设计方法

文档序号:10512766阅读:253来源:国知局
基于核空间的线性鉴别稀疏表示分类器的设计方法
【专利摘要】本发明涉及一种基于核空间的线性鉴别稀疏表示分类器的设计方法,步骤为:读取训练样本,将训练样本进行非线性变换,变换到高维的核空间,在高维核空间对每一类训练样本进行学习,找出该类训练样本中每个个体对于构造该类训练样本子空间所做的贡献(即权重),该类训练样本与权重矩阵的乘积构成词典,将所有类别的词典依次排列构成一个大的词典矩阵;通过词典矩阵获得该测试样本在核空间的线性鉴别稀疏编码,用每一类的词典及词典所对应的线性鉴别稀疏编码拟合测试样本,计算该拟合误差;拟合误差最小的类为测试样本的类别。本发明能够保证同一类样本的稀疏编码是集中的,不同类样本稀疏编码是分散的,有效地增加了样本鉴别性,提升了分类器性能。
【专利说明】
基于核空间的线性鉴别稀疏表示分类器的设计方法
技术领域
[0001] 本发明属于模式识别技术领域,具体地说,涉及一种基于核空间的线性鉴别稀疏 表示分类器的设计方法。
【背景技术】
[0002] 基于稀疏表示的词典学习方法在计算机视觉领域展现除了巨大的魅力,稀疏表示 的方法在人脸识别、图像分类、图像降噪等领域都有成功的应用。模式识别过程通常包括两 个阶段:特征提取阶段和分类阶段。分类器的好坏直接影响模式识别系统的识别率,分类器 的设计一直以来都是模式识别研究的核心问题之一。
[0003] 目前,主要的分类器设计方法有以下几种。
[0004] 1、支持向量机方法(英文:Support Vector Machine)
[0005] 支持向量机方法是Corinna Cortes和Vapnik等于1995年首先提出来的,它旨在通 过最大化类别间隔建立最优分类面。该类方法在解决小样本、非线性及高维模式识别中表 现出许多特有的优势。然而,该类分类器只有少量的边界点(即支持向量)参与到分类面建 立,如果边界点分布的位置不好,那么对于分类是十分不利的。
[0006] 2、基于稀疏表示的多类分类方法(英文:Sparse Representation based Classifier)
[0007]基于稀疏表示的多类分类方法是由J.Wright等人于2009年提出的,该分类方法首 先将测试样本在所有训练集上进行稀疏编码,然后根据产生最小编码误差的类别决定分类 结果。该分类方法在多类分类中取得了很大的成功,然而,该分类方法没有训练的过程,直 接将每类训练样本构造相应子空间,并没有考虑该分类样本中每个个体对构造子空间的贡 献,容易产生较大的拟合误差。
[0008] 3、基于协同表不的多类分类方法(英文:Collaborative Representation based Classifier)
[0009] 基于协同表示的多类分类方法是由zhang等人于2011年提出,该分类方法首先将 测试样本在所有训练集上进行协同表示,然后根据产生最小编码误差的类别决定分类结 果。该分类方法在某些数据集上性能优于基于稀疏表示的多类分类方法。同样地,该分类方 法没有训练的过程,直接将每类训练样本构造相应子空间,容易产生较大拟合误差,导致分 类性能不高。
[00?0] 4、基于词典学习的多类分类方法
[0011]基于词典学习的多类分类方法是由Yang等人于2010年提出,该分类方法弥补了传 统的基于稀疏表示的多类分类方法容易产生较大拟合误差导致分类准确率不高的问题,然 而,该分类方法只能在欧式空间中进行,很难处理具有非线性结构的数据,使其使用范围大 大受限。
[0012]由上可知,现有的分类器设计方法均存在拟合误差比较大而导致分类精确度不高 的问题。
[0013] 申请号为201610070445.6的中国专利申请公开了一种基于核空间自解释稀疏表 示的分类器设计方法,读取训练样本,将训练样本映射到高维的核空间,在高维核空间对每 一类训练样本进行学习,找出该类训练样本中每个个体对于构造该类训练样本子空间所做 的贡献(即权重),该类训练样本与权重矩阵的乘积构成词典,将所有类别的词典依次排列 构成一个大的词典矩阵;对测试样本通过词典矩阵获得该测试样本在核空间的稀疏编码, 用每一类的词典及词典所对应的的稀疏编码拟合测试样本,并计算该拟合误差;拟合误差 最小的类即为测试样本的类别,其构造的词典训练需要满足约束条件,该约束条件的目标 函数为:
[0014]
该方法设计的分类器考虑 了特征的非线性结构,能够更加精确的对特征进行稀疏编码,有效地降低拟合误差;虽然该 方法设计的分类器具备了稀疏性的特点,分类器的性能得到提高,但由于分类器并不具备 鉴别性,其模式识别性能还需进一步提高。

【发明内容】

[0015] 本发明针对现有分类器设计方法设计的分类器存在拟合误差大、精确度不高的上 述不足,提供一种基于核空间的线性鉴别稀疏表示分类器的设计方法,该方法设计的分类 器的输出既有稀疏性的特点又具有鉴别性的特点,显著提高模式识别性能。
[0016] 本发明的技术方案是:一种基于核空间的线性鉴别稀疏表示分类器的设计方法, 含有以下步骤:
[0017] 步骤一:设计分类器,其步骤为:
[0018] ( - )读取训练样本,训练样本一共C类,定义X = [X1,X2,…,XY · ·,xc] e RDXN表示训 练样本,D是训练样本的特征维度,N是训练样本总的数目,X1,,···,^,…,X e分别表示第1, 2,…,c,…,C类样本,定义Νι,N2,…,Nc,…,Nc分别表示每类训练样本数目,则N = Νι+N+,… +Ν。^-----i~Nc ;
[0019] (二)对训练样本进行二范数归一化,得到归一化的训练样本;
[0020] (三)依次取出训练样本中的每一类,并对该类样本训练词典,训练词典的过程为:
[0021] (1)取出第C类样本Xe,将Xe映射到核空间Φ (xe);
[0022] (2)根据Φ0-)训练基于稀疏编码算法的词典Be,Be表示第c类样本学习到的词典, 该词典的训练需要满足约束条件,所述约束条件的目标函数为:
[0023]
[0024] 其中,
[0026] 式中,丨I…IlM戈表F范数,α为稀疏编码算法中稀疏项约束的惩罚系数,为第c类核 空间训练样本的稀疏表示矩阵,K为学习得到的词典的大小,是一个权重矩阵,其 每一列表示核空间样本对构造词典中每个词条的贡献大小,词典Φ (Χε)Ψ% Φ表示样本 在核空间中的映射;
[0027] 其中,
[0033] (3)对步骤(2)中约束条件的目标函数进行求解,即对公式(1)求解,其求解过程 为:
[0034] 固定W%更新S%随机产生矩阵W%将其带入约束条件的目标函数,这时该目标函数 转化成为一个4范数正则化最小二乘问题,即目标函数转化为:
[0036]式中,β为类内散度的惩罚系数;
[0037] 上述公式(6)简化为:
[0039]进一步把公式(7)分解成一系列子问题求解;针对中的每一个元素进行求解,并 剔除掉与求解无关的项,则公式(7)可以简化为:
[0041 ] 根据抛物线理论,求出公式(8)的解;由于每个样本点是独立的,每次求解Se的一 行,其求解公式如下:
[0045] 遍历的每一列,完成的一次更新;
[0046] (4)固定步骤(3)中更新后的S%更新W%这时约束条件的目标函数转换为一个A范 数约束的最小二乘问题,即目标函数转化为:
[0048]上述公式(10)采用拉格朗日乘子的方法求解,忽略掉常数项traCe{K(r,r)},简 化为:
[0050]根据KKT条件,满足公式(11)的最优词典矩阵的每一列冗〗需要满足的条件为:
[0055] (5)交替迭代步骤(3)和步骤(4),最终得到最优稀疏编码词典Φ (DF;
[0056] (6)按照步骤(1)至(5)获得每类样本的最优稀疏编码词典,将每类样本得到的最 优稀疏编码词典放在一起,获得词典B = [B1,…,··,Be];
[0057] 步骤二:对样本进行分类,其步骤为:
[0058] (1)读取待识别测试样本的图像特征,并对图像特征进行二范数归一化,定义ye RDX1表示一幅待识别的测试样本图像特征;
[0059] (2)将测试样本图像特征y映射到核空间Φ (y);
[0060] (3)使用步骤一中获得的词典B,对核空间Φ(7)进行拟合,拟合函数为:
[0061 ] f{s) = + 2a [[y | (14)
[0062] 式中,s表示核空间中测试样本图像特征y的稀疏编码,Φ (X)表示训练样本X在核 空间的映射;
[0063] (4)对步骤(3)中的拟合函数进行求解,求解结果为:

[0066] (5)求核空间Φ(7)在每类样本所构成子空间的拟合误差,用r(c)表示,其表达式 为:
[0068] (6)比较核空间Φ (y)和每类样本的拟合误差,待识别图像则属于拟合误差最小的 那个类别。
[0069]本发明的有益效果:本发明结合核技巧与基于Fisher准则函数的稀疏词典学习方 法,一方面通过核的方法使比较复杂的非线性的原始数据线性化、简单化,另一方面将线性 鉴别约束(LDA)加入到分类器设计当中,该约束条件使样本在核空间的稀疏表达达到最大 的类间散度和最小的类内散度,同时还保持了样本的局部几何特征,大大的提高了样本的 可鉴别性。本发明分类器设计方法,首先读取训练样本,将训练样本进行非线性变换,变换 到高维的核空间,然后在高维核空间对每一类训练样本进行学习,找出该类训练样本中每 个个体对于构造该类训练样本子空间所做的贡献(即权重),该类训练样本与权重矩阵的乘 积构成词典,将所有类别的词典依次排列构成一个大的词典矩阵;通过词典矩阵获得该测 试样本在核空间的线性鉴别稀疏编码,即测试样本在词典矩阵的拟合系数,用每一类的词 典及词典所对应的线性鉴别稀疏编码拟合测试样本,并计算该拟合误差;最后,拟合误差最 小的类为测试样本的类别,实现了对每个输入测试样本进行分类。与现有技术相比,本发明 既考虑了不同的训练样本对稀疏词典训练应该具有不同的贡献的特点(例如:正面人脸样 本应当对构造词典占有更大的话语权),又考虑到不同类别样本稀疏编码特征之间的关系, 保证了同一类样本的稀疏编码是集中的,不同类样本稀疏编码是分散的,从而有效地增加 了样本鉴别性,提升了分类器的分类性能。
【附图说明】
[0070] 图1为本发明具体实施例设计分类器的流程图。
[0071] 图2为本发明具体实施例对样本进行分类的流程图。
【具体实施方式】
[0072]下面结合附图对本发明作出进一步说明。
[0073] -种基于核空间的线性鉴别稀疏表示分类器的设计方法,含有以下步骤:
[0074] 步骤一:参见图1,设计分类器,其步骤为:
[0075] ( - )读取训练样本,训练样本一共C类,定义 练样本,D是训练样本的特征维度,N是训练样本总的数目,X1,,···,^,…,Xe分别表示第1, 2,…,c,…,C类样本,定义Νι,N2,…,Nc,…,Nc分别表示每类训练样本数目,则Ν = Νι+Ν+,··· + Nc~^-----i~Nc ;
[0076] (二)对训练样本进行二范数归一化,得到归一化的训练样本;
[0077] (三)依次取出训练样本中的每一类,并对该类样本训练词典,训练词典的过程为:
[0078] (1)取出第c类样本X。,将X。映射到核空间Φ (Xe);
[0079] (2)根据Φ0-)训练基于稀疏编码算法的词典表示第c类样本学习到的词典, 该词典的训练需要满足约束条件,所述约束条件的目标函数为:
[0083] 式中,[I…||2F代表F范数,α为稀疏编码算法中稀疏项约束的惩罚系数义为第c类核 空间训练样本的稀疏表示矩阵,Κ为学习得到的词典的大小,是一个权重矩阵,其 每一列表示核空间样本对构造词典中每个词条的贡献大小,词典Φ (Χε)Ψ% Φ表示样本 在核空间中的映射;
[0084] 其中,
[0090] (3)对步骤(2)中约束条件的目标函数进行求解,即对公式(1)求解,其求解过程 为:
[0091] 固定W%更新S%随机产生矩阵W%将其带入约束条件的目标函数,这时该目标函数 转化成为一个彳2范数正则化最小二乘问题,即目标函数转化为:
[0093]式中,β为类内散度的惩罚系数;
[0094] 上述公式(6)简化为:
[0096]进一步把公式(7)分解成一系列子问题求解;针对S0中的每一个元素进行求解,并 剔除掉与求解无关的项,则公式(7)可以简化为:
[0098] 根据抛物线理论,求出公式(8)的解;由于每个样本点是独立的,每次求解Se的一 行,其求解公式如下:
[0101] 遍历f的每一列,完成f的一次更新;
[0102] (4)固定步骤(3)中更新后的S%更新f,这时约束条件的目标函数转换为一个心范 数约束的最小二乘问题,即目标函数转化为:
[0104]上述公式(10)采用拉格朗日乘子的方法求解,忽略掉常数项traCe{K(r,X。},简 化为:
[0106]根据KKT条件,满足公式(11)的最优词典矩阵的每一列^需要满足的条件为:
[0111] (5)交替迭代步骤(3)和步骤(4),最终得到最优稀疏编码词典Κ=Φ(Χ。,;
[0112] (6)按照步骤(1)至(5)获得每类样本的最优稀疏编码词典,将每类样本得到的最 优稀疏编码词典放在一起,获得词典B = [B1,…,··,Be];
[0113] 步骤二:参见图2,对样本进行分类,其步骤为:
[0114] (1)读取待识别测试样本的图像特征,并对图像特征进行二范数归一化,定义ye RDX1表示一幅待识别的测试样本图像特征;
[0115] (2)将测试样本图像特征y映射到核空间Φ (y);
[0116] (3)使用步骤一中获得的词典B,对核空间Φ(7)进行拟合,拟合函数为:
[0117] f{s) = y>(v)-Bs\2+1xx II?\[ (14)
[0118] 式中,s表示核空间中测试样本图像特征y的稀疏编码,Φ (X)表示训练样本X在核 空间的映射;
[0119] (4)对步骤(3)中的拟合函数进行求解,求解结果为:
[0122] (5)求核空间Φ(7)在每类样本所构成子空间的拟合误差,用r(c)表示,其表达式 为:
[0124] (6)比较核空间Φ (y)和每类样本的拟合误差,待识别图像则属于拟合误差最小的 那个类别。
[0125] 以上所举实施例仅用为方便举例说明本发明,并非对本发明保护范围的限制,在 本发明所述技术方案范畴,所属技术领域的技术人员所作各种简单变形与修饰,均应包含 在以上申请专利范围中。
【主权项】
1. 一种基于核空间的线性鉴别稀疏表示分类器的设计方法,其特征在于:含有以下步 骤: 步骤一:设计分类器,其步骤为: (一) 读取训练样本,训练样本一共C类,定义 本,D是训练样本的特征维度,N是训练样本总的数目,乂132,一3% - 3^分别表示第1, 2,…,c,…,C类样本,定义Νι,N2,…,Nc,…,Nc分别表示每类训练样本数目,则Ν = Νι+Ν+,··· + Nc~^-----i~Nc ; (二) 对训练样本进行二范数归一化,得到归一化的训练样本; (三) 依次取出训练样本中的每一类,并对该类样本训练词典,训练词典的过程为: (1) 取出第C类样本X%将X0映射到核空间Φ (XI; (2) 根据Φ0-)训练基于稀疏编码算法的词典表示第c类样本学习到的词典,该词 典的训练需要满足约束条件,所述约束条件的目标函数为:式中,II _HI》代表F范数,α为稀疏编码算法中稀疏项约束的惩罚系数,为第c类核空间 训练样本的稀疏表示矩阵,K为学习得到的词典的大小,IT £^^^是一个权重矩阵,其每一 列表示核空间样本对构造词典中每个词条的贡献大小,词典φ (xe)r; φ表示样本在核 空间中的映射;、 一1 ^ "-" 2 其中 (3) ω记为类内散度误差,ω如下所示:⑷ ξ记为类间散度误差,ξ如下所示:(3) 对步骤(2)中约束条件的目标函数进行求解,即对公式(1)求解,其求解过程为:固 定W%更新S%随机产生矩阵f,将其带入约束条件的目标函数,这时该目标函数转化成为一 个h范数正则化最小二乘问题,即目标函数转化为:式中,β为类内散度的惩罚系数; 上述公式(6)简化为:进一步把公式(7)分解成一系列子问题求解;针对Τ中的每一个元素进行求解,并剔除 掉与求解无关的项,则公式(7)可以简化为:根据抛物线理论,求出公式(8)的解;由于每个样本点是独立的,每次求解Se的一行,其 求解公式如下: I ? - /V y - /1遍历f的每一列,完成f的一次更新; (4) 固定步骤(3)中更新后的S%更新f,这时约束条件的目标函数转换为一个12范数约 束的最小二乘问题,即目标函数转化为: 、 J \L上述公式(10)采用拉格朗日乘子的方法求解,忽略掉常数项廿&(^{!〇(【,^},简化为: ~~~ \~. v ., \ L.Λ -iKK/ kM 根据KKT条件,满足公式(11)的最优词典矩阵的每一列需要满足的条件为:^ ( ?h (b) :(l-[ffcTK(Xc,Xc)ffc] kk)=〇 (12) (c) :Ak>〇 最终求得》:〗的解为:(5) 交替迭代步骤(3)和步骤(4),最终得到最优稀疏编码词典把=Φ (r)W^ (6) 按照步骤(1)至(5)获得每类样本的最优稀疏编码词典,将每类样本得到的最优稀 疏编码词典放在一起,获得词典B = [B1,…,··,Be]; 步骤二:对样本进行分类,其步骤为: (1) 读取待识别测试样本的图像特征,并对图像特征进行二范数归一化,定义y£RDxl表 示一幅待识别的测试样本图像特征; (2) 将测试样本图像特征y映射到核空间Φ (y); (3) 使用步骤一中获得的词典B,对核空间Φ (y)进行拟合,拟合函数为:式中,s表示核空间中测试样本图像特征y的稀疏编码,Φ (X)表示训练样本X在核空间 的映射; (4) 对步骤(3)中的拟合函数进行求解,求解结果为:(15) 式中,Sk表示s中的第k个元素:(5) 求核空间Φ (y)在每类样本所构成子空间的拟合误差,用r(c)表示,其表达式为:丨、丨6) (6) 比较核空间Φ (y)和每类样本的拟合误差,待识别图像则属于拟合误差最小的那个 类别。
【文档编号】G06K9/62GK105868796SQ201610264895
【公开日】2016年8月17日
【申请日】2016年4月26日
【发明人】刘宝弟, 王立, 韩丽莎, 王延江
【申请人】中国石油大学(华东)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1