基于局部样条嵌入的正交半监督子空间图像分类方法

文档序号:6605456阅读:165来源:国知局
专利名称:基于局部样条嵌入的正交半监督子空间图像分类方法
技术领域
本发明涉及一种基于局部样条嵌入的正交半监督子空间图像分类方法。该方法 对图像数据进行特征提取表示为特征向量,并寻找有效的降维方法将其投影到低维语义空 间,从而通过训练分类器模型实现对图像数据的分类。
背景技术
随着数字照相机普及和互联网发展,图像数据采集、存储和访问数量呈爆炸式增 长,如何对规模日益庞大的图像数据进行高效管理变得日益重要。为了对图像进行更好管 理,一个有效手段便是对图像数据分门别类地进行管理。因此,对图像数据进行分类已成为 近年来热点研究问题。在图像分类的研究中,所面临的最大挑战是语义鸿沟,即图像底层特征无法充分 反映其高层语义。鉴于以数据驱动为中心的机器学习和统计分析等理论所取得进展,为了 克服语义鸿沟,一个有效手段是在提取图像底层特征基础上,应用机器学习理论,训练得到 图像语义的抽象表达,然后基于该表达,再对图像进行聚类与分类。在这个过程中,有监督 学习分类算法被大量使用。虽然有监督算法可有效提高图像表达准确性,但是现有监督算 法仍然存在局限性,尤其是获得精确标注信息需要耗费大量时间。随着图像数据数量快速 增长,无标注数据获取更加便利,使得仅能单纯处理标注数据的监督学习算法局限性更为 明显。考虑到带有标注信息的数据较难获得,而未标注数据则相对容易获得,半监督算法逐 渐吸引了越来越多研究者注意。

发明内容
本发明的目的是克服现有技术的不足,提供一种基于局部样条嵌入的正交半监督 子空间图像分类方法。基于局部样条嵌入的正交半监督子空间图像分类方法包括如下步骤1)对每个图像数据集选取η个样本数据作为训练集,训练集包括有标注信息的训 练样本和未标注信息的训练样本,其余作为测试集;2)利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵;3)利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局 部样条嵌入方式构造拉普拉斯矩阵;4)根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交 半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得到低 维特征向量训练样本;5)采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型;6)对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器 模型进行分类。所述的利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵步骤为给
5定属于c类的η个样本所组成的训练集合X = Ix1,..,Xl,χ1+1,...,χη},其中χ, € Rdxl,i = 1,...,n,前1个样本{x』=1具有类别标注信息O^L e{l,2,...,c},剩余n-1个样本{ };1/+1没有
被标注,利用包含标注信息训练样本& ν构造类间散度矩阵民=ILhiMw -μΧμ μ
和类内散度矩阵&广-广,其中,ik表示属于第k类的训练样本
个数,w表示第k类中第i个样本,//=Itx,为 v均值,+ 表示第k类中样
本均值。所述的利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通 过局部样条嵌入方式构造拉普拉斯矩阵步骤为1)假定给定样本X,. € Rd的k近邻数据的局部低维嵌入坐标和全局低维嵌入坐标 为G 6IT和力e Rm,1彡i彡n,1彡j彡k,对于m维中的每一分量,分别构造一个样条函
数g(t),使得t = g(tj);对如下函数厂晚))2+义彳⑷进行最小化,得至1J
样条函数g,其中λ >ο是一个正则化参数,<是样条函数g在d维空间里的罚函数,当
g⑴ sZ^^W + X^MO时,上式存在唯一解,其中 1 = (d+s-Ι) ! /(d ! (S-I)!),
{巧(0};构成了一个阶数不小于s的多项式空间,2s > d,Φ」α)是一个格林函数, "^[/^^, . ,^felRiP β = [βι; β2,... , β Jt 是系数向量;2)通过解下面的线性方程组获得系数向量η和β 其中f =比,…,幻,乂= f P,K是一个kXk的对称矩阵,Kij 3)对于m维中的每一分量,τ (g)由全局坐标f来表达,将m维中值τ (g)累加起 来,对于第i个样本Xi,得到目标值为 其中巧二[人,乂2,...,厶]e Rmxt,将所有n个训练数据的目标值加起来,得到总体的目标值 令L' = SBST,这样就得到了基于局部样条嵌入的拉普拉斯矩阵L'。所述的根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入 正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得 到低维特征向量训练样本步骤为
1)通过学习得到正交投影矩阵α e Mdxm,m < d,能保证训练样本在经过a降维后 类间离散度尽量大和类内离散度尽量小,同时使得原始空间中相邻样本在投影后低维子空 间中仍然相邻,即求解以下最优化问题 这样,可通过求解矩阵的广义特征根得到优化的投影矩阵a ;2)由投影矩阵a实现对原始高维特征向量的维度降低,从而获得图像数据的低维 表达 X' = aTX。所述的采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型
步骤为分类器模型的输入是经过正交投影矩阵a降维得到的低维特征向量
及相应的类别标识e {+1,-1},输出是分类器模型的张量超平面参数>1;£股7^1和
通过求解最优化问题
得到和b,其中C是常量,ξ是
松弛因子。所述的对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过 分类器模型进行分类步骤为训练样本集合外的测试样本数据elT^"由正交投影 矩阵a映射为低维子空间中的
然后通过分类器模型进行类别检测,即计算
来得到测试数据的类别标识yt 本发明有效利用了有标注训练样本和未标注训练样本,通过局部样条回归将局部 低维嵌入坐标映射成全局低维嵌入坐标,保持了图像数据集合的流形空间本征结构。有效 地解决了高维度带来的困难,通过对降维后的数据采用支持向量机来训练分类器模型并对 测试数据分类,取得了比传统的分类方法更准确的分类结果。


图1是基于局部样条嵌入的正交半监督子空间图像分类方法流程图;图2是举例本发明的5幅图像分类结果。
具体实施例方式基于局部样条嵌入的正交半监督子空间图像分类方法包括如下步骤 1)对每个图像数据集选取η个样本数据作为训练集,训练集包括有标注信息的训 练样本和未标注信息的训练样本,其余作为测试集;2)利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵;3)利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局 部样条嵌入方式构造拉普拉斯矩阵;4)根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得到低 维特征向量训练样本;5)采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型;6)对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器 模型进行分类。所述的利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵步骤为给 定属于c类的η个样本所组成的训练集合X = Ix1, ..,X1, χ1+1,... , χη},其中;c, e Riftd , i = 1,...,n,前1个样本伐}丨=1具有类别标注信息{只}丨=1 e{1,2,...,c},剩余n-1个样本{xX/+1没有
被标注,利用包含标注信息训练样本&·^构造类间散度矩阵&Af
Ix///=1k=\
和类内散度矩阵夂w),其中,表示属于第k类的训练样本
k=\ /=1
个数,w表示第k类中第i个样本,为v均值,表示第k类中样
XiI /=1 lX/)/=l U i=l
本均值。所述的利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通 过局部样条嵌入方式构造拉普拉斯矩阵步骤为1)假定给定样本X,. e Rrf的k近邻数据的局部低维嵌入坐标和全局低维嵌入坐标 为G 6 Rm和力e Rm,i彡i彡n,i彡j彡k,对于m维中的每一分量,分别构造一个样条函
数g(t),使得A = g(tj);对如下函数= 厂映))2+A彳⑷进行最小化,得到
紀J=I
样条函数g,其中λ >0是一个正则化参数,<是样条函数g在d维空间里的罚函数,当 冲) = ⑴+ "為⑴时,上式存在唯一解,其中1 = (d+s-l) ! /(d ! (s-1) !),
{巧⑴}^构成了一个阶数不小于S的多项式空间,2s > d,Φ」α)是一个格林函数, ;;= I^1, "2,.·.,%『eIR* 禾口 β = β2,... , β Jt 是系数向量;2)通过解下面的线性方程组获得系数向量η和β 其中
K 是一个 kXk 的对称矩阵,Kij
=Φ ( Il t.-tj II), P 是一个 IXk 的矩阵,Pij = Pjtj),得到 τ (g) = fTBf3)对于m维中的每一分量,τ (g)由全局坐标f来表达,将m维中值τ (g)累加起 来,对于第i个样本Xi,得到目标值为

其中巧,…,厶]eR-,将所有n个训练数据的目标值加起来,得到总体的目标值 令L' = SBST,这样就得到了基于局部样条嵌入的拉普拉斯矩阵L'。所述的根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入 正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得 到低维特征向量训练样本步骤为1)通过学习得到正交投影矩阵ω e Rdxm,m < d,能保证训练样本在经过a降维后 类间离散度尽量大和类内离散度尽量小,同时使得原始空间中相邻样本在投影后低维子空 间中仍然相邻,即求解以下最优化问题 s. t. aTa = I这样,可通过求解矩阵的广义特征根得到优化的投影矩阵a ;2)由投影矩阵a实现对原始高维特征向量的维度降低,从而获得图像数据的低维 表达 X' = aTX。所述的采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型 步骤为分类器模型的输入是经过正交投影矩阵a降维得到的低维特征向量X’, Ii= 乂式以 及相应的类别标识yi e {+1,-1},输出是分类器模型的张量超平面参数!4;£股 ^和办曰胶;
坊去Hl2+也
通过求解最优化问题,τ , ‘-1
st ^(WrXi
松弛因子。所述的对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过 分类器模型进行分类步骤为训练样本集合外的测试样本数据A由正交投影
矩阵a映射为低维子空间中的I/,然后通过分类器模型进行类别检测,即计算
yt = sign(wT χ Xt')+ b,来得到测试数据的类别标识yt e {+1,-1}。实施例1.对每个图像数据集选取η个样本数据作为训练集,训练集包括有标注信息的训 练样本和未标注信息的训练样本,其余作为测试集;2.利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵给定属于c类的η个样本所组成的训练集合X = Ix1, . . , X1, x1+1, . . .,xn},其中 χ丨e Mdxl,i = 1,...,n,前1个样本具有类别标注信息{只}。e {l,2,...,c},剩余n_l个 样本^KU1没有被标注。利用包含标注信息训练样本{1,}丨=1构造类间散度矩阵Sb和类内散 度矩阵Sw Sb =YjI^-μ){μ^-μ)Τ
k=l
得到和b,其中c是常量,ξ是
Weirxl
9
其中,Ik表示属于第k类的训练样本个数
,表示第k类中第i个样本…=丨g X,
为,^均值
表示第让类中样本均值。3.利用整体训练样本数据的特征空间分布,通过局部样条嵌入方式构造拉普拉斯 矩阵假定给定样本χ, e Rd的k近邻数据的局部低维嵌入坐标和全局低维嵌入坐标为 tj e “和力e『,1彡i彡n,1彡j彡k。对于m维中的每一分量,希望分别构造一个样条 函数g (t),使得如下插值条件成立fj = g(tj), j = 1,2, ...Λ (1)为了得到样条函数g,最小化如下函数 其中λ >0是一个正则化参数,<是样条函数g在d维空间里的罚函数。在一定条件下,存在一个唯一的样条函数使得公式(2)中样条函数g(t)最小化 其中l=(d+s_l)! /(d ! (s-1)! ),{巧⑴}、构成了一个阶数不小于s的多项 式空间,2s > d。Φ」α)是一个格林函数。为了保证解的唯一性,还需要满足如下边界条件 k 当满足式(4)时,式(3)中的函数Φ」(·)是条件正定的。将式(1)和式⑷代入式(3),系数向量Z7= [T7lJ2,".^feKi, β =
β 2,...,β Jt通过解下面的线性方程组获得 其中
e股,κ是一个kX k的对称矩阵,K
=Mlltftj ||),P是一个IXk的矩阵,Pij = PiU^因为Φ」(·)是一条件正定函数, 因此上述方程组存在唯一解。化简式(2)得τ (g) oc η τκ η = fTBf(5)其中B是々—1中大小为kXk最左上子矩阵。根据式(5),对于m维中的每一分量,式⑵的值τ (g)可以由全局坐标f来表达。将m维中值τ (g)累加起来,对于第i个样本Xi,得到目标值为 其中巧 将所有η个训练数据的目标值加起来,得到总体的目标值 其中5 = JMg(辟,..” ^JeR*"*, S = ^S2,...SJeRnxnk ,F = Lf1, f2, ... , f J ,
S 是列选择矩阵,使得Fi = FSi0令L' = SBSt,这样就得到了基于局部样条嵌入的拉 普拉斯矩阵L'。4.根据局部样条嵌入的正交半监督子空间模型,通过寻找转换矩阵实现对原始高 维特征向量的维度降低1)通过学习得到正交投影矩阵Rrfxi",m< d,能保证训练样本在经过a降维后 类间离散度尽量大和类内离散度尽量小,同时使得原始空间中相邻样本在投影后低维子空 间中仍然相邻。即求解以下最优化问题 这样,可通过求解矩阵的广义特征根得到优化的投影矩阵a 2)由投影矩阵a实现对原始高维特征向量的维度降低,从而获得图像数据的低维 表达 X' = aTX。5.采用支持向量机对降维后的训练样本集合建立分类器模型分类器模型的输入是经过正交投影矩阵a降维得到的低维特征向量允,I;= 乂式以 及相应的类别标识Yi e {+1,-1},输出是分类器模型的张量超平面参数WeRM1和 6.对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器 模型进行分类训练样本集合外的测试样本数据;G Ki^^由正交投影矩阵a映射为低维子空间
中的Z; SlTp^,然后通过分类器模型进行类别检测,即计算
得到测试数据的类别标识 图2给出了本发明的5幅图像分类结果。
得到和b,其中c是常量,ξ是
权利要求
一种基于局部样条嵌入的正交半监督子空间图像分类方法,其特点在于包括如下步骤1)对每个图像数据集选取n个样本数据作为训练集,训练集包括有标注信息的训练样本和未标注信息的训练样本,其余作为测试集;2)利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵;3)利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵;4)根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌入正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维,得到低维特征向量训练样本;5)采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模型;6)对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再通过分类器模型进行分类。
2.根据权利要求1所述的一种基于局部样条嵌入的正交半监督子空间图像分类方法, 其特点在于所述的利用有标注信息的训练样本构造类间散度矩阵和类内散度矩阵步骤为 给定属于c类的η个样本所组成的训练集合 其中\ e Erfxl,i = 1,. . .,n,前1个样本{1,}丨=1具有类别标注信息伙}丨=1 e {1,2,...,c},剩余n_l个样本{xJL+Γ没有被标注,利用包含标注信息训练样本& V构造类间散度矩阵 和类内散度矩阵& 其中,ik表示属于第k类的训练样本k=\ /=1个数,w表示第k类中第i个样本,为/ ν均值 广表示第k类中样 XiI /=1 iXi //=1U '=I本均值。
3.根据权利要求1所述的一种基于局部样条嵌入的正交半监督子空间图像分类方法, 其特点在于所述的利用有标注信息的训练样本和未标注信息的训练样本的特征空间分布, 通过局部样条嵌入方式构造拉普拉斯矩阵步骤为1)假定给定样本Rd的k近邻数据的局部低维嵌入坐标和全局低维嵌入坐标为 tj ^ ^“和力e Rm,1彡i彡n,1彡j彡k,对于m维中的每一分量,分别构造一个样条函数g(t),使得 ·」=gap ;对如下函数 进行最小化,得到 样条函数g,其中λ >0是一个正则化参数,是样条函数g在d维空间里的罚函数,当 = Σ属凡⑴+ ⑴时,上式存在唯一解,其中 {巧⑴丨^构成了一个阶数不小于s的多项式空间 是一个格林函数, ;/^[^,^,...,^reRiP β = [βι; β2,... , βΥ 是系数向量;2)通过解下面的线性方程组获得系数向量η和β 是一个 IXk 的矩阵,Pij = Piaj),得到 τ (g) =fTBf3)对于m维中的每一分量,τ (g)由全局坐标f来表达,将m维中值τ (g)累加起来, 对于第i个样本Xi,得到目标值为 将所有η个训练数据的目标值加起来,得到总体的目标值 E(F)^ei =YHFiBiFj) = tr{FSBST Ft) ,这样就得到了基于局部样条嵌入的拉普拉斯矩阵L'。
4.根据权利要求1所述的一种基于局部样条嵌入的正交半监督子空间图像分类方法, 其特点在于所述的根据类间散度矩阵和类内散度矩阵以及拉普拉斯矩阵构成局部样条嵌 入正交半监督子空间模型,通过寻找转换矩阵来对原始高维特征向量训练样本进行降维, 得到低维特征向量训练样本步骤为1)通过学习得到正交投影矩阵βe Mrfxm,m < d,能保证训练样本在经过a降维后类间 离散度尽量大和类内离散度尽量小,同时使得原始空间中相邻样本在投影后低维子空间中 仍然相邻,即求解以下最优化问题aopt = arg max tr[(aT (Sw + yXLXT )α)~λ aTSba]a<5. . £1 £1 — I这样,可通过求解矩阵的广义特征根得到优化的投影矩阵a ;2)由投影矩阵a实现对原始高维特征向量的维度降低,从而获得图像数据的低维表达X! — & X ο
5.根据权利要求1所述的一种基于局部样条嵌入的正交半监督子空间图像分类方法, 其特点在于所述的采用支持向量机对降维后的低维特征向量训练样本集合建立分类器模 型步骤为分类器模型的输入是经过正交投影矩阵a降维得到的低维特征向量^arXi 以及相应的类别标识Yi e {+1,-1},输出是分类器模型的张量超平面参和通过求解最优化问题1 2 min -IIwII + C^jξ Kb,ξ 2 ‘St γ^τχ\^υ)>\-ξ beR ;L" ^ ^0量,ξ是松弛因子。
6.根据权利要求1所述的一种基于局部样条嵌入的正交半监督子空间图像分类方 法,其特征在于所述的对于测试数据集,由训练集合计算得到的投影矩阵进行投影后,再得到和b,其中c是常WGRmx1通过分类器模型进行分类步骤为训练样本集合外的测试样本数据& eITix"由正交投 影矩阵a映射为低维子空间中的X;,然后通过分类器模型进行类别检测,即计算yt =5绘《(>/\不_) +办,来得到测试数据的类别标识、e {+1,-1}。
全文摘要
本发明公开了一种基于局部样条嵌入的正交半监督子空间图像分类方法。包括如下步骤1)对图像数据集选取n个样本作为训练集,包括有标注数据和未标注数据,其余作为测试集;2)利用有标注数据构造类间散度矩阵和类内散度矩阵;3)利用整体训练数据特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵;4)根据局部样条嵌入正交半监督子空间模型,寻找投影矩阵对原始高维特征向量进行降维;5)采用支持向量机对降维后训练样本建立分类器;6)利用投影矩阵对测试集进行降维,再通过分类器对降维后的测试集进行分类。本发明充分利用了图像样本标注和特征空间分布等信息,能挖掘图像数据之间潜在语义关联,对图像语义进行了较好的分析与表达。
文档编号G06K9/62GK101916376SQ20101022013
公开日2010年12月15日 申请日期2010年7月6日 优先权日2010年7月6日
发明者张寅 , 朱科, 邵建 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1