基于缺损数据的非线性特征提取和分类方法与流程

文档序号:11952074阅读:261来源:国知局
基于缺损数据的非线性特征提取和分类方法与流程

本项发明涉及信息处理技术中的数据挖掘方向,可应用于缺损数据的非线性特征挖掘领域,特别涉及一种基于缺损数据的非线性特征提取和分类方法。



背景技术:

科学的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。在信息时代的科学研究过程中,不可避免的会遇到大量的数据,如全球气候模型、图像分类系统、文本聚类和基因序列的建模等。人们虽然可以获取大量的信息资源,但由于缺乏挖掘数据背后隐藏的知识的手段,人们无法更好的发现数据中存在的关系和规则,也无法很好的根据现有的海量数据预测未来的发展趋势。目前,数据挖掘引起了信息产业界和整个社会的极大关注。而在数据挖掘的过程中,面对的海量数据对于我们想要研究的具体方向往往是不完整的。缺损数据产生的原因很多,例如:有些数据有时有些属性内容缺失;有些属性在当时被认为是不必要的;有些属性的值根本不能直接观察获得等。举一个常见的例子,在视频监控中,监控目标可能被其它物体部分遮挡,此时只能获取监控目标的部分图像,这些被遮挡的图像即为缺损数据。由于数据的缺损在现实世界中普遍存在,如何挖掘出缺损数据的本质信息和关联,成为数据挖掘领域中备受关注的一个问题。

目前所形成的对缺损数据挖掘的一个通用方法:先将缺损整数据中的缺失值按照某种原则和方法进行填充,再挖掘出填充后数据的本质信息。现有的对缺损数据的缺损值填充的方法主要有人工填补法、单值填补法、类均值填补法、推断填补法、EM算法等等。目前,这些算法被广泛的用于缺损数据挖掘,它们在挖掘缺损数据之间的线性关系方面取得了值得肯定效果,但是它们都无法很好的挖掘缺损数据之间的非线性关系。基于此,迫切需要在缺损数据挖掘中引入非线性降维即流形学习方法。

近几年来,流形学习在机器学习领域成为了一个新的热点问题。现有的传统数据降维方法,如主分量分析(PCA)、多维尺度变换(MDS)等,降维后得到的低维数据能保持高维数据点之间的全局线性关系。但在实际的应用分析中,这些高维数据可能嵌入在一个非线性的流形,数据点之间并不具有全局的线性关系。比如,在动态物体的监控视频中,采自视频序列的图像维数为图像中的像素点的个数,这些图像可以视为高维空间中的高维数据点。当视频序列描述运动物体时,运动物体在每帧图像中的坐标包含了这帧图像的主要信息。因此,这些视频实际上嵌入在一个非线性的低维流形,视频帧之间并不具有全局的线性关系。流形学习方法相对于传统的线性降维方法,能够比较好地挖掘隐藏在高维数据中的流形结构。其中代表性的流形学习方法有等距映射(ISOMAP)、局部线性嵌入(LLE)、拉普拉斯特征映射(LE)和局部切空间对齐(LTSA)。流形学习虽然具有参数少,实现简单,计算快等优点,但其要求数据具有近似完整的流形结构,所以当数据缺损不完整时,流形学习算法的效果会受到很大的影响。



技术实现要素:

本发明的目的在于克服现有技术的不足,提出一种基于缺损数据的非线性特征提取和分类方法,基于流形学习的基本思想,从构造局部邻域、提取局部坐标和局部坐标对齐三个方面提出一种适用于缺损数据的算法,实现缺损数据的非线性特征提取和分类。

本发明解决其技术问题所采用的技术方案是:

一种基于缺损数据的非线性特征提取和分类方法,包括如下步骤:

采用缺损数据的距离估计方法来构造数据点的局部邻域集和局部邻域集对应的缺失标记集;

构造基于所述局部邻域集和其对应的缺失标记集的核范数正则化模型,并使用动态自适应迭代算法求解该模型来提取局部坐标;

对齐所述局部坐标,获得全局坐标。

优选的,所述采用缺损数据的距离估计方法来构造数据点的局部邻域集和局部邻域集对应的缺失标记集,包括:

(1)对于每个数据点xi(i=1,2,…,n),定义一个缺失性标记向量fi=(fi1,fi2,…,fim)T,其中fit=0当且仅当数据点xi中的第t个属性值缺失,否则fit=1;用如下公式表示两个具有缺失值的数据点xi和xj之间的距离:

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>I</mi> </mrow> </munder> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <msqrt> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>I</mi> </mrow> </munder> <msup> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>I</mi> </mrow> </munder> <msup> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>,</mo> <mi>I</mi> <mo>=</mo> <mo>{</mo> <mi>t</mi> <mo>|</mo> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>f</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>}</mo> </mrow>

其中,i=1,2,…,n;j=1,2,…,n;I表示数据点xi和xj已知数值的指标集;

(2)对于每个数据点xi使用上述公式计算出其对应的k个近邻点;

(3)构造数据点xi的局部邻域集和其对应的缺失标记集Fi

优选的,新的核范数正则化模型如下:

其中,⊙表示矩阵之间的点乘,c和Z为模型的解,e=[1,1,…,1]T,λ表示正则化参数。

优选的,所述使用动态自适应迭代算法求解该模型具体指获取模型的最优解c*和Z*

优选的,所述获取模型的最优解c*的方法如下:

(1)令由于是凸函数,则可以通过如下公式获取c*最优解:

(2)基于上式求得最优解c*的表达式:

c*=(Fi⊙(Xi-Z*))e·/(Fi)e

其中,·/表示矩阵或向量之间的点除。

优选的,所述获取模型的最优解Z*的方法如下:

(1)获取最优解Z*的KKT条件,如下:

其中,表示核函数的次梯度集合;

(2)对上述公式进行等同变换得到:

(3)在其两侧同时加上Z*进一步变换得到:

(4)根据上式求解如下最小化问题来获取最优解Z*

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>Z</mi> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>Z</mi> <mo>-</mo> <msub> <mi>Y</mi> <mo>*</mo> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>Z</mi> <mo>|</mo> <msub> <mo>|</mo> <mo>*</mo> </msub> </mrow>

(5)由Z*=Sλ(Y*)给出上式的最优解,其中Sλ(·)表示收敛算子,令Y的奇异值分解为则Σλ=diag[(λ1-λ)+,…,(λr-λ)+]并且(λi-λ)+=max(λi-λ,0),UY和VY分别表示Σλ对应的左右奇异向量组成的矩阵。

优选的,所述动态自适应迭代算法具体指动态调整正则化参数λ,使得最优解Z*的秩d*最终位于一个合理的范围内,而非某一个固定值。

优选的,对最优解Z*进行SVD分解,即Z*=UiΣiViT,得到d*维的局部坐标

优选的,所述对齐所述局部坐标,获得全局坐标,具体包括:

(1)令Xi中对应的数据点的全局低维坐标为并最小化对齐成本函数,如下:

<mrow> <msup> <mi>E</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <munder> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>c</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mi>d</mi> </msup> </mrow> </munder> <mrow> <mi>L</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <msup> <mi>d</mi> <mo>*</mo> </msup> </mrow> </msup> </mrow> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>-</mo> <msup> <mi>ce</mi> <mi>T</mi> </msup> <mo>-</mo> <msubsup> <mi>L&Theta;</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>;</mo> </mrow>

(2)求得上式的最优解ci=Tie/k,其中是局部坐标的广义逆;

(3)根据求得其中Vi是由Z*的最大的d*个奇异值对应的右奇异向量构成的矩阵;

(4)将所述对齐成本函数转换为如下形式:

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>T</mi> </munder> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>T</mi> </munder> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <msubsup> <mi>V</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> </mrow>

其中,J=I-eeT/k;

(5)令Wi=J(I-ViViT),Si为选择矩阵,满足TSi=Ti,上述公式转换成如下形式:

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>T</mi> </munder> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>T</mi> </munder> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>TS</mi> <mi>i</mi> </msub> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>=</mo> <munder> <mrow> <mi>min</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>c</mi> <mi>e</mi> </mrow> <mi>T</mi> </munder> <mrow> <mo>(</mo> <msup> <mi>T&Phi;T</mi> <mi>T</mi> </msup> <mo>)</mo> </mrow> </mrow>

其中:

<mrow> <mi>&Phi;</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>S</mi> <mi>i</mi> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <msubsup> <mi>V</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <msubsup> <mi>V</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msup> <mi>J</mi> <mi>T</mi> </msup> <msubsup> <mi>S</mi> <mi>i</mi> <mi>T</mi> </msubsup> </mrow>

(6)求解矩阵Φ的最小的第2个到第d+1个非零特征值对应的特征向量[u2,…,ud+1]构成最优全局低维坐标T=[u2,…,ud+1]T

本发明具有如下有益效果:

(1)提出一种适用于缺损数据的距离估计方法,从而可以准确地构造每个缺损数据点的局部邻域;

(2)提出一种新的核范数正则化模型以及求解该模型的动态自适应迭代算法,从而快速准确地提取局部坐标;

(3)通过对齐局部坐标,获得全局坐标。

以下结合附图及实施例对本发明作进一步详细说明,但本发明的一种基于缺损数据的非线性特征提取和分类方法不局限于实施例。

附图说明

图1为本发明方法的流程图示意图;

图2为本发明方法与其他方法在不同缺失率图像集上其分类正确率的变化图。

具体实施方式

参见图1,本发明提供的一种基于缺损数据的非线性特征提取和分类方法,包括如下步骤:

步骤101:采用缺损数据的距离估计方法来构造数据点的局部邻域集和局部邻域集对应的缺失标记集。

对于每个数据点xi(i=1,2,…,n),定义一个缺失性标记向量fi=(fi1,fi2,…,fim)T,其中fit=0当且仅当数据点xi中的第t个属性值缺失,否则fit=1,则整个数据集X=(x1,x2,…,n)的缺失性标记矩阵为F=(f1,f2,…,fn)。本发明基于余弦相似度的基本思想,将数据点看成其对应的向量,则两个具有缺失值的数据点xi和xj之间的距离可以表示为

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <msqrt> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msup> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msup> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>,</mo> <mi>A</mi> <mo>=</mo> <mo>{</mo> <mi>t</mi> <mo>|</mo> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>f</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中A表示数据点xi和xj已知数值的指标集。向量的余弦相似度的范围为[0,1],相似度越大,距离越小。对于每个数据点xi使用公式(1)可以得到其对应的k个近邻点,从而构造数据点xi的局部邻域集和其对应的缺失标记集Fi

步骤102:构造基于所述局部邻域集和其对应的缺失标记集的核范数正则化模型,并使用动态自适应迭代算法求解该模型来提取局部坐标。

本发明面向缺损数据所提出的一种新的核范数正则化模型如下:

进一步的,提出一种动态自适应迭代算法对于公式(2)进行求解。

令由于是凸函数,则其最优解c*和Z*的KKT-条件分别如下:

其中,表示核函数的次梯度集合。

基于KKT-条件(3)可以得到最优解c*的表达式:

其中,·/表示矩阵或向量之间的点除。

同理,基于KKT-条件(4)可以得到最优解Z*等同于满足公式在其两侧同时加上Z*可得可以明显得出(由公式推导得出),求解最优解Z*等价于求解如下最小化问题:

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>Z</mi> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>Z</mi> <mo>-</mo> <msub> <mi>Y</mi> <mo>*</mo> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>Z</mi> <mo>|</mo> <msub> <mo>|</mo> <mo>*</mo> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中Y*由Z*决定。公式(6)的最优解可由Z*=Sλ(Y*)给出,则可以得到:其中Sλ(·)是收敛算子。已知是Y的SVD分解,则可得其中Σλ=diag[(λ1-λ)+,…,(λr-λ)+]并且(λi-λ)+=max(λi-λ,0)。

具体的,最优解Z*可由下面的定点迭代算法进行计算。初始化一个Z,每一次定点迭代方法由两步构成:

●推演:Z→Y=Z+Fi⊙(Xi-c*eT-Z)

●收敛:Y→Z=Sλ(Y)

综所上述,初始化一个Zold,本发明提出的动态自适应迭代算法由以下三步构成:

●Zold→cnew=(Fi⊙(Xi-Z))e./(Fi)e

●cnew,Zold→Y=Zold+Fi⊙(Xi-cneweT-Zold)

●Y→Znew=Sλ(Y)

通过上述分析,可以得出最优解Z*的秩取决于正则化参数λ。对于一个d维的流形,传统流形学习算法通过构造d维的局部线性近似坐标来获得全局的d维的嵌入坐标。但是,在实际应用中,每个局部邻域的真实维度是很难确定的,尤其是该流形具有噪声或者数据缺损。因此,对于每个局部邻域,其最优解Z*的秩d*应该位于一个合理的区间范围内,而不是固定为一个定值,如d。在本发明的交替算法中,将动态调整正则化参数λ,使得最优解Z*的秩d*最终位于一个合理的范围[dmin,dmax]内。首先,创造一系列递减的正则化参数λ的值:λ11-τ,λ1-2τ,…,其中,λ1和τ是由用户设置的参数值,但由于其对实验效果的影响远远低于dmin和dmax,通常将λ1设置为Fi(Xi-ceT)进行SVD分解后的第5个最大的奇异值,τ=λ1/10。随着正则化参数λ的值减小,d*将逐渐增大。如果满足条件d*<dmin,则继续减少正则化参数λ的值。如果满足条件d*>dmax,则适当增加正则化参数的值,例如:λ=λ+τ/2。重复上述过程,直到d*∈[dmin,dmax]。

总结上述分析过程,本实施例中,可得具体的动态自适应迭代算法流程如下:

输入:数据点xi的局部邻域集Xi和其对应的缺失标记集Fi,局部邻域秩的合理估计范围[dmin,dmax]。

输出:目标填充矩阵Z*和c*,具体步骤如下:

步骤1初始化Zold=0,λ是Fi(Xi-ceT)进行SVD分解后的第5个最大的奇异值,τ=λ/10,ε=10-5

步骤2求解公式(2)得到c和Z,具体步骤如下:

步骤2.1求解cnew=Fi⊙(Xi-Zold)·/|Fi|。

步骤2.2求解Znew←Sλ(Fi⊙(Xi-cneweT)+Fi⊙Zold),其中F为缺失标记矩阵F的补集,满足公式F⊙X+F⊙X=X。

步骤2.3如果符合条件令d*为Znew的秩,进行步骤3。

步骤2.4令Zold←Znew,进行步骤2.1。

步骤3动态调整正则化参数λ。

步骤3.1如果符合条件d*∈[dmin,dmax],进行步骤4。

步骤3.2如果符合条件d*<dmin,适当减少正则化参数值λ,例如λ=λ-τ;进行步骤3.4。

步骤3.3如果符合条件d*>dmax,适当增加正则化参数值,例如λ=λ+τ/2;进行步骤3.4。

步骤3.4令Zold←Znew,进行步骤2。

步骤4令最优解Z*=Znew和c*=cnew

基于已获得的局部邻域Xi,本发明利用迭代算法求解模型(2)可以获得最优解Zi=Z*和ci=c*。对Zi进行SVD分解,即:Zi=UiΣiViT,可以得到d*维(其中,d*∈[dmin,dmax])的局部坐标

步骤103:对齐所述局部坐标,获得全局坐标。

通过对齐步骤102得到的局部坐标Θ*,获得全局坐标T。令Xi中对应的数据点的全局低维坐标为最小化下列对齐成本函数:

<mrow> <msup> <mi>E</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <munder> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>c</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mi>d</mi> </msup> </mrow> </munder> <mrow> <mi>L</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mi>d</mi> <mo>&times;</mo> <msup> <mi>d</mi> <mo>*</mo> </msup> </mrow> </msup> </mrow> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>-</mo> <msup> <mi>ce</mi> <mi>T</mi> </msup> <mo>-</mo> <msubsup> <mi>L&Theta;</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

对上述成本函数最小化的求解,可以通过如下矩阵获得:

<mrow> <mi>&Phi;</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>S</mi> <mi>i</mi> </msub> <mi>J</mi> <mo>(</mo> <mrow> <mi>I</mi> <mo>-</mo> <msubsup> <mi>&Theta;</mi> <mi>i</mi> <mrow> <mo>*</mo> <mo>+</mo> </mrow> </msubsup> <msubsup> <mi>&Theta;</mi> <mi>i</mi> <mo>*</mo> </msubsup> </mrow> <mo>)</mo> <msup> <mrow> <mo>(</mo> <mrow> <mi>I</mi> <mo>-</mo> <msubsup> <mi>&Theta;</mi> <mi>i</mi> <mrow> <mo>*</mo> <mo>+</mo> </mrow> </msubsup> <msubsup> <mi>&Theta;</mi> <mi>i</mi> <mo>*</mo> </msubsup> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msup> <mi>J</mi> <mi>T</mi> </msup> <msubsup> <mi>S</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其中,I为合适维度的单位矩阵,J=I-eeT/k,Si为选择矩阵,满足TSi=Ti,是局部坐标的广义逆。求解矩阵Φ的最小的第2个到第d+1个非零特征值对应的特征向量[u2,…,ud+1]构成最优全局低维坐标T=[u2,…,ud+1]T

如图2所示为本发明方法与其他方法在不同缺失率图像集上其分类正确率的变化图。在两个真实图像数据集COIL-20-PROC和CMU PIE上的实验效果验证了本发明的有效性。对比算法有两个,一个是LTSA(missing),表示将具有缺损数据的图像集直接用LTSA算法降维到低维特征空间;另一个是LTSA(recovery),表示先用某种填充算法(这里采用的是单值填充算法)对缺损数据集中的缺失值进行填充,然后将填充后得到的图像集用LTSA算法降维到低维特征空间。对上述算法得到的低维嵌入后的结果采用K-NN(K-Nearest Neighbor)分类器进行分类,得到不同对比算法的分类效果。通过表1可以看出本发明在不同缺失程度(缺失像素个数/总像素个数)的COIL-20-PROC图像集上,其分类的准确率都远高于其它对比算法,体现了非常好的效果。通过图2可以看出本发明在不同缺失率(缺失图片个数/总图片个数)的CMU-PIE图像集上,其分类的准确率保持在一个较高且稳定的区间内,具有非常好地鲁棒性。

表1在不同缺失程度COIL-20-PROC图像集上其分类的正确率(%)

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1