一种基于字典和样本相似图的无监督特征选择方法和装置与流程

文档序号:18901494发布日期:2019-10-18 22:00阅读:390来源:国知局
一种基于字典和样本相似图的无监督特征选择方法和装置与流程

本发明涉及信号处理、数据分析领域,具体涉及一种基于字典和样本相似图学习的无监督特征选择方法和装置。



背景技术:

随着传感器和互联网媒体的快速发展,高维分析和大数据已经成为一个具有挑战性和不可避免的问题。在许多应用中,如计算机视觉、机器学习、模式识别和医学分析等都运用了大量的高维数据。虽然数据通常被表示为高维特征向量,但是对于学习任务来说,只有一个很小但未知的特征子集是非常重要的和有区别的。直接处理这些高维数据不仅会显著增加对计算资源的需求,而且由于维数灾难(curseofdimensionality)会降低许多现有算法的性能。特征选择通常被认为是减少不相关或冗余特征的数量以提高学习算法性能的一个重要过程。

根据是否利用了样本数据类别的标签信息,特征选择方法一般可分为三类:有监督特征选择(supervisedfeatureselection)、无监督特征选择(unsupervisedfeatureselection)和半监督特征选择(semi-supervisedfeatureselection)。通常,无监督特征选择方法可以概括为三种,即,过滤式(filter)、封装式(wrapper)和嵌入式(embedded)。相比于其他两种方法,嵌入式方法通常构建一个学习模型来输出特征的子集,它在许多方面都能取得优异的性能,并得到了迅速的发展。基于嵌入式方法的数据表达得到了广泛的应用,并提出了各种模型。这些方法假定原始数据可以通过在选定的特征子集上执行重构函数来表示,然后在特征选择的表征系数矩阵上加一个特殊的正则化矩阵。其中,使用的最多的现有算法模型是自表示算法,它假定每个特征都可以表示为其相关特征的线性组合。此外,为了研究数据的局部结构,通常将图拉普拉斯算子嵌入到嵌入式ufs方法中。然而,传统的嵌入式方法至少存在两个问题。第一,现有的大多数算法是在原始特征空间上进行特征选择,由于原始特征空间的噪声和冗余特征,往往会导致结果不准确,且无法利用更高层次和更抽象的表示。第二,传统的ufs方法通常分别构造相似矩阵和进行特征选择,因此,在后续的过程中,从原始数据中得到的相似矩阵保持不变,但现实数据中包含的噪声样本和特征不可避免地使相似矩阵变得不可靠。这个不可靠的相似矩阵可能会破坏原始数据的局部流行结构,从而使结果无法最优化。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的缺陷,提供一种基于字典和样本相似图学习的无监督特征选择方法及系统-dgl-ufs,与其他无监督特征选择算法,如:ls、baseline、scufs和rjgsc等进行比较,dgl-ufs方法是在字典基空间上而不是在基本特征空间上选择特征,且自动学习一个相似矩阵,以保持数据的局部流形结构。

本发明解决其技术问题所采用的技术方案是:构造一种基于字典和样本相似图学习的无监督特征选择方法,包括以下步骤:

s1、给定一个原始数据矩阵x={x1,x2,…xn}={f1;f2…;fd}∈rd×n;其中:

n是样本个数,d是特征向量的数量;i∈n,xi∈rd×1表示的是第i个样本;j∈d,fj∈rd×1是第j个特征向量;

s2、学习具有m个基向量的字典d∈rd×m,利用字典d对步骤s1给定的原始数据矩阵x进行重构,得到一个新的字典基空间w;其中,利用l2,1范数对w施加行稀疏性,使得从字典d中选择出对应的基向量来表示每个样本;

s3、利用基于图模型的拉普拉斯约束模型,定义约束正则化项;

s4、结合步骤s2得到的字典基空间w,以及步骤s3定义的约束正则化项,在字典基空间w上,进行特征选择,具体为:构造dgl-ufs模型目标函数,求解获得w;其中,利用迭代优化策略,通过对目标函数中的多个变量进行彼此间的约束,最终计算得到w。

进一步的,对原始数据矩阵x进行重构,所得的重构系数矩阵w∈rm×n作为新产生的字典空间;其中,关于基向量和新的字典基空间学习的目标函数可以表示为:

其中,表示取矩阵“·”的f范数的平方;β为一个取正的平衡参数;字典d的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;||w||2,1表示利用l2,1范数对字典基空间w施加行稀疏性;m为大于1的正整数。

进一步的,步骤s3中定义的约束正则化项表达式为:

其中,sij是数据点xi和xj之间的相似度量;l=a-s是图拉普拉斯矩阵,a为一个对角矩阵,其中,s为相似度矩阵;wi或wj为w的第i或j列。

进一步的,定义的dgl-ufs模型目标函数为:

s.t.||di||2≤1,st1=1,s≥0,i=1,2,…m

其中,表示矩阵“·”的f范数的平方;α是用于平衡图正则项的一个取正的常数,β是一个取正的平衡参数;l=a-s是图拉普拉斯矩阵,a为一个对角矩阵,s为相似矩阵;||w||2,1表示利用l2,1范数对字典基空间w施加行稀疏性;字典d的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;m为大于1的正整数。

进一步的,步骤s4中,通过交替迭代优化策略求解目标函数的具体步骤为:

s51、初始化字典基d和相似矩阵s;

s52、固定参数d和s,将目标函数转换为:

其中,使用一个迭代重加权最小二乘算法,通过求解上述目标函数,进一步更新参数w;

s53、固定参数w和s,将目标函数转换为:

其中,使用admm-alternatingdirectionmethodofmultipliers算法,通过引入一个变量矩阵到目标函数中,进一步更新参数d;

s54、固定参数w和d,将目标函数转换为:

其中,由于每个样本的相似向量是独立的,对于第i个样本,当前目标函数表示为:

通过引入拉格朗日乘数,得到当前第i个样本的相似矩阵si;进一步的,针对每个样本,采用上述相同的方法,依次更新每个样本的相似矩阵,实现了对参数s的更新;

s55、重复执行步骤s52-s54,直到目标函数收敛时,输出收敛情况下的参数s、d和w。

本发明提出的一种基于字典和样本相似图学习的无监督特征选择装置,该装置包括以下模块:

数据设置模块,用于给定一个原始数据矩阵x={x1,x2,…xn}={f1;f2…;fd}∈rd×n;其中:

n是样本个数,d是特征向量的数量;i∈n,xi∈rd×1表示的是第i个样本;j∈d,fj∈rd×1是第j个特征向量;

空间重构模块,用于学习具有m个基向量的字典d∈rd×m,利用字典d对数据设置模块给定的原始数据矩阵x进行重构,得到一个新的字典基空间w;其中,利用l2,1范数对w施加行稀疏性,使得从字典d中选择出对应的基向量来表示每个样本;

约束正则化模块,用于利用基于图模型的拉普拉斯约束模型,定义约束正则化项;

特征选择模块,用于结合空间重构模块得到的字典基空间w,以及约束正则化模块定义的约束正则化项,在字典基空间w上,进行特征选择,具体为:构造dgl-ufs模型目标函数,求解获得w;其中,利用迭代优化策略,通过对目标函数中的多个变量进行彼此间的约束,最终计算得到w。

进一步的,对原始数据矩阵x进行重构,所得的重构系数矩阵w∈rm×n作为新产生的字典空间;其中,关于基向量和新的字典基空间学习的目标函数可以表示为:

其中,表示取矩阵“·”的f范数的平方;β为一个取正的平衡参数;字典d的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;||w||2,1表示利用l2,1范数对字典基空间w施加行稀疏性;m为大于1的正整数。

进一步的,约束正则化模块中定义的约束正则化项表达式为:

其中,sij是数据点xi和xj之间的相似度量;l=a-s是图拉普拉斯矩阵,a为一个对角矩阵,其中,s为相似度矩阵;wi或wj为w的第i或j列。

进一步的,定义的dgl-ufs模型目标函数为:

s.t.||di||2≤1,st1=1,s≥0,i=1,2,…m;

其中,表示矩阵“·”的f范数的平方;α是用于平衡图正则项的一个取正的常数,β是一个取正的平衡参数;l=a-s是图拉普拉斯矩阵,a为一个对角矩阵,s为相似矩阵;||w||2,1表示利用l2,1范数对字典基空间w施加行稀疏性;字典d的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;m为大于1的正整数。

进一步的,特征选择模块中,通过交替迭代优化策略求解目标函数的具体步骤为:

s51、初始化字典基d和相似矩阵s;

s52、固定参数d和s,将目标函数转换为:

其中,使用一个迭代重加权最小二乘算法,通过求解上述目标函数,进一步更新参数w;

s53、固定参数w和s,将目标函数转换为:

其中,使用admm-alternatingdirectionmethodofmultipliers算法,通过引入一个变量矩阵到目标函数中,进一步更新参数d;

s54、固定参数w和d,将目标函数转换为:

其中,由于每个样本的相似向量是独立的,对于第i个样本,当前目标函数表示为:

通过引入拉格朗日乘数,得到当前第i个样本的相似矩阵si;进一步的,针对每个样本,采用上述相同的方法,依次更新每个样本的相似矩阵,实现了对参数s的更新;

s55、重复执行步骤s52-s54,直到目标函数收敛时,输出收敛情况下的参数s、d和w。

在本发明所述的一种基于字典和样本相似图学习的无监督特征选择方法及系统中,由于w={w1,w2,…,wn}是x的一个新空间,在新的字典基空间中,使用l2,1范数对w施加的行稀疏性可以用来度量特征的重要性。与以往在原始特征空间中的低级表示方法相比,dgl-ufs捕获了更高的层次和更抽象的表示。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实现无监督特征选择的方法流程图;

图2是本发明公开的无监督特征选择装置结构原理图;

图3是本发明公开的求解字典基空间w的迭代算法图;

图4是本发明公开的使用迭代优化算法求解目标函数的算法图;

图5是八个数据库的统计资料;

图6是不同的特征选择方法在各个数据库上的聚类结果图(acc%±std%);

图7是不同的特征选择方法在各个数据库上的聚类结果图(nmi%±std%);

图8是在不同的数据集上,不同方法对应不同数量的选定特征的acc值;

图9是在不同的数据集上,不同方法对应不同数量的选定特征的nmi值;

图10是本发明在保持参数α=1,改变β的值的情况下的acc值;

图11是本发明在保持参数α=1,改变β的值的情况下的nmi值;

图12是本发明在保持参数β=1,改变α的值的情况下的acc值;

图13是本发明在保持参数β=1,改变α的值的情况下的nmi值;

图14是在yale数据集上算法1和算法2的收敛曲线;

图15是在coil20数据集上算法1和算法2的收敛曲线;

图16是在isolet数据集上算法1和算法2的收敛曲线;

图17是在prostate_ge数据集上算法1和算法2的收敛曲线;

图18是在lung数据集上算法1和算法2的收敛曲线;

图19是在srbct数据集上算法1和算法2的收敛曲线。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

请参考图1,其为本发明实现无监督特征选择的方法流程图,本发明公开的一种基于字典和样本相似图学习的无监督特征选择方法,包括以下步骤:

s1、给定一个原始数据矩阵x={x1,x2,…xn}={f1;f2…;fd}∈rd×n;其中:

n是样本个数,i∈n,d是特征数量,j∈d;xi∈rd×1表示的是第i个样本样本,fj∈rd×1是第j个特征向量;

s2、学习具有m个基向量的字典d∈rd×m,利用字典d对步骤s1给定的原始数据矩阵x进行重构,得到一个新的字典基空间w;其中,利用l2,1范数对w施加行稀疏性,使得从字典d中选择出对应的基向量来表示每个样本;

事实上,yang等人已经证实了不同数量的基会影响w的质量,为了使本发明公开的算法模型能够输出特征重要性,在本实施例中,只设置了与特征的维数相等的基数。关于基和空间学习的目标函数可以表示为:

其中,表示矩阵“·”的f范数的平方;β是一个取正的平衡参数;字典d的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;||w||2,1表示利用l2,1范数对字典基空间w施加行稀疏性;m为大于1的正整数。

本实施例中,使用l2,1范数而不用传统字典学习模型中的l1范数,主要原因有两个:第一,l1范数导致了元素的稀疏性,不能反映出不同特征的重要性,相反,l2,1范数可以对w施加行稀疏性,通过正则化可以在特征维度上测量距离。第二,将行稀疏性强加于w上,可以从d中选择密切相关的基来表示每个样本,也可以获取原始数据的局部属性。

s3、利用基于图模型的拉普拉斯约束模型,保留原始数据矩阵x之间的局部几何关系,并定义约束正则化项:

其中,sij是数据点xi和xj之间的相似度量;l=a-s是图拉普拉斯矩阵,a为一个对角矩阵,其中,s为相似度矩阵;wi或wj为w的第i或j列。

在先前的研究中,通常使用一定的距离度量(如高斯核函数)来计算数据样本之间的相似性。然而,在后续过程中,从原始数据中得到的相似矩阵是预先定义和固定的,而现实数据中包含的噪声样本和特征不可避免地使相似矩阵变的不可靠。我们尝试在优化过程中自动学习相似矩阵,而不是使用预先计算好的相似矩阵。

s4、结合步骤s2得到的字典基空间w,以及步骤s3定义的约束正则化项,在字典基空间w上,进行特征选择,具体为:构造dgl-ufs模型目标函数,求解获得w;其中,利用迭代优化策略,通过对目标函数中的多个变量进行彼此间的约束,最终计算得到w。

定义的dgl-ufs模型目标函数为:

s.t.||di||2≤1,st1=1,s≥0,i=1,2,…m;

其中,α是用于平衡图正则项的一个取正的常数。

由于w={w1,w2,…,wn}是x的一个新空间,在新的字典基空间中,使用l2,1范数对w施加的行稀疏性可以用来度量特征的重要性。与以往在原始特征空间中的低级表示方法相比,dgl-ufs捕获了更高的层次和更抽象的表示。

请参考图2,其为本发明公开的无监督特征选择装置结构原理图,该装置包括数据设置模块l1、空间重构模块l2、约束正则化模块l3和特征选择模块l4,其中;

数据设置模块l1用于给定一个原始数据矩阵x={x1,x2,…xn}={f1;f2;fd}∈rd×n;其中:

n是样本个数,i∈n,d是特征数量,j∈d;xi∈rd×1表示的是第i个样本样本,fj∈rd×1是第j个特征向量;

空间重构模块l2用于学习具有m个基向量的字典d∈rd×m,利用字典d对数据设置模块给定的原始数据矩阵x进行重构,得到一个新的字典基空间w;其中,利用l2,1范数对w施加行稀疏性,使得从字典d中选择出对应的基向量来表示每个样本;

约束正则化模块l3用于利用基于图模型的拉普拉斯约束模型,保留原始数据矩阵x之间的局部几何关系,并定义约束正则化项;

特征选择模块l4用于结合空间重构模块得到的字典基空间w,以及约束正则化模块定义的约束正则化项,在字典基空间w上,进行特征选择,具体为:构造dgl-ufs模型目标函数,求解获得w;其中,利用迭代优化策略,通过对目标函数中的多个变量进行彼此间的约束,最终计算得到w。

请参考图3-图4,其为本发明公开的求解字典基空间w的迭代算法图,以及使用迭代优化算法求解目标函数的算法图。

通过交替迭代优化策略求解目标函数的具体步骤为:

(1)固定d和s,更新w:

固定d和s,求解w,则目标函数转换为:

由于w的l2,1范数正则化,上式是凸的,但并不光滑,本实施例中使用一个迭代重加权最小二乘算法来解决它。假设更新w的子问题中w的当前估计为wt,定义了一个对角加权矩阵gt,第i个对角元素元素然后通过解下面的加权最小二乘问题来更新wt+1

对上式关于w求导,并设置求导的结果为零,得到:

(dtd+βg)w+αwls=dtx

上述方程是西尔维斯特(sylvester)方程,由于dtd+βg是严格的正定性的,因此上式具有稳定的解。

(2)固定w和s,更新d:

固定w和s,求解d,则目标函数转换为:

为了求解上式,本实施例中,使用admm(alternatingdirectionmethodofmultipliers)通过引入一个变量矩阵来得到d的最优解,得到:

通过以下迭代步骤可以得到最优的d:

y(t+1)=y(t)+d(t+1)-h(t+1)

其中,y是拉格朗日乘数,κ是参数,t表示迭代次数。

(3)固定w和d,更新s:

固定w和d,求解s,则目标函数转换为:

由于每个样本的相似向量是独立的,对于第i个样本,有:

s.t.1tsi=1,0≤sij≤1

为了便于表示,本实施例中用m表示一个矩阵向量mi∈rn×1,则上式可以写成:

通过引入拉格朗日乘数,可以得到si

在具体的实现中,用随机矩阵初始化d,用传统的高斯核函数初始化s得到:

其中,nk(xi)表示xi的k最近邻的集合,σ是一个宽度参数(在初始化步骤中,k=5,σ=1)。

为了充分验证本发明dgl-ufs方法的有效性,首先在六个常用的基本数据库上(yale、isolet、coil20、prostate_ge、lung、srbct)测试dgl-ufs方法的性能,同时与以下七种目前比较流行的无监督特征选择算法进行比较:

(1)baseline:所有的原始特征都被采用。

(2)ls:拉普拉斯得分特征选择,该方法选取最符合高斯拉普拉斯矩阵的特征。

(3)mcfs:多重聚类特征选择,该方法使用l1范数将特征选择过程规范化为光谱信息回归问题。

(4)sogfs:同时进行特征选择和局部结构学习的无监督特征选择方法,从而可以自适应地确定相似矩阵。

(5)cdl-fs:一种新的无监督特征选择的耦合分析-合成字典学习方法,使用合成字典重构样本,而分析字典对样本进行解析编码并为样本分配概率。

(6)scufs:子空间簇引导的无监督特征选择,通过基于表示的子空间聚类学习训练样本的聚类标签,选择能够很好地保留聚类标签的特征。

(7)rjgsc:一种新的联合图稀疏编码模型的无监督特征选择,该模型首先利用已有的字典学习方法提取训练数据的基,然后将原始数据提取到基空间中生成新的表示。

实验中,在六个公开的数据库上对dgl-ufs方法与其他七种无监督特征选择方法进行对比试验。六个数据库包括一个人脸图像数据库(yale)、一个语音信号数据库(isolet)、一个对象图像数据库(coil20)和三个生物数据库(prostate_ge、lung和srbct)。这些数据库的统计资料如图5所示。

类似于以往的无监督特征选择方法,本发明中也使用挑选的特征执行k-means集群,采用两种被广泛应用的评价标准,即聚类的准确率(acc)和归一化互信息(nmi)。acc和nmi的值越大,则表示方法性能越好。假设qi是聚类结果,pi是真实标签,那么acc的定义如下:

其中,如果当x=y时,δ(x,y)=1,否则δ(x,y)=0。map(qi)是一个最好的映射函数,它的功能是通过kuhn-munkres算法把实验得到的聚类标签与样本的真实标签进行匹配。

给定两个变量p和q,nmi定义为:

其中,h(p)和h(q)分别表示p和q的熵,i(p,q)表示p和q两者之间的互信息。p是输入样本的聚类结果,q是它们的真实标签。nmi反映了聚类结果和真实标签之间的一致度。

在实验中将对dgl-ufs算法与其他对比方法的参数进行设置,对于ls、mcfs、sogfs、scufs和rjgsc,设置所有数据库的近邻参数的大小k=5。为了对不同的方法进行公平的比较,本实施例中,采用“网格搜索”策略从{10-3,10-2,10-1,1,10,102,103}中调整所有方法的参数。由于选择的特征的最优数量是未知的,对于所有数据库我们用“网格搜索”策略从{20,30,…,90,100}设置不同被选择的特征的数量。

当不同特征选择算法完成特征选择之后,采用k-means算法对它们所选的低维特征进行聚类。考虑到k-means聚类的性能会受到初始化的影响,重复执行20次不同的随机初始化实验,最后记录它们的平均值。

结果分析:

图6和图7给出了不同方法在六个数据库上的acc和nmi值。可以看出,所提出的dgl-ufs的性能始终优于其他最先进的方法,这表明本发明提出的方法能够捕获比原始的低级表示更高的层次和更抽象的表示。具体来说,与rjgsc(rjgsc独立执行字典基础学习和特征选择)相比,它对大多数数据集(例如yale、isolet、prostate_ge和srbct)有超过5%的改进。

为了验证特征选择对聚类结果的影响,本实施例在图8、图9中展示了所有方法在不同数据库上,被选择特征数不同时的表现。acc值和nmi值与不同数据集中所选特征的数量有关。可以看到,在一定的特征范围内,本方法的性能稳定优于其他方法。值得注意的是,当特征数越小时,相比于baseline方法,dgl-ufs方法的acc值越高,这就证明了我们的特征选择方法的优势。

参数灵敏度分析:

本发明中含有两个平衡参数(α和β),为了研究本发明对参数的敏感度,我们对其中一个参数进行了固定,对剩余的一个参数进行了改变。具体的操作过程为:首先,固定α=1,改变β的值,在不同数据库上的acc和nmi值如图9、图11所示。其次,固定β=1,改变α的值,在不同数据库上的acc和nmi值如图12、图13所示。

可以看出,当所选特征的数量固定时,在大多数情况下,dgl-ufs对于不同的α和β均表现稳定。对于数据集prostate_ge来说,nmi对β有一点敏感,当β=1时,可以得到最好的nmi值;对于数据集srbct来说,当β>1时,结果稳定;dgl-ufs除了对数据集srbct外均不敏感,当α>0.01和所选特征数大于80时,数据集srbct上的nmi保持稳定。

dgl-ufs算法的时间复杂度分析:

通过迭代优化算法在求解目标函数过程中,主要的时间花费在三部分:求解w、求解d和求解s。对于更新w部分,sylvester方程的经典算法是bartelsstewart算法,其复杂度为o(m3),设t1为算法一的迭代次数,则在算法二中的每一次迭代时间复杂度为o(t1m3);对于更新d部分,设t2为admm算法的迭代次数,由于m=d,在算法二中的每一次迭代时间复杂度为o(t2(d2n+d3));对于更新s部分,主要成本是计算距离矩阵m,其时间复杂度为o(n2)。

dgl-ufs算法的收敛性分析:

对于求解w的时候,本实施例中使用迭代重加权最小二乘算法,在每一次迭代过程中,通过西尔维斯特(sylvester)方程得到一个近似解;对于求解d,admm算法可以保证优化d收敛于最优解;对于求解s部分,基于拉格朗日函数和kkt条件,s的优化也是收敛于最优解。

目标函数在不同的数据集上的收敛曲线如图14~图19所示;可以看到,算法1收敛速度快,几乎在5次迭代中即收敛,算法2的目标值也会随着前10次迭代而显著减少。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1