半监督情况下基于稀疏化理论的特征选择方法与流程

文档序号:14156917阅读:577来源:国知局

本发明涉及模式识别、医学图像分析、降维中的特征选择方法领域,具体地,涉及一种半监督情况下基于稀疏化理论的特征选择方法。



背景技术:

随着信息化技术的快速发展,一些高维度的数据产生于我们的生活当中,如人脸数据、基因数据等,传统的方法已经不宜对这些高维数据来进行处理,因此我们可以采用降维的方式来对高维数据来进行处理,从而避免所谓的“维数灾难”问题。而降维的方法,目前我们可以分为特征选择和特征提取。目前比较流行的降维方法有主成分分析方法、线性判别分析方法、fisher判别分析方法等。这些方法当中,包括无监督学习方法、有监督特征选择方法,其中无监督学习方法只需要无标签的样本,而有监督学习的样本数据则都是有标签的。在实际应用当中,无标签的数据通常比较容易获取,而一些有标签数据则很难获取,数量也是有限的,因此为了获得更好的分类能力,半监督学习方法被人们提出,相比较与其他类型的方法,该方法能够同时利用无标签样本数据和有标签样本数据,就可以获得更好的分类精度。

本发明公开了一种半监督情况下基于稀疏化理论的特征选择方法(semi-sparse-lasso)。在该方法当中,首先基于稀疏理论,引入稀疏化的正则化项,保证样本当中少量的特征被选中,除此之外,该方法当中还引入正则化项,保存同类样本之间的结构信息,接下来引入对角矩阵来推广至半监督学习情况下,并且重新构建样本数据的相似矩阵,本发明所提的特征选择方法可以获取更好的分类性能。



技术实现要素:

针对上述技术问题,本发明的目的是提供一种半监督情况下基于稀疏化理论的特征选择方法(semi-sparse-lasso)。在该方法当中,首先基于稀疏理论,引入稀疏化的正则化项,保证样本当中少量的特征被选中,除此之外,该方法当中还引入正则化项,保存同类样本之间的结构信息,接下来引入对角矩阵来推广至半监督学习情况下,并且重新构建样本数据的相似矩阵。本发明的方法可以获取更好的分类性能。

为了实现上述目的,本发明提供了一种半监督情况下基于稀疏化理论的特征选择方法,所述特征选择方法包括:

步骤1,建立lasso方法的目标函数:

其中,训练样本集x=[x1,x2…,xn]∈rd×n,xi表示第i个样本的特征向量,n表示训练样本个数;d表示特征维数;y表示这些样本所对应的样本标签向量,且y=[y1,y2…,yn]∈rn;yi表示样本的类标签,且yi∈{-1,+1};w表示特征向量的回归系数,稀疏正则化项||w||1采用l1-范式将在特征空间中产生一个稀疏解,λ是正则化参数;

步骤2,在步骤1中的目标函数中引入正则化项,保留了原始样本数据之间的分布信息,引入的正则化项为:

其中,s=[sij]表示一个相似矩阵,l=d-s是拉普拉斯矩阵,d为对角矩阵,且相似矩阵s定义为:

sij=exp(-dist(xi,xj)/t);

其中,dist(xi,xj)=||xi-xj||2,t使用经验值;所述xi,xj间相似性越高,则f(xi)和f(xj)之间的距离就越小,则引入的正则化项保留了原始样本数据之间的分布信息;

步骤3,引入对角矩阵来推广至半监督学习情况下,并且重新构建样本数据的相似矩阵;首先定义对角矩阵p∈rn*n用于指示有标签数据和无标签数据,如果为有标签数据,则pii=1;如果为无标签数据,则pii=0;则所述特征选择方法的学习模型具体为:

所述λ和β为可调参数而且均大于0。

优选地,所述特征选择方法还包括步骤4,对所述特征选择方法的求解过程进行优化。

优选地,采用apg算法对求解过程进行优化:

先将所述特征选择方法的学习模型划分为两部分:

即平滑部分:

和非平滑部分:g(w)=λ||w||1

再构建函数ωl来近似f(w)+g(w):

其中,是第k次迭代的wk点梯度,l是步长,l其值可以通过线性搜索来确定;在apg算法中w的更新步骤定义如下:

其中,得出解析解为:

优选地,步骤3中通过计算如下搜索点来代替在wi上的梯度下降:

qi=wk-αi(wi-wi-1);

其中,

优选地,所述步骤3中λ和β分别通过交叉验证法来进行获取,最终的参数是根据最高分类精度所对应参数值来确定的。

根据上述技术方案,本发明提供的半监督情况下基于稀疏化理论的特征选择方法,在该方法当中,首先基于稀疏理论,引入稀疏化的正则化项,保证样本当中少量的特征被选中,除此之外,该方法当中还引入正则化项,保存同类样本之间结构的结构信息,接下来引入对角矩阵来推广至半监督学习情况下,并且重新构建样本数据的相似矩阵。本发明提供的方法可以获取更好的分类性能。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:

图1是本发明的一种优选的实施方式中提供的半监督情况下基于稀疏化理论的特征选择方法的流程框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

如图1所示,本发明提供了一种半监督情况下基于稀疏化理论的特征选择方法,所述特征选择方法包括:

步骤1,建立lasso方法的目标函数:

其中,训练样本集x=[x1,x2…,xn]∈rd×n,xi表示第i个样本的特征向量,n表示训练样本个数;d表示特征维数;y表示这些样本所对应的样本标签向量,且y=[y1,y2…,yn]∈rn;yi表示样本的类标签,且yi∈{-1,+1};w表示特征向量的回归系数,正则化项||w||1采用l1-范式将在特征空间中产生一个稀疏解,即保证在w中不相关的或冗余的特征所对应的系数将被置为零,而非零系数所对应的特征将被保留下来用于随后的分类,λ是正则化参数;

步骤2,在步骤1中的目标函数中引入正则化项,保留了原始样本数据之间的分布信息,引入的正则化项为:

其中,s=[sij]表示一个相似矩阵,l=d-s是拉普拉斯矩阵,d为对角矩阵,且相似矩阵s定义为:

sij=exp(-dist(xi,xj)/t);

其中,dist(xi,xj)=||xi-xj||2,t使用经验值;所述xi,xj间相似性越高,则f(xi)和f(xj)之间的距离就越小,则引入的正则化项保留了原始样本数据之间的分布信息;

步骤3,引入对角矩阵来推广至半监督学习情况下,并且重新构建样本数据的相似矩阵;首先定义对角矩阵p∈rn*n用于指示有标签数据和无标签数据,如果为有标签数据,则pii=1;如果为无标签数据,则pii=0;则所述特征选择方法的学习模型具体为:

所述λ和β为可调参数而且均大于0。

根据上述技术方案,本发明提供的半监督情况下基于稀疏化理论的特征选择方法,在该方法当中,首先基于稀疏理论,引入稀疏化的正则化项,保证样本当中少量的特征被选中,除此之外,该方法当中还引入正则化项,保存同类样本之间结构的结构信息,接下来引入对角矩阵来推广至半监督学习情况下,并且重新构建样本数据的相似矩阵。本发明提供的方法可以获取更好的分类性能。

本发明所提的方法,在高维样本数据求解的过程中,求解速度比较慢,在本发明的一种优选的实施方式中,所述特征选择方法还包括:步骤4,对所述步骤4中所述特征选择方法的学习模型的求解过程进行优化。

在本发明的一种优选的实施方式中,采用apg算法对求解过程进行优化,具体过程为:先将所述特征选择方法的学习模型划分为两部分:

先将所述特征选择方法的学习模型划分为两部分:

即平滑部分:

和非平滑部分:g(w)=λ||w||1

再构建函数ωl来近似f(w)+g(w):

其中,是第k次迭代的wk点梯度,l是步长,l其值可以通过线性搜索来确定;在apg算法中w的更新步骤定义如下:

其中,得出解析解为:

本发明中将模型求解优化问题被分解成d个独立的子问题去解决,apg算法的关键是如何有效求解这些独立的子问题,再根据文献,得出这些子问题的解析解通常非常容易。

在本发明的一种优选的实施方式中,步骤3中通过计算如下搜索点来代替在wi上的梯度下降:

qi=wk-αi(wi-wi-1);

其中,

在本发明的一种优选的实施方式中,所述步骤3中λ和β分别通过交叉验证法来进行获取,最终的参数是根据最高分类精度所对应参数值来确定的。

以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1