一种基于测地线保持的非线性数据降维方法与流程

文档序号:11707669阅读:314来源:国知局

本发明属于机器学习领域,具体涉及流形学习中的一种基于测地线保持的非线性数据降维方法。



背景技术:

数据降维是指通过线性或者非线性的方法将样本从高维空间映射到低维空间,从而获得该高维空间在较低维空间中的一个表示的过程。通过这种操作可以减少原有数据的冗余性,提高对数据处理的效率和针对性。数据降维的方法主要分为线性映射和非线性映射方法两大类。其中线性映射方法的代表方法有主分量分析(principlecomponentanalysis,简称pca)和线性判定分析(lineardiscriminantanalysis,简称lda)。这两种方法理论成熟,计算简单、计算速度快,但其对于那些非线性结构的高维数据就无法得到有效的答案。

基于流形学习的非线性方法则为数据降维提供了一条解决途径。文件1(seunghsandleedd,themanifoldwaysofperception,290(5500),2268-2269,science,2000)指出:高维数据的属性之间常常存在着一定的规律性和相关性,这种现象直观上表现为高维空间中的样本点散布在低维空间中的一个流形上,这个流形揭示了数据集的特性,并且有较低的固有维数。基于这种假设,理论上只要针对有限的、离散的数据样本进行学习,展开高维空间中呈折叠状的弯曲面,发现并揭示数据潜在的拓扑结构,便能挖掘出隐含在低维流形中的有用信息。我们现实生活中遇到的许多数据,例如:文本、图像、视频、语音、遥感、气候、金融、基因等通常都是高维的,容易引发“数据稀疏”和“维数灾难”等问题,导致后续被处理能力的下降。因此,如何在确保不丢失主要特性的前提下,尽可能地减缩维数成为近期的一个研究热点。

流形学习降维方法主要有:局部线性嵌入(locallylinearembedding,简称lle)、等距映射(isometricmapping,简称isomap)、局部切空间对齐(localtangentspacealignment,简称ltsa)等。

lle算法采用的是基于局部线性保形映射思想,侧重保证局部邻域结构。在信息处理的许多应用中,局部信息有时比全局信息更为有效,而且在计算量上有优势,只包含多项式数量级的稀疏矩阵运算。此外,还具有良好的表达能力,即当全局结构为非欧氏空间的情况下,局部几何结构接近于欧氏空间。但是,该方法也存在着一些应用限制,例如:对参数和外界噪声过于敏感、处理分布稀疏的数据集时降维性能失效。

isomap算法采用的是基于降维前后的测地距离的全局保持的思想,通过分析现有的高维流形,得到高维流形所对应的低维嵌入,从而让高维流形上数据点间的近邻结构在低维嵌入中得到较完整的重现。以多维尺度变换(multidimensionalscaling,简称mds)算法为分析工具,不同点在于计算高维流形上数据点间的距离时,弃用了传统的欧氏距离,力求保持数据点的内在几何性质,使用微分几何中的测地线距离代替欧氏距离,是通过用实际的输入数据估算其测地线距离的一种算法。

ltsa算法采用的是基于局部切空间的流行学习算法。通过逼近每一个样本点的切空间来构建低维流形的局部几何,然后利用切空间排列求出整体低维嵌入坐标。作为一种很好的流行学习算法,ltsa能够有效地学习出体现数据集低维流形结构的整体嵌入坐标,但它也存在不足:算法中用于特征值分解的矩阵阶数等于样本数,样本集较大时,将无法处理。

本发明提出另一种基于局部保持的思想,即基于测地线保持的非线性数据降维方法。本方法通过对输入样本点构建测地线集合,对每条测地线局部排列对齐,求出整体低维嵌入坐标,能够有效地降低了输入的样本集数量,大大降低用于特征值分解的矩阵阶数,还可以保留样本集的局部和全局特征。



技术实现要素:

本发明的目的在于提出了一种基于测地线保持的非线性数据降维方法。本发明首先对输入样本点取随机最短路径,选取每个样本点距离最近的k个点构建邻接图,并用随机最短路径覆盖(stochasticshortestpathcovering,简称sspc)方法,找到样本点集的一个随机最短路径集合,称之为测地线集合。对测地线局部保持处理,实现原始数据高维到低维空间的映射,得到整体低维嵌入坐标,得以实现基于测地线保持的非线性数据降维。本发明具体内容如下:

(1)对流形g上的输入样本点集构建k近邻邻接图。从样本点集中取一个随机点,计算从该点到样本点集中其余点之间的最短路径集合,再从此测地线集合中选出一条覆盖点最多的路径。得到所求测地线集合中的一条测地线。从样本点集中剔除步骤一中所得测地线所覆盖的样本点。将以上所获得的一条路径所覆盖的点从样本点集中去除。重复以上步骤,直到样本点集为空集,得到所求测地线集合。

(2)每条测地线都可以用一个该测地线所覆盖到的点的点集形式来表示成局部坐标的形式,将每条测地线的局部坐标中心化,得到中心化后的局部坐标。

(3)每条测地线的低维嵌入的全局坐标为该测地线在高维流形中的局部坐标通过一定的旋转变换得到,因此,中心化的低维嵌入的全局坐标可用中心化的高维流形中的局部坐标表示。

(4)每条测地线的全局坐标可以用选择矩阵与所有样本点的低维嵌入坐标表示,再根据实际值和估计值的平方误差和最小原则,使得低维嵌入全局坐标与经过旋转变换后的局部坐标的平方误差和最小,从而解得样本点在低维嵌入的全局坐标。

本发明具有的有益效果是:本方法通过对输入样本点构建测地线集合,对每条测地线局部排列对齐,求出整体低维嵌入坐标,能够有效地降低了输入的样本集数量,大大降低用于特征值分解的矩阵阶数,可以保留样本集的局部特征。通过对测地线选取方法的优化,还可以保留全局特征。

附图说明

图1是本发明的基于测地线保持的非线性数据降维方法的操作流程图。

具体实施方式

如附图所示,基于测地线保持的非线性数据降维方法,包括以下内容:

1、假设高维数据样本点集为x=[x1…xn]∈rd×n,映射到低维空间中的样本点集为y=[x1…xn]∈rd×n。其中:d为高维空间的维数;d(d<<d)为低维空间的维数;x为高维数据模型的输入,是高维空间rd×n中的n个d维实数列向量。y为高维数据映射到低维空间中的输出样本集,是低维空间rd×n中的n个d维实数列向量。

2、计算样本点集中邻近点对i,j之间的欧式距离dx(i,j),构建一个反映样本点集邻近关系的带权流通图,根据带权流通图,计算样本点集相应的测地距离矩阵d。

3、从高维空间中的样本点集中随机选取一个样本点xp,使用随机最短路径覆盖方法和所求得的带权流通图,求出以该样本点作为起始点,到样本点集中所有其余点的最短路径集合,从中选出集合中覆盖点数最多的一条路径p作为测地线为测地线p中的第np个样本点(其中p=1,…,p),重复(3)步骤,获得测地线集合。

4、对于一条测地线而言,其局部坐标和全局坐标分别为:

5、全局坐标yp是局部坐标θp的仿射变换,即:yp=apθp。

6、每条测地线中的每个除源点以外的样本点的局部坐标都可以用该源点和从该测地线的源点到其余点的测地距离以及方向向量表示,如:i=2,…,np。

7、不失一般性地,对每条测地线xp进行中心化处理并且通过一定的变换投影到各局部坐标中以的一个坐标轴上,则有:θp,1=0,vp=[10…0]t。因此,

8、相应的,得到测地线p的局部坐标表示:其中为该测地线p的局部坐标中第np个点的局部坐标。

9、由于是xp在低维空间中的全局坐标。

10、将中心化,得到:

11、根据中心化处理后得到的可以表示成:

其中是每条测地线相应的选择矩阵,表示为:

其中i=1,…,np-1。

12、表示测地线p的全局坐标的中心化,ap表示对θp进行旋转和缩放的变换矩阵。就几何意义而言,在d维欧氏空间rd中,把局部坐标θp向全局坐标平移,使得平移后的局部坐标的中心与全局坐标yp的起点重合,然后再围绕着全局坐标yp的起点进行旋转和缩放。由于是由通过一系列变换得到的,因此可设ap为几何变换矩阵。

13、根据可得:表示的右伪逆,也即最小二乘问题的解。

14、根据可以得到

15、上式只是考虑一条测地线的情况,综合考虑所有测地线的情况,有:

16、根据实际值和估计值的平方误差和最小原则,有:

17、设因此,只需要求得

18、上式y可能有多个解,为了避免平凡解,上式通常以瑞利商求解,即令yyt=id,对特征值分解,取得对应最小特征值的特征向量,即可求得样本点在低维流形中的嵌入坐标。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1