基于膜计算框架的谱聚类算法的制作方法

文档序号:13446887阅读:270来源:国知局
基于膜计算框架的谱聚类算法的制作方法

本发明属于数据挖掘和机器学习技术领域,具体地说,涉及一种基于膜计算框架的谱聚类算法。



背景技术:

聚类分析是机器学习领域的一个重要分支,是人们认识和探索失误之间内在联系的有效手段。所谓聚类(clustering)就是将数据对象分组成多个类或簇(cluster),使得在同一簇中对象之间具有较高的相似度,而不同簇中对象差别较大。在现有的聚类方法中,k-均值聚类作为一种基于中心的聚类方法,是最简单的,使用最普遍的方法之一,它在紧凑的超球形分布的数据集合上有很好的性能,然而当数据结构是非凸的,或者数据点彼此交叠严重时,k-均值聚类算法往往会失效,且k-均值有陷入局部最优的弊端。为了能在任意形状的样本空间上聚类,且收敛于全局最优解,学者开始研究一类新型的聚类算法,称之为谱聚类(spectralclusteringalgorithm)。谱聚类算法克服了k-均值算法的缺点,具有识别非凸分布聚类的能力,非常适合许多实际工程应用问题,而且实现比较简单,算法与数据点的维度无关,可以避免由数据过高的维度引起的奇异性问题,目前谱聚类应用在语音识别,视屏分割,图像分割,vlsi设计,网页划分,生物信息等领域,表现出了极大的潜力。

谱聚类算法以谱图理论为基础,通过构建laplacian矩阵将原数据空间进行重构,减低聚类分析对象的维度,这使得数据在子空间的分布结构更为清楚。在经典的谱聚类算法中,使用k-mean算法对laplacian矩阵聚类,但是上述谱聚类算法在工程应用上存在缺陷,比如数据集的密度差距太大,聚类效果不明显等。



技术实现要素:

有鉴于此,本发明所要解决的技术问题是提供了一种基于膜计算框架的谱聚类算法,以解决谱聚类算法在工程应用上存在的数据集的密度差距太大、聚类效果不明显等缺陷问题。

为解决上述技术问题,本发明公开了一种基于膜计算框架的谱聚类算法。所述方法包括:

相似度图g的构造,使用全连接图或者ε近邻图或者k近邻图构造相似度图;

拉普拉斯矩阵的生成,由构造的相似度图生成未正则的拉普拉斯矩阵或者正则的拉普拉斯矩阵;

求取拉普拉斯矩阵的前k个最小特征值对应的特征向量,构建特征向量空间;

使用膜聚类算法对特征向量空间中的特征向量进行聚类;

所述使用膜聚类算法对特征向量空间中的特征向量进行聚类,包括:

膜结构的设计,利用组织型p系统实现膜聚类,所述组织型p系统包括q个细胞,每个细胞中包括m个对象,每个细胞使用转运规则将其最好对象转运到环境中,更新环境中所对应的最好对象;

转运规则的设计,对组织型p系统:<i,a;b,j>,<i,a;λ,j>,环境中有且仅有一个对象,叫全局最优对象,记为zbest,每个细胞使用转运规则将每一次迭代完成后最好对象转运到环境,更新环境中原有的全局最好对象,更新公式为:

其中,zi,best是第i个细胞中的局部最好对象,对象的优劣是通过对象的适应度函数来判断的,对象即是一组簇中心,通过对象可完成一次数据划分,适应度就是数据点到每个簇中心的距离平方和,函数公式为:

采用pso的速度-位移模型作为进化规则,依据设置的停机条件停机后,环境中的最好对象即为所求的最优解;所述停机条件为设置的最大计算步数。

如上所述的算法,优选的,采用一个3维整数数组来表示p系统中的所有对象:z(q,m,n);

第i细胞中第j个对象记为可表示为:

其中或1。

如上所述的算法,可选的,所述采用pso的速度-位移模型作为进化规则,具体为,采用标准的速度-位移模型:

w采用线性递减策略,可表示为:

其中,c1和c2为学习率常数,r1和r2是两个[0,1]中随机实数,是迄今为止第i个细胞中第j个对象的最好位置,zbest是全局最好对象,t是当前迭代的次数,t为最大迭代次数。

如上所述的算法,可选的,所述采用pso的速度-位移模型作为进化规则,具体为,采用修改的速度-位移模型:

其中,w为惯性权重常数,c1和c2为学习率常数,r1、r2和r3是两个[0,1]中随机实数,是迄今为止第i个细胞中第j个对象的最好位置,zi,lbest是第i个细胞中的局部最好对象。

与现有技术相比,本发明可以获得以下技术效果:

1、由于膜计算可用于处理全局优化问题,因此可看作一种基于进化技术的聚类算法,丰富了聚类算法的类型,优化了谱聚类的效果。

2、将膜计算应用于谱聚类分析当中,拓展了膜计算的应用领域。

3、膜计算能灵活吸引其他机制并融入自身机制中,加上其他机制的交流机制,使膜之间既能相对独立地有效进化,又能保持必要的通信交流,协作进化,凸显了膜计算的独特优势。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明基于膜计算框架的谱聚类算法示意图;

图2为本发明实施例的基于膜计算框架的谱聚类算法的流程图;

图3为膜系统的结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

膜计算是自然计算的一个新分支,旨在从生命细胞的结构和功能以及从器官组织和其他生物结构的细胞间协作中抽象出计算模型,具有分布式、并行性、易理解性、可扩展性、易实现性等特性,自提出以来,受到了众多学者的广泛关注。膜计算模型又称为p系统。按照膜结构,p系统可分为细胞型p系统,组织型p系统和神经型p系统。膜计算被提出来以后,在计算机科学领域中得到了快速的发展,同时已应用于生物学,生物医学,语言学,计算机图形学,经济学,近似优化,密码学等众多领域。膜计算的研究工作主要分为三个方面:理论研究、应用研究以及软硬件的实现。理论研究表明,在计算能力方面,大多数的p系统具有与图灵机等同升值更高的计算能力,而在计算效率方面,p系统能够在现行或者多项式时间内求解np难问题。

图1为本发明基于膜计算框架的谱聚类算法示意图,图2是本发明实施例的基于膜计算框架的谱聚类算法的流程图。参考图1和图2所示,本发明实施例的基于膜计算框架的谱聚类算法包括以下内容。

s201:相似度图g的构造,使用全连接图或者ε近邻图或者k近邻图构造相似度图。

具体的,全连接图:使用高斯相似度函数,两点之间的距离越大,相似度越小。ε近邻图:需要给定参数ε,连点之间的相似度大于ε,则建立连接。ε的取值通常为图g权值的均值。k近邻图:选择离点相似度最大的k个点建立连接。

s202:拉普拉斯矩阵的生成,由构造的相似度图生成未正则的拉普拉斯矩阵或者正则的拉普拉斯矩阵。

未正则的拉普拉斯矩阵:l=d-w;正则的拉普拉斯矩阵包括:对称拉普拉斯矩阵和随机游走拉普拉斯矩阵。

s203:求取拉普拉斯矩阵的前k个最小特征值对应的特征向量,构建特征向量空间。

s204:使用膜聚类算法对特征向量空间中的特征向量进行聚类。

所述使用膜聚类算法对特征向量空间中的特征向量进行聚类,具体可以包括:

膜结构的设计,利用组织型p系统实现膜聚类,所述组织型p系统包括q个细胞,每个细胞中包括m个对象,每个细胞使用转运规则将其最好对象转运到环境中,更新环境中所对应的最好对象;

转运规则的设计,对组织型p系统:<i,a;b,j>,<i,a;λ,j>,环境中有且仅有一个对象,叫全局最优对象,记为zbest,每个细胞使用转运规则将每一次迭代完成后最好对象转运到环境,更新环境中原有的全局最好对象,更新公式为:

其中,zi,best是第i个细胞中的局部最好对象,对象的优劣是通过对象的适应度函数来判断的,对象即是一组簇中心,通过对象可完成一次数据划分,适应度就是数据点到每个簇中心的距离平方和,函数公式为:

采用pso(particleswarmoptimization,粒子群优化算法)的速度-位移模型作为进化规则,依据设置的停机条件停机后,环境中的最好对象即为所求的最优解;所述停机条件为设置的最大计算步数。

如上所述的算法,优选的,采用一个3维整数数组来表示p系统中的所有对象:z(q,m,n);

第i细胞中第j个对象记为可表示为:

其中或1。

图3为膜系统的结构示意图。如图3所示,图中箭头表示对象的转运情况。细胞中对象的转运仅在细胞与环境之间。环境0也是系统的输出区域。当系统停机时,环境中的对象即为所求的最优解(一组最优簇中心)。

如上所述的算法,可选的,所述采用pso的速度-位移模型作为进化规则,具体为,采用标准的速度-位移模型:

w采用线性递减策略,可表示为:

其中,c1和c2为学习率常数,r1和r2是两个[0,1]中随机实数,是迄今为止第i个细胞中第j个对象的最好位置,zbest是全局最好对象,t是当前迭代的次数,t为最大迭代次数。

如上所述的算法,可选的,所述采用pso的速度-位移模型作为进化规则,具体为,采用修改的速度-位移模型:

其中,w为惯性权重常数,c1和c2为学习率常数,r1、r2和r3是两个[0,1]中随机实数,是迄今为止第i个细胞中第j个对象的最好位置,zi,lbest是第i个细胞中的局部最好对象。

膜计算框架中的pso进化规则有效的优化了谱聚类算法,配合合理的膜结构设计和转运规则,有机的组合成一套高效的聚类系统,大大的提升了传统谱聚类的性能。由于膜计算可用于处理全局优化问题,因此本发明提供的基于膜计算框架的谱聚类算法是一种基于进化技术的聚类算法,不但丰富了聚类算法的类型,而且优化了谱聚类的效果,拓展了膜计算的应用领域。

上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1