信息粒导向变相动态快速聚类算法的制作方法

文档序号:15616406发布日期:2018-10-09 21:29阅读:389来源:国知局

本发明属于大数据技术研究领域,具体涉及一种有效的导向变相动态快速聚类算法,以提高聚类性能。



背景技术:

在大数据时代,如何充分挖掘出蕴藏于数据资源中的价值正在成为各国it业界、学术界和政府共同关注的焦点。数据挖掘中应用最为广泛的经典聚类算法之一的kmeans算法一直以来倍受学者们的青睐,针对kmeans算法自身的缺陷,如受迭代次数影响、受初始化中心的影响,当处理实际应用领域的复杂高维数据时,将会出现运算量大、收敛速度慢,不稳定的缺陷。



技术实现要素:

针对上述现有技术存在的不足,本发明的目的在于提供一种信息粒导向变相动态快速聚类算法,更快聚类,提高了聚类效果,聚类稳定可调;解决现有的聚类算法运算量大、收敛速度慢,不稳定的缺陷。

为解决上述技术问题,本发明采用了以下技术方案:

一种导向变相动态快速聚类算法,包括以下步骤:

步骤一:对信息粒数据d作平移标准差变换,得到

信息粒数据d为:

变换之后的信息粒数据为:

其中,

xnm表示第n个数据的第m个属性,x′nm表示经平移标准差变换后的第n个数据的第m个属性,n表示信息粒数据的个数,每个数据有m个属性;

步骤二:构造信息粒相矢量;

步骤2.1:信息粒数据的导向矢量ξ为:

其中,ω为信息粒的导向压缩矢量,λ为信息粒的导向压缩变换矢量,λ=[cosθ1cosθ2…cosθm…cosθm]t,且满足θm表示波长为λ的平行波辐射在信息粒上时该平行波束与m维空间标准正交坐标轴的正向夹角,m=1,2,...,m;

步骤2.2:相矢量ψ分布在单位圆上,相矢量中每一个元素为信息粒的一个相,相矢量中一个相对应单位圆上的一个点,相矢量ψ的表达式为:ψ=e,其中,

步骤三:对信息粒相矢量进行聚类;

对相矢量ψ在单位圆上形成的点进行聚类,获得k个类簇,k>1。

本发明还具有如下区别技术特征:

所述的步骤二至步骤三中,平行波的波长λ为λ≥max(ω)的变量。

所述的步骤三中,使用k-means聚类算法对相矢量ψ在单位圆上形成的点进行聚类。

本发明的有益效果:

本发明对信息粒数据进行导向压缩处理,赋予信息粒以相信息,对信息粒相矢量进行聚类,可以使高维数据降维,且通过参数调整可以提高调整聚类性能而不影响算法运算复杂度。使其更快聚类,提高了聚类效果;聚类稳定可调,更适合实际应用。

附图说明

图1是本发明实施例采用的spiral数据图。

图2是本文发明算法获得的聚类图(a)和轮廓系数图(b)。

图3是kmeans算法聚类图(a)和轮廓系数图(b)。

图4是本发明算法在迭代次数为50,λ=2.5时的聚类图(a)和轮廓系数图(b)。

图5是本发明算法在迭代次数为150,λ=1时的轮廓系数图。

图6是本发明算法在迭代次数为150,λ=2.5时的轮廓系数图。

图7是kmeans算法在迭代次数为150时的轮廓系数图。

以下结合附图与具体实施方式对本发明进一步解释说明。

具体实施方式

本发明的信息粒导向变相动态快速聚类算法,包括以下步骤:

步骤一:为了使有不同量纲的量也能进行比较,对信息粒数据d作平移标准差变换,得到消除了量纲的影响;其信息粒数据d为:

其中,xnm表示第n个数据的第m个属性,n表示信息粒数据的个数,每个数据有m个属性;

变换后的信息粒数据为:

其中,

x′nm表示经平移标准差变换后的第n个数据的第m个属性;

步骤二:构造信息粒相矢量,对信息粒数据进行降维处理;

步骤2.1:将变换后的每一个数据x′nm看作是m维空间的一个粒子,假设一束波长为λ的平行波辐射在这些粒子上,设该波束与m维空间标准正交坐标轴的正向夹角矢量φ为:φ=[θ1θ2…θm…θm]1×m;

定义λ=[cosθ1cosθ2…cosθm…cosθm]t,且满足

定义矢量为信息粒的导向压缩矢量;

以坐标原点为基点,该波束在各个粒子相对基点形成的波程差矢量,即信息粒矩阵的导向矢量ξ为:

很显然,ξ为n×1的矢量,在此,称ξ为信息粒矩阵d的导向矢量;

步骤2.2:将ψ=e作为信息粒的相矢量,其中,当λ为λ≥max(ω)的变量,ξ∈[0,2π],可以得出,相矢量ψ分布在单位圆上;

经过上述降维处理后,一个信息粒x′n(n=1,2,…,n)对应相矢量ψ中的一个相,而相矢量中一个相对应单位圆上的一个点;随λ变化,相矢量ψ在单位圆上的分布密度发生变化;

步骤三:对信息粒相矢量进行聚类;

对相矢量ψ在单位圆上形成的点进行聚类,获得k个类簇,k>1,类簇中,每个信息粒的相对应的类簇就是该信息粒的类簇;本发明优选k-means方法对单位圆上的点进行聚类。

聚类作为一种无监督的学习方法,其聚类结果的优劣通常由聚类有效性评价指标进行度量理想的聚类效果应该是具有最小的类内距离和最大的类间距离。个体轮廓系数结合了类内距离和类间距离,用以评价某单个样本被聚到某个类的合理性,其取值介于-1和1之间,若取值接近于1,则表示该样本的类内平均距离远小于最小的类间平均距离,说明对该样本的聚类达到最优效果。

以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例1

对n=1000,m=3的spiral数据进行聚类,聚类数k=3,spiral数据的空间形状如图1所示。取信息粒导向矢量本发明算法与kmeans算法对比,实验结果如下图2至图4所示。

从图中可以看出,两种算法的轮廓系数对比图可以看出,在相同实验条件下,本发明的轮廓系数取值更接近1,因此,本发明算法的聚类效果相对更优,聚类更合理。

本发明算法和kmeans算法均随着迭代次数的增加,聚类效果越好,而且本发明算法的轮廓系数取值更接近1;同时本文发明算法还随λ变化而呈动态变化(图5至图6),但调整λ并不改变算法运算复杂度。因此,在相同实验条件下本文发明算法相对更优。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1