一种基于模糊度量的k均值聚类的数据处理方法与流程

文档序号:12272325阅读:305来源:国知局

本发明涉及数据处理领域,尤其是一种k均值聚类的数据处理方法。



背景技术:

k均值聚类方法是一种广泛应用的模式识别方法,可以应用到时间序列、数字图像等数据的模式挖掘中。k均值聚类法使用欧式距离衡量2组数据的差异,通过计算与各个类别的平均矢量的距离(注、向量和矢量是同一个术语,以下不加区分,随时混用),进行类别分配,不断地重复这个过程,直到获得稳定的类别分配结果。该方法迭代平均矢量的计算和类别分配这个过程,一般而言,理论上只能保证获得局部最优的分类结果。k均值聚类法是一种硬分类方法,常常被推广为一种软分类法,即所谓的模糊k均值聚类法,主要思想是对每一组数据并不“非此即彼”地认为属于或不属于某类,而是以一个隶属度函数来标识属于某一个类别的程度,隶属度函数取值范围是0到1的任意中间值。可见k均值聚类法实质上是模糊k均值聚类法的一个特例。

以上均值聚类方法中最常用的距离准则皆是欧式距离,或是等价的p范数距离(欧式距离可以看作是p为2的范数距离)。在p范数距离下,以上迭代计算类别的平均矢量和类别分配的过程同样能保证获得局部最优的结果。简单的理由如下,类别的平均矢量到各个该类别中的矢量的距离相等,这个特性无论在何种p范数距离下都成立。但是传统的p范数距离是线性距离(所谓线性,是指将矢量正向伸缩后得到的长度为原长度乘以伸缩系数),它的主要特点是对局部差异太敏感,这个和实际应用中的需求不太吻合。例如,判断2副数字图像是否相同或相似,这2副图像除了在个别的1、2个像素上具有不同的数值,其它像素数值完全一致。通过p范数距离计算得到的图像的距离(差异性)是非0的,而对于人类眼睛的观察来说2副图像是没有差别的(那么如果使用其他方法能够得到新的距离为0的计算结果,则该新的距离更符合人类的视觉效果)。实际上,在很多其他应用场合,有时候传统p范数距离表现出来的差异并不符合人类的主观评判。例如,三个射击选手进行的10次测试成绩如表1:

表1

显然甲的成绩最好。假如以甲为基准,对乙和丙的成绩进行评判,乙和甲的p范数距离为14(p为1);丙和甲的p范数距离为14(p为1)。则仅仅依照范数距离发现,乙和丙的成绩几乎相同,但是从人的主观上看丙的成绩似乎更好,因为相对于甲而言,除了一次成绩差距较巨之外,基本上比较一致;而乙几乎每一次都略逊于甲。丙偶然地一次较大幅度地落后于甲在实际中被认为是可以忽略的。



技术实现要素:

为了克服已有k均值聚类的数据处理方法的准确性较差的不足,本发明提供一种更加符合人类主观的模糊性标准、准确性较好的基于模糊度量的k均值聚类的数据处理方法。

本发明解决其技术问题所采用的技术方案是:

一种基于模糊度量的k均值聚类的数据处理方法,所述数据处理方法包括以下步骤:

1)初始化,在m个n维向量中随机取q个向量作为初始均值聚类中心,q为类型数目;

2)对于每一个待聚类的向量计算到每一个均值中心的模糊度量的距离;

设第h类的均值中心为(Mh1,Mh2,...,Mhn)T,某向量为计算该两个向量之间的模糊度量的距离的过程如下:

2.1)计算两个向量的差,并取1范数,得到如下的向量分布

2.2)对上述结果向量的分量作由小到大的排序,得到

(a1,a2,...,an)

其中a1≤a2≤...≤an

l=1,2,...,n;1≤r1,r2,...,rn≤n

2.3)从(a1,a2,...,an)各分量里取出相异的t个数值,a*1<a*2<...<a*t,t≤n

计算其中,表示(a1,a2,...,an)各分量不小于的个数,当各个{al}相异时,即取ai和中的较小者;

2.4)最后得到模糊度量的距离数值为measure=max{b1,b2,...,bt}即所有{bi}中的最大值;

3)对待聚类的该向量分配一个类号,类号取自于具与最小模糊度量距离的均值中心所在的类别;

4)遍历各个待聚类向量,根据所属类号,分别计算具有相同类号的向量的平均向量,该平均向量更新作为新的该类的均值中心;

5)对于每一类别,计算当前均值中心与被更新的均值中心之间的模糊度量距离;

6)对于每一类别,如果前后均值中心的模糊度量距离均小于预设的阈值,则分类结束,否则回到2)继续。

进一步,所述步骤1)中,对所有向量作了预处理,使得各个向量分布于[0,1]区间,预处理过程是找出各个向量的各维分量之中的最小值min、最大值max,然后对每一个向量的每一维分量作平移伸缩:

其中,xij表示第i个向量的第j个分量;表示该分量被预处理后的记号。

本发明的技术构思为:开发了一种模糊度量的距离,使得对差异性评判更加符合人类的主观上的模糊性标准。这个模糊度量是建立在对数据的p范数(p为1)距离数值的进一步的非线性处理之上的,但仍旧保留平均矢量与各参与平均的矢量等距的特性,因此可以用在k均值聚类或模糊k均值聚类上,使得聚类的分类效果更加与人类的主观评判一致,从而满足实际应用的模糊性的需求。具体举例而言,针对上述2副图像的例子,使用该模糊度量得出的距离(差异)应该是远远小于p范数距离;而针对射击选手的评价则是丙与甲的差距小于乙与甲的差距。

本发明的有益效果主要表现在:更加符合人类主观的模糊性标准、准确性较好。

附图说明

图1是模糊度量的距离计算步骤框图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1,一种基于模糊度量的k均值聚类的数据处理方法,所述数据处理方法包括以下步骤:

1)初始化,在m个n维向量中随机取q个向量作为初始均值聚类中心,q为类型数目;

2)对于每一个待聚类的向量计算到每一个均值中心的模糊度量的距离;

设第h类的均值中心为(Mh1,Mh2,...,Mhn)T,某向量为计算该两个向量之间的模糊度量的距离的过程如下:

2.1)计算两个向量的差,并取1范数,得到如下的向量分布

2.2)对上述结果向量的分量作由小到大的排序,得到

(a1,a2,...,an)

其中a1≤a2≤...≤an

l=1,2,...,n;1≤r1,r2,...,rn≤n

2.3)从(a1,a2,...,an)各分量里取出相异的t个数值,a*1<a*2<...<a*t,t≤n

计算其中,表示(a1,a2,...,an)各分量不小于的个数,当各个{al}相异时,即取ai和中的较小者;

2.4)最后得到模糊度量的距离数值为measure=max{b1,b2,...,bt}即所有{bi}中的最大值;

3)对待聚类的该向量分配一个类号,类号取自于具与最小模糊度量距离的均值中心所在的类别;

4)遍历各个待聚类向量,根据所属类号,分别计算具有相同类号的向量的平均向量,该平均向量更新作为新的该类的均值中心;

5)对于每一类别,计算当前均值中心与被更新的均值中心之间的模糊度量距离;

6)对于每一类别,如果前后均值中心的模糊度量距离均小于预设的阈值,则分类结束,否则回到2)继续。

进一步,所述步骤1)中,对所有向量作了预处理,使得各个向量分布于[0,1]区间,预处理过程是找出各个向量的各维分量之中的最小值min、最大值max,然后对每一个向量的每一维分量作平移伸缩:

其中,xij表示第i个向量的第j个分量;表示该分量被预处理后的记号。

本实施例中,在k均值聚类的方法中凡涉及到距离计算的,均使用新的模糊度量替换,这样使用新的距离构成了新的均值聚类分析方法;使用该新的模糊度量作为距离计算后,原先的k均值聚类的优化方法步骤不变,原因是该模糊距离是在p范数(p取作1)基础上所作的非线性运算,它仍旧保留平均矢量对参与平均的矢量的距离相等的特性。

例1:有关射击选手评价表参照表2:

表2

例2:假设2副图像像素分辨率都为256*256,除了一个像素点数值差为10,其余像素数值相同。则它们的1-范数距离为10,模糊度量的距离1/65536,将其放大到1-范数距离相同的尺度(放大10倍)后为10/65536=0.00015,可见几乎为0了。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1