形式化聚类结果有效性检验方法

文档序号:25095061发布日期:2021-05-18 21:32阅读:295来源:国知局
形式化聚类结果有效性检验方法

1.本发明涉及数据挖掘领域,尤其涉及形式化聚类结果有效性检验方法。


背景技术:

2.聚类结果的评价即验证聚类结果的有效性,其意义在于判断一个聚类结果是否符合数据的内在分布特性,即生成的聚簇是否符合聚簇内部聚合外部分散的特点,是决定聚类结果是否合理并被进一步应用的关键步骤,常见的评价方法包括外部评价方法,内部评价方法和相对评价方法,它们分别适用于不同的应用场景。
3.外部评价方法依赖于预先已知的数据类别标记,通过对比生成的聚簇与已知类别划分间的匹配程度来评价聚类结果的质量,比如rand、jaccard系数等。但实际应用中往往不能预先获得待分析数据的类别信息,此时无法利用其评价聚类结果的质量。如cophenetic相关系数等的内部评价方法利用数据自身性质,如通过计算聚类结果与邻接矩阵间的相似性评价聚类效果。然而这些指标仅适用于层次聚类或单个聚类方案,且多基于统计方法进行计算,一般具有较高的计算复杂度。相对评价方法大多基于聚簇的分离度及紧密度而定义,如dunn指数、sd有效性指数等,通过对比其它聚类方案来比较几种聚类结果,其评价结果是不同聚类方案基于指标值的效果排序,如果缺少对比算法难以直接判断某结果是否有效;另外相对评价指标同样也基于聚类时使用的距离度量方法评价簇内紧密度和簇间相异度,因此单纯基于距离来评价,得到的只是相对评价结果,使得相对评价方法的应用范围也十分受限。


技术实现要素:

4.在发明内容部分中引入了一系列简化形式的概念,这将在具体实施例部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
5.为至少部分地解决上述技术问题,本发明提供形式化聚类结果有效性检验方法,包括如下步骤:s1聚类过程的形式化,基于迁移系统构建所述聚类过程的对应模型,进行所述形式化的验证过程;s2提取有效聚类结果性质,根据聚簇内对象是否来自同一总体检验其所述聚类是否有效;s3模型是否满足性质要求,其用于检验所述聚类过程是否满足所述有效聚类的要求;s4聚类结果有效性判断,其用于判断所述聚类结果有效性或非有效性。
6.进一步地,所述聚类过程的迁移系统表示为ts(c)=(s,act,δ,i,ap,l)。
7.其中,s表示迁移系统状态的有穷集合,act表示动作的有穷集合,表示状态迁移关系集合,i={(s,η)|s∈s0,η|=g0}表示系统初始状态集合,ap=s∪cond(var)表示原子命题集合,l:s
→2ap
表示标签函数。
8.进一步地,所述状态迁移关系集合定义为:s∈s依赖变量值η,η满足g,α发生条件迁移并基于effect(α,η)改变变量值转为s'。
9.进一步地,所述模型满足性质要求能够获得有效聚类结果,否则所述模型获得非
有效聚类结果。
10.进一步地,所述非有效结果采用定位方法,其步骤如下:
11.s41所述模型经过检验得到非空路径,其设置为t;
12.s42获得满足性质路径集合,其设置为c;
13.s43计算t

c。
14.进一步地,所述提取有效聚类结果性质基于ctl,所述聚簇内对象来自同一总体所述聚类有效,否则所述聚类非有效。
15.进一步地,所述模型的检验方法检验所述模型执行过程存在公式逆命题,其用于说明所诉聚类结果有效或者无效。
16.进一步地,所述ctl包括能够表达所有路径和存在一条路径,所述聚类的算法在参数下所用数据集的过程对应迁移图路径。
17.进一步地,所述获得满足性质路径集合c的具体过程如下:所述迁移系统获取满足性质公式的状态集合s
c
,路径(s
i
,s
j
)加入所述集合c直到所述s
c
处理完为止。
18.进一步地,所述路径t去除所述满足性质路径c得到所述非有效结果路径。
19.与现有技术相比本发明的技术效果在于:从聚类过程的角度考虑验证有效性,避开聚类结果自身评价自身的问题,形式化地构建聚类过程模型,验证聚类的每个步骤是否向着更内聚的趋势进行,使用不同于聚类过程中距离度量的方法,保证了结果有效性验证的客观性,扩大了验证方法的应用范围,也有利于发现可能引起非有效结果的关键步骤。
20.尤其,本发明包括如下步骤:s1聚类过程的形式化;s2提取有效聚类结果性质;s3模型是否满足性质要求;s4聚类结果有效性判断;所述聚类过程的形式化基于迁移系统构建聚类过程对应的模型从而进行后续形式化的验证过程;所述提取有效聚类结果性质为聚簇内的对象是否来自同一总体的公式,若所述检验结果得出是来自同一总体,所述聚簇为有效,若所述检验结果得出是来自同一总体,所述聚簇为非有效;所述模型满足性质要求所述聚类结果能够获得有效性,否则所述聚类结果获得非有效性,此时判定为非有效,其中,所述聚类结果非有效是由于所述模型不满足性质要求导致的。
附图说明
21.图1为本发明所述形式化聚类结果有效性检验方法结构示意图;
22.图2为本发明所述非有效聚类结果结构示意图;
23.图3为本发明所述k

means聚类结果有效性检验方法结构示意图;
24.图4为本发明所述合并式层次聚类结果有效性检验方法结构示意图。
具体实施方式
25.下面描述发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释发明的技术原理,并非在限制发明的保护范围。
26.参照图1所示,其为所述形式化聚类结果有效性检验方法结构示意图。包括如下步骤:
27.s1聚类过程的形式化;
28.s2提取有效聚类结果性质;
29.s3模型是否满足性质要求;
30.s4聚类结果有效性判断;
31.具体而言,所述步骤s1,对任一聚类算法在某数据集上执行的聚类过程进行形式化描述,基于迁移系统构建聚类过程对应的模型,从而进行后续形式化的验证过程。每个状态均对应变量赋值,所述变量包括原子命题的布尔变量,所述布尔变量表示所述有效聚类过程所满足的性质公式,所述聚类过程的状态迁移系统表示为一个六元组;
32.ts(c)=(s,act,δ,i,ap,l),其中,s表示系统状态的有穷集合,每个状态均对应一组变量赋值,这些变量包括表示原子命题的布尔变量,而这种布尔变量可用于表示有效聚类过程所满足的性质公式;act表示动作的有穷集合,对应于执行聚类过程中的方法;表示状态迁移关系集合;i={(s,η)|s∈s0,η|=g0}表示系统初始状态集合;ap=s∪cond(var)表示原子命题集合,其原子命题以用于描述聚类特征;l:s
→2ap
表示标签函数,即把一个原子命题集合l(s)∈2
ap
关联到任意状态s∈s;对于一个给定的逻辑公式,如果l(s)包含的原子命题使公式φ成立,则称状态s满足公式φ。
33.具体而言,所述表示状态迁移关系集合,其定义为:其中,g表示一种条件,例如表示聚类是否收敛的布尔变量值为真即为一种条件,状态s∈s的行为依赖于当前的变量值η,当η满足条件g时,根据动作α发生条件迁移,并基于effect(α,
·
)改变变量值,然后转为状态s';
34.具体而言,所述提取有效聚类结果性质为聚簇内的对象是否来自同一总体的公式,若所述检验结果得出是来自同一总体,所述聚簇为有效,若所述检验结果得出是来自同一总体,所述聚簇为非有效。
35.具体而言,若所述模型满足性质要求,所述聚类结果能够获得有效性,否则所述聚类结果获得非有效性,此时判定为非有效,其中,所述聚类结果非有效是由于所述模型不满足性质要求导致的。
36.参照图2所示,经过所述模型检验方法应用后,得到了满足ctl公式逆命题的路径,说明此次聚类非有效,但并非路径上所有节点都不满足ctl公式表示的性质要求,为了找到违反性质的步骤使用定位方法,其步骤如下:
37.s41:使用所示方法检验聚类有效性,经模型检测方法检验后,得到非空路径,其设置为t;
38.s42:得到满足性质的路径集合c,具体过程如下:
39.在迁移系统中获取满足性质公式的状态集合s
c
,对于若尚未被处理,将(即属于迁移系统中关系集合δ)的s
i
加入s
c
,并将路径(s
i
,s
j
)加入集合c。直到s
c
被处理完为止。除了聚类执行的最后状态外,其余步骤执行后的每个状态应满足原子命题表示的性质,即聚簇中的对象应来自于同一总体。最后一个状态应满足表示性质,即当聚类达到终止条件时,不同聚簇中的对象来自不同总体。
40.s43:计算t

c,从路径t中去除满足性质的路径c得到导致非有效结果的路径,即导致非有效结果的聚类步骤,其所得结果有助于为改进聚类过程提供依据。
41.实施例一
42.以k

means聚类为例,所述k

means聚类每次迭代都需计算新的聚簇中心并重新分配所有对象,通过多次迭代在达到最终收敛时形成聚类结果。
43.参照图3所示,其为所述k

means聚类结果有效性检验方法结构示意图;设聚簇数目k为两个(即聚簇0和1),每个状态由三个变量及其赋值构成。状态s1的r01、r10、c0表示所述聚簇0的对象发生变化而所述聚簇1中的对象未发生变化,其中,r0=1表示所述聚簇0对象是否发生变化,r1=0表示所述聚簇1对象是否发生变化,c=0表示所述聚簇0和1是否达到收敛的变量,由于迁移系统描述动作对所述变量的赋值变化影响,而状态间的迁移过程则体现了聚类算法的思路,一次聚类过程对应着迁移系统中的一条路径,因此,聚类每次迭代都对应了迁移系统的一个状态,聚类未达到收敛,变量c=0。
44.基于ctl提取满足有效聚类的性质公式。所述k

means将有效聚类的性质抽取为每个聚簇内的对象是否来自一个总体的公式。若聚类有效,应满足每次迭代重新分配对象后,每个聚簇中的对象都来自同一总体;若不满足则说明对应的聚类步骤极可能获得不够内聚的聚簇。所述ctl表示有效聚类的公式如下:eg[(c0∧c1)uconverge]
[0045]
其中,c0,c1分别表示聚簇0和聚簇1中的对象是否来自于同一总体的原子公式,u表示ctl中的时态连接词,比如直到;converge表示判断聚类是否达到收敛的原子公式。所述公式表示存在一条路径,每个状态对应的步骤所生成的聚簇内的对象均来自同一总体,直到聚类达到收敛。在每次迭代后通过假设检验的方法判断聚类的有效性,使得判断结果更客观。其中,判断对象是否来自同一总体通过方差同质性检验的方法来进行,对对象每个维度的数据进行方差同质性检验,若通过检验说明数据来自同一总体,否则接受备择假设,即数据来自不同总体。
[0046]
基于ctl的模型检测方法检测状态迁移路径里的每个状态是否满足性质公式,即检验聚类过程中的每个步骤是否满足有效聚类的要求。通过模型检测方法检验所述k

means执行过程的形式化模型是否满足所述公式表示的逆命题,若没有满足逆命题的路径说明模型对应的聚类过程中的每个步骤都满足性质要求,所得聚类结果有效可用;若满足逆命题的路径,则说明聚类过程中存在某步骤不符合聚类有效的性质,即对应聚类算法在当前数据集上的聚类效果并不理想。
[0047]
实施例二
[0048]
以合并式的层次聚类为例,层次聚类在每次迭代中合并距离相近的两组对象,直至达到指定聚簇数目为止。
[0049]
参照图4所示,其为所述合并式层次聚类结果有效性检验方法结构示意图;每个状态由变量及赋值构成。状态s1中的m1、nm1、e0表示有聚簇进行了合并,其中,m=1表示是否有聚簇合并的变量,nm=1表示存在聚簇未与其他对象合并的变量,e=0表示聚类是否达到终止条件的变量。
[0050]
基于ctl提取有效聚类应满足的性质公式。层次聚类中的每次迭代通过度量两组对象的距离决定是否对其合并。而判断两个聚簇内的对象是否具有相似性可通过从另一角度:判断这些对象是否来自于同一分布而进行。若检验结果得出是来自于同一总体,说明聚簇的合并是有效的;如果检验结果是两组对象来自不同总体,此时的合并则是非有效的。因此,对于合并的聚簇,提取性质时基于w

m

w秩和检验判断两个聚簇内的对象是否来自同一
总体,检验结果的真假可以作为性质公式的值,结果为真则说明此次合并有效,否则判定为无效。所述基于ctl的有效聚类的公式如下:
[0051]
其中,wm表示经w

m

w检验为真的原子公式,end表示判断聚类是否达到终止条件的原子公式。所述公式表示存在一条路径,其中,每个状态对应的步骤中合并的聚簇都要满足对象来自于同一总体的检验,直到聚类达到终止条件,并且终止时任意两组聚簇中的对象均不来自同一总体。在聚类的每次迭代中基于距离决定聚簇是否需要合并,在检验聚类是否有效时,跳脱出距离度量的方法使得判断结果更客观。
[0052]
基于ctl的模型检测方法检测每个状态是否满足性质公式,即检验聚类过程中的每次迭代是否合并了来自于同一总体的两组对象。基于模型检测方法检验表示层次聚类算法执行过程的模型是否满足所述公式表示的逆命题,没有满足的路径说明模型对应的聚类过程中的每个步骤都满足性质要求,所得聚类结果有效可用;若存在满足逆命题的路径,则说明聚类结果非有效。
[0053]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1