一种两阶段的基于差分进化和模糊c-均值的聚类算法

文档序号:8905497阅读:160来源:国知局
一种两阶段的基于差分进化和模糊c-均值的聚类算法
【技术领域】
[0001] 本发明是关于数据挖掘中的聚类算法,属于数据挖掘领域,尤其属于聚类领域。
【背景技术】
[0002] 聚类是将样本空间的所有对象划分成若干组,使得同一个组内的对象具有很高的 相似性,而不同组间的对象具有很大的差异性。其中,模糊C-均值聚类具有完善的理论基 础,并已得到广泛应用。然而,模糊C-均值聚类算法存在一些缺点,主要表现在对初始值的 依赖程度高、容易收敛于局部最优、对噪音数据处理能力较弱等。
[0003] 差分进化值ifferentialEvolution,D巧算法是一种基于种群的寻优算法。差分 进化算法对解采用实数向量编码,在整个捜索空间中随机进化,W寻找全局最优解。差分进 化算法采用S个控制参数;变异缩放因子(F)、交叉概率因子(CR)、种群规模(NP)。差分进 化算法具有对初始值的依赖程度小、容易收敛于全局最优、鲁椿性好等优点。
[0004] 由于差分进化算法具有上述的一些优点,目前有研究将差分进化算法应用于聚类 问题,提出了基于差分进化的模糊聚类算法。然而,现有的基于差分进化的模糊聚类算法具 有两方面的缺点;(1)算法所采用的差分进化对变异缩放因子(巧和交叉概率因子(CR)敏 感;(2)算法的收敛速度慢。

【发明内容】

[0005] 针对现有技术存在的问题,本发明的主要目的在于提供一种对初始值的依赖程度 低并且能够快速收敛于全局最优的聚类算法。
[0006] 为实现上述目的,本发明提供一种两阶段的基于差分进化和模糊C-均值的聚类 算法,其特征在于包含W下内容:
[0007] 1.采用两个阶段相接合的方式进行聚类
[000引如图1所示,本发明包含两个阶段一-第一阶段:用差分进化算法聚类;第二阶 段;用模糊C-均值聚类算法聚类。
[0009] 2.参数的自适应动态调整
[0010] 在本发明的第一阶段中,对变异缩放因子(巧和交叉概率因子(CR)两个参数提供 一种自适应动态调整方法,即;每次在种群个体进化之前,先更新F和CR,使得F和CR的值 不再是一个常量。通过该方法能有效地减少差分进化算法对F和CR的敏感度。更新F和 CR的方法见公式(7)和巧)。
[0011] 3.测试种群收敛度来作为由第一阶段进入到第二阶段的切换条件
[0012] 在本发明的第一阶段中,在整个种群完成一次进化后,测试种群的收敛度h,h描 述了种群个体之间的差异程度。若h小于事先给定的阔值he,则结束第一阶段,W第一阶段 得到的解作为第二阶段的初值,进入到第二阶段执行;否则继续执行第一阶段,即进行下一 次迭代。
[0013] 4.计算种群收敛度h的方法由公式(12)给出。
【附图说明】
[0014] 图1是本发明的流程图。
[0015] 图2是图1中步骤S1的流程图。
[0016] 图3是图1中步骤S3的流程图。
【具体实施方式】
[0017] 下面结合附图,对本发明的【具体实施方式】做详细说明。
[001引模糊聚类问题的描述如下:
[0019] 给定数据集X= (Xi,X2…,X。},X中有n个对象,其中每个对象有d个维度。聚类 就是将X划分为C个类。Vi(l《i《C)为第i个类的聚类中屯、,C个聚类中屯、组成的向量 V= (Vi,V2,…,vj称为聚类中屯、矢量。与传统聚类不同,模糊聚类在划分时,每个对象不 是严格地被划分到某个类中,而是用对象与类的隶属度来描述,隶属度的计算公式为(14a) 和(14b)。U"xe为隶属度矩阵,其中的元素Uy表示第i个对象与第j类的隶属度,其满足:
[0020]
W
[0021] 聚类结果的优劣,用目标函数评价,目标函数为:
[0022]
(2)
[002引其中,I|xi-Vj|I%对象X占聚类中屯、Vj的距离,m> 1是模糊加权参数。
[0024] 把聚类中屯、矢量用实数向量编码,可作为原问题的一个解,则解的格式为(3)式 所示:
[002引 V= [ (V。,V。,…,V"),021,V22,…,V2d),…,(Vci,V。,…,Vcd)] 做
[0026] 如图1所示,本发明所提供的算法包含两个阶段。
[0027] 1.第一阶段:采用差分进化算法聚类
[002引 1. 1初始化
[0029] 算法执行前,首先由用户给定W下参数:聚类个数C、种群规模NP、收敛度阔值he、 变异缩放因子下界巧、交叉概率因子下界巧,、模糊加权参数m、最大迭代次数。
[0030] 然后初始化种群。初始化种群需要尽可能均匀地覆盖整个解空间,因此需要求得 原始数据集X的下界和上界,分别为
[0033]其中,边。是原始数据集X中所有对象第i维度的最小值;xLx是原始数据集X中 所有对象第i维度的最大值。
[0034] 随机初始化一个种群个体V,即一个聚类中屯、矢量,亦即原问题的一个解,初始化 公式如化)式所示:
[0035]
货)
[0036] V。表示聚类中屯、矢量的第i个聚类中屯、的第j个维度的值。其中,rancKO, 1)返 回一个[0, 1]之间的浮点随机数,服从[0, 1]上的均匀分布。
[0037] 初始化NP个该样的聚类中屯、矢量,NP为种群的规模。第i个聚类中屯、矢量用 Vi(1《i《N巧表示。种群为Z= {Vi,V2,…,V,该NP个个体格式一致,但互相各不相 等,每个个体均可作为原问题的一个解,但该些解存在着优劣之分。
[0038] 1. 2进化过程
[0039] 该过程对应图1中的步骤S1。该步又可分为4个步骤;参数自适应动态调整、变 异操作、交叉操作和选择操作。
[0040] 1. 2. 1参数自适应动态调整
[0041] 该步骤对应图2中的步骤S1. 1。
[0042] 差分进化算法对变异缩放因子F和交叉概率因子CR敏感,因此本发明提供一种自 适应的方法动态更新F和CR,其目的是让算法在执行过程中F和CR不再是常量,从而降低 算法对该两个参数的敏感程度。F和CR的更新公式如(7)式和(8)式所示:
[0045] 其中,巧巧巧:分别表示F和CR的下界。
[0046] 1. 2. 2变异操作
[0047] 该步骤对应图2中的步骤S1. 2。
[0048]用表示第g代种群中第i个个体。
[0049] 从种群中随机地选择=个聚类中屯、矢量进行矢量运算,得到一个临时的实验矢量 D,如巧)式所示
[(K)加]
(9)
[0051] 其中,ri(i= 1,2,3)是互不相等的整数,取值范围为[1,NP]。
[0化2] 1. 2. 3交叉操作
[0化3] 该步骤对应图2中的步骤S1. 3。
[0化4] 通过矢量D与矢量V,W的交叉操作得到交叉后的实验矢量S,S每一维度的取值如 (10)式所示[0 化 5]
(10)
[0056] 其中,Ir是[1,CX山上的一个随机整数,使得S中至少有一个分量是由D贡献的。
[0化7] 1. 2. 4选择操作
[0化引该步骤对应图2中的步骤S1. 4。
[0化9] 依据目标函数进行选择操作:
[0060]
(11)
[0061] 1. 3测试种群收敛度
[0062] 该步骤对应图1中的步骤S2及下面的判定操作。
[0063] 整个种群每完成一次进化后,测试种群的收敛度h,h描述了种群个体之间的差异 程度。若h小于事先给定的阔值he,说明解已经收敛到全局最优解附近,此时停止差分进 化算法(图1中第一阶段)的执行,将差分进化算法得到的解作为模糊C-均值聚类算法的 初值,进行聚类(图1中第二阶段)。若种群收敛度没有满足阔值条件,则继续执行第一阶 段,即进行下一次迭代。通过测试种群收敛度的方式不仅可W得到较快的收敛速度,同时解 决了模糊C-均值算法对初值敏感程度高、容易收敛于局部最优的问题。
[0064] 种群的收敛度用(12)式来计算,若种群的规模为NP,第i个个体的目标函数值为 Ji=J扣,Vi),平均目标函数值为
則种群收敛度定义如下:
[0068] 2.第二阶段;用模糊C-均值聚类算法聚类
[0069] 该步骤对应图1中的步骤S3。
[0070] 2. 1计算隶属度矩阵
[0071] 该步骤对应图3中的步骤S3. 1。
[007引令Ii= {j|l《j《C,Mxi-Vj'M=0},li= {1,2,…,口-li。
[0073]当Ii= 4 时,
[0077] 2. 2计算聚类中屯、矢量
[007引该步骤对应图3中的步骤S3. 2。
[0079] 聚类中屯、矢量的计算如(15)式所示:
[0080]
(15)
【主权项】
1. 一种两阶段相接合的方式进行聚类的方法,其特征在于:采用两个阶段进行聚类, 第一阶段采用差分进化算法聚类,第二阶段采用模糊C-均值聚类算法聚类,当第一阶段执 行到满足切换条件时,进入到第二阶段执行,如图1所示。2. -种权利要求1中的第一阶段的聚类算法中,对变异缩放因子(F)和交叉概率因子 (CR)的参数自适应动态调整方法,其特征在于:每次进化之前,先对F和CR进行更新,更新 F和CR的方法为公式(7)和(8)。3. -种权利要求1中的切换条件的具体方式,其特征在于:整个种群完成一次进化后, 测试种群收敛度h,若h小于一个事先给定的阈值hc,则结束第一阶段,以第一阶段得到的 解作为第二阶段的初值,进入到第二阶段执行;否则继续执行第一阶段,即进行下一次迭 代。4. 一种权利要求3中的种群收敛度h的具体计算方法,其特征在于:h由公式(12)来 计算。
【专利摘要】本发明公开了一种两阶段的基于差分进化和模糊C-均值的聚类算法,该算法包含两个阶段,第一阶段采用差分进化算法聚类,第二阶段采用模糊C-均值聚类算法聚类,当第一阶段执行到满足切换条件时,进入到第二阶段执行。提供了一种切换条件的具体方式,即测试种群收敛度;并提供了种群收敛度的具体计算方法。提供了一种第一阶段中对变异缩放因子(F)和交叉概率因子(CR)的参数自适应动态调整方法。与现有技术相比,本发明具有对初始值的依赖程度低、收敛速度快、容易收敛于全局最优、对参数F和CR不敏感等优点。
【IPC分类】G06K9/62
【公开号】CN104881688
【申请号】CN201510319187
【发明人】杨波, 陈俊伟, 杨洋
【申请人】电子科技大学
【公开日】2015年9月2日
【申请日】2015年6月11日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1