一种两阶段的基于差分进化和模糊c-均值的聚类算法

文档序号：8905497阅读：160来源：国知局

一种两阶段的基于差分进化和模糊c-均值的聚类算法
【技术领域】
[0001] 本发明是关于数据挖掘中的聚类算法，属于数据挖掘领域，尤其属于聚类领域。
【背景技术】
[0002] 聚类是将样本空间的所有对象划分成若干组，使得同一个组内的对象具有很高的相似性，而不同组间的对象具有很大的差异性。其中，模糊C-均值聚类具有完善的理论基础，并已得到广泛应用。然而，模糊C-均值聚类算法存在一些缺点，主要表现在对初始值的依赖程度高、容易收敛于局部最优、对噪音数据处理能力较弱等。
[0003] 差分进化值ifferentialEvolution,D巧算法是一种基于种群的寻优算法。差分进化算法对解采用实数向量编码，在整个捜索空间中随机进化，W寻找全局最优解。差分进化算法采用S个控制参数；变异缩放因子（F)、交叉概率因子（CR)、种群规模（NP)。差分进化算法具有对初始值的依赖程度小、容易收敛于全局最优、鲁椿性好等优点。
[0004] 由于差分进化算法具有上述的一些优点，目前有研究将差分进化算法应用于聚类问题，提出了基于差分进化的模糊聚类算法。然而，现有的基于差分进化的模糊聚类算法具有两方面的缺点；（1)算法所采用的差分进化对变异缩放因子（巧和交叉概率因子（CR)敏感；（2)算法的收敛速度慢。

【发明内容】

[0005] 针对现有技术存在的问题，本发明的主要目的在于提供一种对初始值的依赖程度低并且能够快速收敛于全局最优的聚类算法。
[0006] 为实现上述目的，本发明提供一种两阶段的基于差分进化和模糊C-均值的聚类算法，其特征在于包含W下内容：
[0007] 1.采用两个阶段相接合的方式进行聚类
[000引如图1所示，本发明包含两个阶段一-第一阶段：用差分进化算法聚类；第二阶段；用模糊C-均值聚类算法聚类。
[0009] 2.参数的自适应动态调整
[0010] 在本发明的第一阶段中，对变异缩放因子（巧和交叉概率因子（CR)两个参数提供一种自适应动态调整方法，即；每次在种群个体进化之前，先更新F和CR，使得F和CR的值不再是一个常量。通过该方法能有效地减少差分进化算法对F和CR的敏感度。更新F和 CR的方法见公式（7)和巧）。
[0011] 3.测试种群收敛度来作为由第一阶段进入到第二阶段的切换条件
[0012] 在本发明的第一阶段中，在整个种群完成一次进化后，测试种群的收敛度h，h描述了种群个体之间的差异程度。若h小于事先给定的阔值he,则结束第一阶段，W第一阶段得到的解作为第二阶段的初值，进入到第二阶段执行；否则继续执行第一阶段，即进行下一次迭代。
[0013] 4.计算种群收敛度h的方法由公式（12)给出。
【附图说明】
[0014] 图1是本发明的流程图。
[0015] 图2是图1中步骤S1的流程图。
[0016] 图3是图1中步骤S3的流程图。
【具体实施方式】
[0017] 下面结合附图，对本发明的【具体实施方式】做详细说明。
[001引模糊聚类问题的描述如下：
[0019] 给定数据集X= (Xi，X2…，X。}，X中有n个对象，其中每个对象有d个维度。聚类就是将X划分为C个类。Vi(l《i《C)为第i个类的聚类中屯、，C个聚类中屯、组成的向量 V= (Vi，V2,…，vj称为聚类中屯、矢量。与传统聚类不同，模糊聚类在划分时，每个对象不是严格地被划分到某个类中，而是用对象与类的隶属度来描述，隶属度的计算公式为（14a) 和（14b)。U"xe为隶属度矩阵，其中的元素Uy表示第i个对象与第j类的隶属度，其满足：
[0020]
W
[0021] 聚类结果的优劣，用目标函数评价，目标函数为：
[0022]
(2)
[002引其中，I|xi-Vj|I%对象X占聚类中屯、Vj的距离，m> 1是模糊加权参数。
[0024] 把聚类中屯、矢量用实数向量编码，可作为原问题的一个解，则解的格式为（3)式所示：
[002引 V= [ (V。，V。，…，V")，021，V22,…，V2d)，…，（Vci,V。，…，Vcd)] 做
[0026] 如图1所示，本发明所提供的算法包含两个阶段。
[0027] 1.第一阶段：采用差分进化算法聚类
[002引 1. 1初始化
[0029] 算法执行前，首先由用户给定W下参数：聚类个数C、种群规模NP、收敛度阔值he、变异缩放因子下界巧、交叉概率因子下界巧，、模糊加权参数m、最大迭代次数。
[0030] 然后初始化种群。初始化种群需要尽可能均匀地覆盖整个解空间，因此需要求得原始数据集X的下界和上界，分别为
[0033]其中，边。是原始数据集X中所有对象第i维度的最小值；xLx是原始数据集X中所有对象第i维度的最大值。
[0034] 随机初始化一个种群个体V，即一个聚类中屯、矢量，亦即原问题的一个解，初始化公式如化）式所示：
[0035]
货）
[0036] V。表示聚类中屯、矢量的第i个聚类中屯、的第j个维度的值。其中，rancKO, 1)返回一个[0, 1]之间的浮点随机数，服从[0, 1]上的均匀分布。
[0037] 初始化NP个该样的聚类中屯、矢量，NP为种群的规模。第i个聚类中屯、矢量用 Vi(1《i《N巧表示。种群为Z= {Vi，V2,…，V，该NP个个体格式一致，但互相各不相等，每个个体均可作为原问题的一个解，但该些解存在着优劣之分。
[0038] 1. 2进化过程
[0039] 该过程对应图1中的步骤S1。该步又可分为4个步骤；参数自适应动态调整、变异操作、交叉操作和选择操作。
[0040] 1. 2. 1参数自适应动态调整
[0041] 该步骤对应图2中的步骤S1. 1。
[0042] 差分进化算法对变异缩放因子F和交叉概率因子CR敏感，因此本发明提供一种自适应的方法动态更新F和CR，其目的是让算法在执行过程中F和CR不再是常量，从而降低算法对该两个参数的敏感程度。F和CR的更新公式如（7)式和（8)式所示：
[0045] 其中，巧巧巧:分别表示F和CR的下界。
[0046] 1. 2. 2变异操作
[0047] 该步骤对应图2中的步骤S1. 2。
[0048]用表示第g代种群中第i个个体。
[0049] 从种群中随机地选择=个聚类中屯、矢量进行矢量运算，得到一个临时的实验矢量 D，如巧）式所示
[(K)加]
(9)
[0051] 其中，ri(i= 1，2,3)是互不相等的整数，取值范围为[1，NP]。
[0化2] 1. 2. 3交叉操作
[0化3] 该步骤对应图2中的步骤S1. 3。
[0化4] 通过矢量D与矢量V,W的交叉操作得到交叉后的实验矢量S，S每一维度的取值如 (10)式所示[0 化 5]
(10)
[0056] 其中，Ir是[1，CX山上的一个随机整数，使得S中至少有一个分量是由D贡献的。
[0化7] 1. 2. 4选择操作
[0化引该步骤对应图2中的步骤S1. 4。
[0化9] 依据目标函数进行选择操作：
[0060]
(11)
[0061] 1. 3测试种群收敛度
[0062] 该步骤对应图1中的步骤S2及下面的判定操作。
[0063] 整个种群每完成一次进化后，测试种群的收敛度h，h描述了种群个体之间的差异程度。若h小于事先给定的阔值he,说明解已经收敛到全局最优解附近，此时停止差分进化算法（图1中第一阶段）的执行，将差分进化算法得到的解作为模糊C-均值聚类算法的初值，进行聚类（图1中第二阶段）。若种群收敛度没有满足阔值条件，则继续执行第一阶段，即进行下一次迭代。通过测试种群收敛度的方式不仅可W得到较快的收敛速度，同时解决了模糊C-均值算法对初值敏感程度高、容易收敛于局部最优的问题。
[0064] 种群的收敛度用（12)式来计算，若种群的规模为NP，第i个个体的目标函数值为 Ji=J扣，Vi)，平均目标函数值为
則种群收敛度定义如下：
[0068] 2.第二阶段；用模糊C-均值聚类算法聚类
[0069] 该步骤对应图1中的步骤S3。
[0070] 2. 1计算隶属度矩阵
[0071] 该步骤对应图3中的步骤S3. 1。
[007引令Ii= {j|l《j《C，Mxi-Vj'M=0}，li= {1，2,…，口-li。
[0073]当Ii= 4 时，
[0077] 2. 2计算聚类中屯、矢量
[007引该步骤对应图3中的步骤S3. 2。
[0079] 聚类中屯、矢量的计算如（15)式所示：
[0080]
(15)
【主权项】
1. 一种两阶段相接合的方式进行聚类的方法，其特征在于：采用两个阶段进行聚类，第一阶段采用差分进化算法聚类，第二阶段采用模糊C-均值聚类算法聚类，当第一阶段执行到满足切换条件时，进入到第二阶段执行，如图1所示。2. -种权利要求1中的第一阶段的聚类算法中，对变异缩放因子（F)和交叉概率因子 (CR)的参数自适应动态调整方法，其特征在于：每次进化之前，先对F和CR进行更新，更新 F和CR的方法为公式（7)和（8)。3. -种权利要求1中的切换条件的具体方式，其特征在于：整个种群完成一次进化后，测试种群收敛度h，若h小于一个事先给定的阈值hc，则结束第一阶段，以第一阶段得到的解作为第二阶段的初值，进入到第二阶段执行；否则继续执行第一阶段，即进行下一次迭代。4. 一种权利要求3中的种群收敛度h的具体计算方法，其特征在于：h由公式（12)来计算。
【专利摘要】本发明公开了一种两阶段的基于差分进化和模糊C-均值的聚类算法，该算法包含两个阶段，第一阶段采用差分进化算法聚类，第二阶段采用模糊C-均值聚类算法聚类，当第一阶段执行到满足切换条件时，进入到第二阶段执行。提供了一种切换条件的具体方式，即测试种群收敛度；并提供了种群收敛度的具体计算方法。提供了一种第一阶段中对变异缩放因子(F)和交叉概率因子(CR)的参数自适应动态调整方法。与现有技术相比，本发明具有对初始值的依赖程度低、收敛速度快、容易收敛于全局最优、对参数F和CR不敏感等优点。
【IPC分类】G06K9/62
【公开号】CN104881688
【申请号】CN201510319187
【发明人】杨波, 陈俊伟, 杨洋
【申请人】电子科技大学
【公开日】2015年9月2日
【申请日】2015年6月11日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨波;陈俊伟;杨洋;
技术所有人：电子科技大学;
我是此专利的发明人

上一篇：一种多标签主动学习分类方法及系统的制作方法
上一篇：基于半监督高斯混合模型的磁共振图像分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。