一种分布熵驱动的模糊C均值软平衡聚类算法的制作方法

文档序号:23761526发布日期:2021-01-29 18:58阅读:107来源:国知局
一种分布熵驱动的模糊C均值软平衡聚类算法的制作方法
一种分布熵驱动的模糊c均值软平衡聚类算法
技术领域
[0001]
本发明涉及机器学习领域中的聚类问题,具体涉及一种分布熵驱动的模糊c均值软平衡聚类算法。


背景技术:

[0002]
聚类作为一种非监督的机器学习方法,已成为模式识别和机器学习领域的研究热点。聚类的目标是将相似的样本数据聚到同一个类中。聚类可以发现数据中潜在的分布或结构,在图像分割、搜索引擎,生物医学应用等领域中得到了广泛的应用。与一般的聚类算法相比,基于模糊理论的模糊c均值聚类(fuzzy c-means,fcm)在聚类过程中表现出了很大的优势。该算法不仅考虑了每个样本点与所有聚类中心的相似性,而且通过其加权指数指明每个样本属于该类别的程度。fcm算法更加符合真实情况下的聚类,提供了更加灵活的聚类结果。
[0003]
然而在许多实际应用中,聚类任务面临着样本数量需要平衡的情况。例如在社区聚类任务中,不同社区的人数应该满足平衡性要求,如果聚类结果是失衡的会导致许多社会问题。在过去的二十年中,平衡聚类问题引起了众多研究者的广泛关注,产生了许多平衡聚类算法。根据平衡的严密性,平衡聚类可分为硬平衡聚类和软平衡聚类。硬平衡聚类通过添加规模约束来固定聚类的规模,使不同类别的样本数目绝对相等。典型的硬平衡聚类包括约束k均值聚类(constrained k-means,ckm),平衡k均值聚类(balanced k-means,bkm)等方法。软平衡聚类不需要每个类别的样本个数绝对相等,通过将标签分布约束集成到聚类模型中,使聚类结果的标签分布趋于平衡。典型的软平衡聚类包括规模正则化切(size regularized cut,src),软模型聚类(soft model-based clustering,smc),最小二乘回归平衡聚类(balanced clustering with least square regression,bcls),局部和全局平衡聚类(local and global balanced clustering,lgb)等方法。由于fcm算法没有考虑不同类别的规模约束,不具备实现平衡聚类的条件。为了解决这个问题,本发明将聚类模型与标签分布熵结合在一起,驱动fcm算法生成平衡聚类结果。


技术实现要素:

[0004]
本发明的目的就是解决现有技术中的问题,使fcm算法实现平衡聚类。为了实现该目的,本发明提出利用标签矩阵构建数据的分布熵,设计了一种分布熵驱动的模糊c均值(distribution entropy driven fuzzy c-means,ded-fcm)软平衡聚类方法,具体技术方案如下:
[0005]
一种分布熵驱动的模糊c均值软平衡聚类算法,包括以下步骤:
[0006]
第一,定义硬标签矩阵的分布熵:
[0007]
e(y)=||y
t
1||2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0008]
其中,y=[y
ik
]∈r
n
×
c
且y∈ind,它是硬标签矩阵,1为元素全为1的列向量。
[0009]
第二,定义硬标签矩阵和模糊隶属度矩阵之间的对应关系:
[0010][0011]
其中,为模糊隶属度矩阵。
[0012]
第三,采用frobenius范数构建平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离:
[0013][0014]
第四,结合标签矩阵的分布熵和平方损失项,构建分布熵驱动的模糊c均值软平衡聚类模型,如下:
[0015][0016]
其中,x
i
是原始数据中的样本,v
k
是第k类的类别中心,w
ik
是x
i
属于v
k
的模糊隶属度,m是模糊指数。n和c分别代表样本个数和类别个数。λ和γ分别为平方损失项正则参数和分布熵平衡参数。
[0017]
第五,对上述模型进行求解,该模型的优化求解过程如下:
[0018]
步骤1:随机初始化隶属度矩阵w,按公式(2)计算硬标签矩阵y,初始化调节参数ρ、惩罚参数μ>0和拉格朗日乘子矩阵λ=0。
[0019]
步骤2:固定w,对聚类中心矩阵v进行更新。
[0020][0021]
步骤3:固定v,对隶属度矩阵w进行更新。
[0022][0023]
其中,d
ik
是样本x
i
和聚类中心v
k
之间的距离,按照公式(7)进行计算。
[0024]
d
ik
=||x
i-v
k
||
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0025]
同时,为了使每个样本属于不同类的隶属度大于0且和为1,对w
ik
进行非负处理和归一化处理:
[0026][0027]
步骤4:固定w和y,更新辅助变量z。
[0028]
z=((2λ+μ)i
n
+2γ11
t
)-1
(2λw+μy+λ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0029]
其中,i
n
是单位矩阵。
[0030]
步骤5:固定z,λ和μ,更新硬标签矩阵y。
[0031][0032]
其中,矩阵p=z-(1/μ)λ。
[0033]
步骤6:更新拉格朗日乘子λ和惩罚参数μ。
[0034]
λ
(t+1)
=λ
(t)

(t)
(y
(t+1)-z
(t+1)
),μ
(t+1)
=ρμ
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0035]
重复步骤2至步骤6,直到目标函数收敛,获得最终的聚类结果y。
[0036]
综上所述,本发明利用数据的标签矩阵设计了分布熵,聚类模型最小化该分布熵时,可以得到更加平衡的聚类结果。通过将分布熵用于构建软平衡聚类模型,提出了一种分布熵驱动的模糊c均值(distribution entropy driven fuzzy c-means,ded-fcm)软平衡聚类方法,实现软平衡聚类。为了在fcm模型中结合分布熵,本发明利用平方损失正则化项建立了标签矩阵和模糊隶属度矩阵的对应关系。为了求解该模型,本发明提出了一种交替优化的策略,该优化策略包含两个步骤:平方损失函数优化和平衡驱动优化,优化更新策略保证收敛。同时,通过fcm聚类模型与标签分布熵之间的权衡参数来控制软平衡度。
附图说明
[0037]
图1是本发明的应用示意图;
[0038]
图2是本发明在coil20,isolet,orl,umist,pie,ar数据集的聚类结果acc评价示意图;
[0039]
图3是本发明在coil20,isolet,orl,umist,pie,ar数据集的聚类结果nmi评价示意图;
[0040]
图4是本发明在coil20,isolet,orl,umist,pie,ar数据集的聚类结果平衡性的ne评价示意图。
具体实施方式
[0041]
以下具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
[0042]
下面结合附图以实施例对本发明进行详细说明。
[0043]
实施例1:
[0044]
一种分布熵驱动的模糊c均值软平衡聚类算法,包括以下步骤:
[0045]
第一,定义硬标签矩阵的分布熵:
[0046]
e(y)=||y
t
1||2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0047]
其中,y=[y
ik
]∈r
n
×
c
且y∈ind,它是硬标签矩阵,1为元素全为1的列向量。
[0048]
第二,定义硬标签矩阵和模糊隶属度矩阵之间的对应关系:
[0049][0050]
其中,为模糊隶属度矩阵。
[0051]
第三,采用frobenius范数构建平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离:
[0052][0053]
第四,结合标签矩阵的分布熵和平方损失项,构建分布熵驱动的模糊c均值软平衡聚类模型,如下:
[0054][0055]
其中,x
i
是原始数据中的样本,v
k
是第k类的类别中心,w
ik
是x
i
属于v
k
的模糊隶属度,m是模糊指数。n和c分别代表样本个数和类别个数。λ和γ分别为平方损失项正则参数和分布熵平衡参数。
[0056]
第五,对上述模型进行求解,该模型的优化求解过程如下:
[0057]
步骤1:随机初始化隶属度矩阵w,按公式(1)计算硬标签矩阵y,初始化调节参数ρ、惩罚参数μ>0和拉格朗日乘子矩阵λ=0。
[0058][0059]
步骤2:固定w,对聚类中心矩阵v进行更新。
[0060][0061]
步骤3:固定v,对隶属度矩阵w进行更新。
[0062][0063]
其中,d
ik
是样本x
i
和聚类中心v
k
之间的距离,按照公式(7)进行计算。
[0064]
d
ik
=||x
i-v
k
||
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0065]
同时,为了使每个样本属于不同类的隶属度大于0且和为1,对w
ik
进行非负处理和归一化处理:
[0066][0067]
步骤4:固定w和y,更新辅助变量z。
[0068]
z=((2λ+μ)i
n
+2γ11
t
)-1
(2λw+μy+λ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0069]
其中,i
n
是单位矩阵。
[0070]
步骤5:固定z,λ和μ,更新硬标签矩阵y。
[0071][0072]
其中,矩阵p=z-(1/μ)λ。
[0073]
步骤6:更新拉格朗日乘子λ和惩罚参数μ。
[0074]
λ
(t+1)
=λ
(t)

(t)
(y
(t+1)-z
(t+1)
),μ
(t+1)
=ρμ
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0075]
重复步骤2至步骤6,直到目标函数收敛,获得最终的聚类结果y。
[0076]
在真实的coil20,isolet,orl,umist,pie,ar数据集上,根据图1所示,利用本发明进行学习,获取数据的聚类结果。如图2所示,ded-fcm
m=1
对应本发明中模糊指数为1的算法聚类结果,ded-fcm
m=2
对应本发明方法中模糊指数为2的聚类结果。同时我们采用了几种经典的聚类算法k-means和fcm,典型的软平衡聚类算法k-means++和isodata作为对比算法。从图2和图3中可以看出,ded-fcm在聚类精度方面表现不弱于传统聚类算法,并在模糊指数m=2时,该模型的聚类性能比模糊指数m=1时更好。结果表明,ded-fcm模型在聚类任务中的有效性。
[0077]
从图4中可以发现,本发明提出的ded-fcm算法采用样本的分布熵驱动聚类模型进行聚类,获取的聚类结果中各类别会达到软平衡。在其余方法中,ded-fcm算法在所有数据集中获得最佳平衡,这表明分布熵在软平衡聚类中起着重要的驱动作用,提高了聚类结果的平衡性。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1