一种使用模糊近邻的鲁棒性密度峰值算法及系统的制作方法

文档序号:11583657阅读:574来源:国知局

本发明涉及模式识别和机器学习领域,具体涉及一种使用模糊近邻的鲁棒性密度峰值算法及系统。



背景技术:

聚类分析的密度是通过找出以“簇”的形式存在于数据集内部的结构,用以发现数据集的内部组织。这一词指的是由近似数据点组成的被分离开来的群。直觉上讲,簇的分割具有簇内相似及簇间相异的特点。因此,数据数据被分解成许多群,这些群有相似的对象构成,同时不同的群包含了各不相同的元素。该方法论被广泛的应用于多元统计学和机器学习。

传统的聚类大致被分为4类:划分聚类、层次聚类、密度聚类和模型聚类。每类方式都各有利弊,如,划分聚类通常需要指定簇个数,且需要迭代;层次聚类同样很难找到最优的聚类个数;而传统的密度聚类算法参数调节困难;模型聚类通常需要对数据的分布情况进行假设。2014年,《science》上发表了一篇全新的聚类方法,密度峰值聚类(densitypeaksclustering,dpc)。密度峰值聚类具有如下特点:无需指定簇个数;适用于任意形状的数据集;无需迭代,也不会陷入局部最优;只有一个参数,易于调节控制;无需对数据集的分布进行假设。算法简单,易于实现。由于以上特点,密度聚类算法也受到了越来越多的关注,并被应用于异常点检测、图像处理、文本处理等领域。密度峰值聚类算法给聚类问题的求解提供了新思路,能有效处理许多实际问题,其研究具有巨大的科研价值和应用潜力。

但是密度峰值聚类依然存在一些问题。例如,在同一邻域半径内,不同的近邻点分布应该产生不同的近邻隶属度,然而原始算法没有对此加以区分,难于处理不确定数据。



技术实现要素:

为了解决上述问题,本发明提出一种使用模糊近邻的鲁棒性密度峰值算法及系统。首先,使用模糊近邻函数求解出每个样本点的近邻隶属度,然后,使用改进过的局部密度计算公式,求解局部密度。再利用原始算法中的求解步骤找出聚类中心点,完成聚类。该方式充分考虑了模糊关系对算法的影响,具有较强的鲁棒性和泛化能力。

本发明是通过以下方案实现的:

本发明涉及一种使用模糊近邻的鲁棒性密度峰值算法及系统,通过模糊最近邻方法,改进原始局部密度的求解方式,使整个聚类算法充分考虑数据的不确定因素。最后在求解出簇中心点,输出聚类结果。

本发明具体步骤如下:

步骤1,依据欧式距离公式计算相似度矩阵。

步骤2,使用模糊近邻方式重新定义近邻隶属度关系。

步骤3,根据相似度矩阵计算各个点的两个重要数值:ρi和δi。

步骤3.1:依据模糊近邻隶属度计算出该点的局部密度ρi,其计算公式如下:

步骤3.2:由如下公式计算每个点的δi值:

步骤4,绘制出决定图,选出其中ρi相对较高且δi非常高的点作为簇中心点。

步骤5,将每个数据点分配给离其最近的中心点所在的簇。

通过以上内容可知,

本技术:
提供的是一种使用模糊近邻的鲁棒性密度峰值算法及系统,首先计算相似度矩阵,求解出模糊近邻方式,然后计算出局部密度计算方式求解ρi和δi。绘制出决定图选择聚类中心点,分配剩余数据点,得到聚类结果。本申请充分考虑了模糊近邻关系,并能够很好地处理不确定性的数据,具有较强的鲁棒性和泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种使用模糊近邻的鲁棒性密度峰值算法的流程图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

实施例1

如图1所示,本实施例包括以下步骤:

输入:数据集χ={x1,x2,…,xn}(xi∈rd),参数dc。

输出:划分好的数据类。

步骤1:计算相似矩阵。通过欧式距离求解各个数据点对间的距离,组成一个对称矩阵。

步骤2:计算模糊近邻的隶属度。通过公式(1)计算模糊近邻的隶属度。

步骤3:求解ρi和δi。依据模糊近邻隶属度以及公式(2)求解出各数据点的ρi。再依据ρi的结果以及公式(3)求解出各数据点的δi。

步骤4:绘制决定图,选择中心点。依据ρi和δi的结果绘制决定图,再依据决定图选择出中心点。

步骤5:分配各数据点返回结果。将剩余没有分配的各个数据点依据其与何中心点最近,将其分配给该中心点所在的簇。返回最终聚类结果。



技术特征:

技术总结
本发明提出一种使用模糊近邻的鲁棒性密度峰值算法及系统,首先,使用模糊近邻函数求解出每个样本点的近邻隶属度,然后,使用改进过的局部密度计算公式,求解局部密度。再利用原始算法中的求解步骤找出聚类中心点,完成聚类。该方式充分考虑了模糊关系对算法的影响,具有较强的鲁棒性和泛化能力。

技术研发人员:丁世飞;杜明晶
受保护的技术使用者:中国矿业大学
技术研发日:2017.03.09
技术公布日:2017.08.11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1