一种聚类中心的选取方法、装置及介质与流程

文档序号:15447732发布日期:2018-09-14 23:34阅读:168来源:国知局

本发明涉及聚类分析领域,特别是涉及一种聚类中心的选取方法、装置及介质。



背景技术:

聚类分析简称聚类(clustering),是一个把数据对象划分成子集的过程。每个子集都是一个簇,经过对数据对象的划分后使得簇中的对象彼此相似,并且与其它簇中的对象不相似。在众多聚类分析中,密度峰值聚类算法是一种相对简单的实现,该算法是一种可以聚类非球形数据集的新型聚类算法,需要计算样本点的局部密度以及该样本点到更高局部密度的点的距离,以在众多样本点中确定聚类中心,进而对样本点进行聚类。

当前对于聚类中心的确定方法,通常是在计算出各样本点的局部密度以及各样本点到更高局部密度的点的距离后,由于样本点的数量相对庞大,因此选取聚类中心时计算的时间复杂度较高,计算周期相对较长,进而将影响聚类算法的执行效率。

由此可见,提供一种聚类中心的选取方法,以减少选取聚类中心的时间复杂度,相应的减少计算周期,进而保证聚类算法的执行效率,是本领域技术人员亟待解决的问题。



技术实现要素:

本发明的目的是提供一种聚类中心的选取方法、装置及介质,以减少选取聚类中心的时间复杂度,减少计算周期,进而保证聚类算法的执行效率。

为解决上述技术问题,本发明提供一种聚类中心的选取方法,应用于密度峰值聚类算法,包括:

通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离;

依照预设规则,将局部密度作为参数以计算密度阈值,并将高密度距离作为参数以计算高密度距离阈值;

在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。

优选的,通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离的步骤包括:

计算各样本点之间的欧氏距离

其中,i为样本点的维度,n为大于等于1的整数常量,xi为第一样本点在i维度的坐标,yi为第二样本点在i维度的坐标;

其中,dc为预设的截断距离,为与欧氏距离dxy以及预设的截断距离相关的统计函数;

根据局部密度计算高密度距离

其中,j表示任意样本点,ρj表示任意样本点的局部密度,min(dxy)表示欧式距离中的最小值,max(dxy)表示欧式距离中的最大值。

优选的,在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心后,该方法进一步包括:

设置聚类距离,并根据聚类距离划分聚类中心的类簇样本点;

其中,类簇样本点与聚类中心属于同一类别,且类簇样本点至聚类中心的距离在聚类距离范围内。

优选的,聚类中心的数量大于1。

此外,本发明还提供一种聚类中心的选取装置,应用于密度峰值聚类算法,包括:

获取装置,用于通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,及各样本点到更高局部密度的样本点之间的高密度距离;

运算装置,用于依照预设规则,将局部密度作为参数以计算密度阈值,并将高密度距离作为参数以计算高密度距离阈值;

选择装置,用于在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。

优选的,获取装置中进一步包括:

第一计算装置,用于计算各样本点之间的欧氏距离

其中,i为样本点的维度,n为大于等于1的整数常量,xi为第一样本点在i维度的坐标,yi为第二样本点在i维度的坐标;

第二计算装置,用于根据欧式距离计算各样本点的局部密度

其中,dc为预设的截断距离,为与欧氏距离dxy以及预设的截断距离相关的统计函数;

第三计算装置,用于根据局部密度计算高密度距离

其中,j表示任意样本点,ρj表示任意样本点的局部密度,min(dxy)表示欧式距离中的最小值,max(dxy)表示欧式距离中的最大值。

优选的,该装置进一步包括:

聚类装置,用于设置聚类距离,并根据聚类距离划分聚类中心的类簇样本点;

其中,类簇样本点与聚类中心属于同一类别,且类簇样本点至聚类中心的距离在聚类距离范围内。

此外,本发明还提供一种聚类中心的选取装置,应用于密度峰值聚类算法,包括:

存储器,用于存储计算机程序;

处理器,用于执行计算机程序时实现如上述的聚类中心的选取方法的步骤。

此外,本发明还提供一种计算机可读存储介质,应用于密度峰值聚类算法,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的聚类中心的选取方法的步骤。

本发明所提供的聚类中心的选取方法,通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离,将局部密度以及高密度距离作为运算参数,分别依照预设规则计算得到密度阈值以及高密度距离阈值,进而在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。在本方法中,采用openmp设置的多线程的方式并行获取各样本点的局部密度以及高密度距离,以进行后续计算,能够在单位时间内计算更多样本点的密度阈值以及高密度距离阈值,并且由于对于各个样本点之间的计算相对独立,因此降低了计算的时间复杂度,进而相应的减少了计算周期,保证了聚类算法的执行效率。此外,本发明还提供一种聚类中心的选取装置及介质,有益效果同上所述。

附图说明

为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种聚类中心的选取方法的流程图;

图2为本发明实施例提供的另一种聚类中心的选取方法的流程图;

图3为本发明实施例提供的一种聚类中心的选取装置结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。

本发明的核心是提供一种聚类中心的选取方法,以保证聚类中心选取操作的可复制性及通用性,并且提高对于聚类中心的选取准确性,保证聚类算法结果的可靠性。本发明的另一核心是提供一种聚类中心的选取装置及介质。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。

实施利一

图1为本发明实施例提供的一种聚类中心的选取方法的流程图。请参考图1,聚类中心的选取方法的具体步骤包括:

步骤s10:通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离。

openmp是一种指导性编译处理方案,提供了对并行算法的高层的抽象描述,通过在源代码中加入专用的pragma指令以指明意图,由此编译器可以自动将程序进行自动化,并在必要时加入同步互斥及通信。

考虑到由于进行聚类中心选取时,样本集合中的样本点数量相对庞大,如果按序获取每一个样本点的局部密度及高密度距离并进行后续计算则会造成较大的时间开销,因此本步骤中通过openmp设置的多线程并行获取多个样本点的局部密度以及高密度距离以进行后续计算步骤。

由于需要进行聚类中心的选取,因此样本集合中的样本点数量应为多个,并且样本点在空间中的位置随机分布。本步骤中所获取的局部密度所指的是样本集合中任意样本点预设范围中的其它样本点的数量;本步骤中所获取的高密度距离表征的是任意样本点与任意比该样本点局部密度大的样本点之间的距离。

步骤s11:依照预设规则,将局部密度作为参数以计算密度阈值,并将高密度距离作为参数以计算高密度距离阈值。

需要说明的是,用于计算密度阈值以及高密度距离的预设规则可以通过表达式的形式体现,其中一种计算表达式如下:

密度阈值的计算表达式为thρ=λ1*(max(ρ)-min(ρ))+min(ρ);

式中,ρ为局部密度,max(ρ)为各局部密度中的最大值,min(ρ)为各局部密度中的最小值,λ1为第一误差调整常量,且0<λ1<1;

其中,高密度距离阈值的计算表达式为thδ=λ2*(max(δ)-min(δ))+min(δ);

式中,δ为高密度距离,max(δ)为各高密度距离中的最大值,min(δ)各高密度距离中的最小值,λ2为第二误差调整常量,且0<λ2<1。

需要解释的是,密度阈值的计算表达式中,max(ρ)为当前样本集合中的所有样本点的局部密度的最大值;min(ρ)为当前样本集合中的所有样本点的各局部密度的最小值;由于样本集合中可能存在错误的样本点,会对聚类中心的选取造成干扰,因此引入λ1作为第一误差调整常量,用于调整样本集合的误差,并且λ1的取值范围在0至1之间,对于λ1的值的具体确定应根据当前类型样本集普遍的误差率进行确定。通过λ1调整局部密度的极差后,与局部密度最小值相加得到相对准确的密度阈值。另外,高密度距离阈值计算表达式与密度阈值计算表达式的原理相同,请参见上述对于密度阈值计算表达式原理的阐述。λ1与λ2的取值与样本集的类型相关,以flame样本集为例,根据其普遍的误差率,将λ1设置为0.8,将λ2设置为0.2,对于密度阈值以及高密度距离阈值的计算精度较好。

上述表达式仅为计算密度阈值以及高密度距离阈值的一种具体预设规则所对应的表达式,用户可以根据实际情况,对表达式进行适应性的改变,但是以本申请所提及的表达式为基础做出的适应性改变,由于遵循本申请所提及的表达式的思想,因此都应落入本申请的保护范围内。

步骤s12:在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。

由于聚类中心的局部密度最大,并且距离其它局部密度更大的样本点超过一定的范围,因此在本步骤中,将获取的密度阈值以及高密度距离阈值作为选取聚类中心的界定标准,选取符合第一预设关系以及第二预设关系要求的目标样本点作为聚类中心。另外,当密度阈值的计算表达式为上述thρ=λ1*(max(ρ)-min(ρ))+min(ρ)且高密度距离阈值的计算表达式为上述的thδ=λ2*(max(δ)-min(δ))+min(δ)时,第一预设关系与第二预设关系均为大于关系,即在样本集合中选取局部密度大于密度阈值,且高密度距离大于高密度距离阈值的目标样本点作为聚类中心。

本发明所提供的聚类中心的选取方法,通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离,将局部密度以及高密度距离作为运算参数,分别依照预设规则计算得到密度阈值以及高密度距离阈值,进而在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。在本方法中,采用openmp设置的多线程的方式并行获取各样本点的局部密度以及高密度距离,以进行后续计算,能够在单位时间内计算更多样本点的密度阈值以及高密度距离阈值,并且由于对于各个样本点之间的计算相对独立,因此降低了计算的时间复杂度,进而相应的减少了计算周期,保证了聚类算法的执行效率。

实施例二

在上述实施例的基础上,本发明还提供以下一系列优选的实施方式。

图2为本发明实施例提供的另一种聚类中心的选取方法的流程图。图2中步骤s11-s12与图1相同,在此不再赘述。

如图2所示,作为一种优选的实施方式,步骤s10具体包括:

步骤s20:计算各样本点之间的欧氏距离

其中,i为样本点的维度,n为大于等于1的整数常量,xi为第一样本点在i维度的坐标,yi为第二样本点在i维度的坐标。

需要说明的是,由于样本点的维度数大于等于1,因此在计算两个样本点的欧式距离时,需要针对两点的每个对应维度进行计算。在欧式距离的运算表达式中,i为样本点的维度,而n表示i的最大取值,根据样本点的维度而定。

其中,dc为预设的截断距离,为与欧氏距离dxy以及预设的截断距离相关的统计函数。

需要说明的是,在局部密度的计算表达式中,截断距离dc所起到的是阈值的作用,用于衡量两样本点的欧式距离dxy是否超过规定范围,即判断dxy与dc的差值是否小于0,如果是,则表示欧式距离dxy在dc的规定范围内,相应的样本点属于局部密度的统计范围,进而局部密度是对符合阈值要求的样本点的数量统计。在此基础上,为了进一步保证对局部密度计算的精确性,对于dc所取的值应该保证各样本点在dc的规定范围内的临近点的平均数量大概占样本集规模的2%-5%,以此可以提高整体计算的精确性。

步骤s22:根据局部密度计算高密度距离

其中,j表示任意样本点,ρj表示任意样本点的局部密度,min(dxy)表示欧式距离中的最小值,max(dxy)表示欧式距离中的最大值。

需要说明的是,计算高密度距离的表达式中,当存在有任意样本点j的局部密度大于当前样本点的局部密度时,则当前样本点的高密度距离为样本集合中所有样本点的欧氏距离中的最小值;否则,当前样本点的高密度距离为样本集合中所有样本点的欧氏距离中的最大值。此外,需要强调的是,步骤s20-s22是样本集中每个样本点均执行的步骤,并且仍通过openmp设置的多线程独立计算样本集中各个样本点的局部密度以及高密度距离。

如图2所示,作为一种优选的实施方式,在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心后,该方法进一步包括:

步骤s23:设置聚类距离,并根据聚类距离划分聚类中心的类簇样本点。

其中,类簇样本点与聚类中心属于同一类别,且类簇样本点至聚类中心的距离在聚类距离范围内。

需要说明的是,在选取到聚类中心后,需要对非聚类中心的样本点进行向聚类中心的聚类,聚类距离是根据聚类精度而设置的距离阈值,因此可以根据预设的聚类距离对非聚类中心的样本点进行划分,进而以聚类中心为中心,半径为聚类距离的区域内的样本点均归为聚类中心的类簇样本点。此外,对于聚类距离的设定应根据聚类的精确程度而定,在此不做具体限定。

在上述实施方式的基础上,作为一种优选的实施方式,聚类中心的数量大于1。

由于在样本集合中,样本点的分布趋势各不相同,因此聚类中心的数量大于1时,能够更加准确的反映样本点的分布取向,进而保证聚类方法结果的准确性以及可用性。

实施例三

在上文中对于聚类中心的选取方法的实施例进行了详细的描述,本发明还提供一种与该方法对应的聚类中心的选取装置,由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。

图3为本发明实施例提供的一种聚类中心的选取装置结构图。本发明实施例提供的聚类中心的选取装置,包括:

获取装置10,用于通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离。

运算装置11,用于依照预设规则,将局部密度作为参数以计算密度阈值,并将高密度距离作为参数以计算高密度距离阈值。

选择装置12,用于在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。

本发明所提供的聚类中心的选取装置,通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离,将局部密度以及高密度距离作为运算参数,分别依照预设规则计算得到密度阈值以及高密度距离阈值,进而在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。在本装置中,采用openmp设置的多线程的方式并行获取各样本点的局部密度以及高密度距离,以进行后续计算,能够在单位时间内计算更多样本点的密度阈值以及高密度距离阈值,并且由于对于各个样本点之间的计算相对独立,因此降低了计算的时间复杂度,进而相应的减少了计算周期,保证了聚类算法的执行效率。

在实施例三的基础上,该装置还包括:

第一计算装置,用于计算各样本点之间的欧氏距离

其中,i为样本点的维度,n为大于等于1的整数常量,xi为第一样本点在i维度的坐标,yi为第二样本点在i维度的坐标。

第二计算装置,用于根据欧式距离计算各样本点的局部密度

其中,dc为预设的截断距离,为与欧氏距离dxy以及预设的截断距离相关的统计函数。

第三计算装置,用于根据局部密度计算高密度距离

其中,j表示任意样本点,ρj表示任意样本点的局部密度,min(dxy)表示欧式距离中的最小值,max(dxy)表示欧式距离中的最大值。

在实施例三的基础上,该装置还包括:

聚类装置,用于设置聚类距离,并根据聚类距离划分聚类中心的类簇样本点。

其中,类簇样本点与聚类中心属于同一类别,且类簇样本点至聚类中心的距离在聚类距离范围内。

实施例四

本发明还提供一种聚类中心的选取装置,应用于密度峰值聚类算法,包括:

存储器,用于存储计算机程序;

处理器,用于执行计算机程序时实现如上述的聚类中心的选取方法的步骤。

本发明所提供的聚类中心的选取装置,通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离,将局部密度以及高密度距离作为运算参数,分别依照预设规则计算得到密度阈值以及高密度距离阈值,进而在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。在本装置中,采用openmp设置的多线程的方式并行获取各样本点的局部密度以及高密度距离,以进行后续计算,能够在单位时间内计算更多样本点的密度阈值以及高密度距离阈值,并且由于对于各个样本点之间的计算相对独立,因此降低了计算的时间复杂度,进而相应的减少了计算周期,保证了聚类算法的执行效率。

本发明还提供一种计算机可读存储介质,应用于密度峰值聚类算法,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的聚类中心的选取方法的步骤。

本发明所提供的聚类中心的选取的计算机可读存储介质,通过openmp设置的多线程并行获取样本集合中各样本点的局部密度,以及各样本点到更高局部密度的样本点之间的高密度距离,将局部密度以及高密度距离作为运算参数,分别依照预设规则计算得到密度阈值以及高密度距离阈值,进而在样本集合中选取局部密度与密度阈值满足第一预设关系,且高密度距离与高密度距离阈值满足第二预设关系的目标样本点作为聚类中心。在本计算机可读存储介质中,采用openmp设置的多线程的方式并行获取各样本点的局部密度以及高密度距离,以进行后续计算,能够在单位时间内计算更多样本点的密度阈值以及高密度距离阈值,并且由于对于各个样本点之间的计算相对独立,因此降低了计算的时间复杂度,进而相应的减少了计算周期,保证了聚类算法的执行效率。

以上对本发明所提供的一种聚类中心的选取方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1