一种用于聚类分析中相似度识别的方法与流程

文档序号：11323318阅读：604来源：国知局

本发明涉及数据挖掘领域，特别是涉及一种用于聚类分析中相似度识别的方法及装置。

背景技术：

随着大数据时代的到来，各个领域都积累了海量的繁杂数据，使得如何挖掘数据中潜在的价值成了当今数据大环境下的研究热点。其中，聚类分析广泛应用于多个领域，例如气象预报、电力、金融、林业等。

聚类分析是数理统计中的一种多元分析方法，它是用数学方法定量地确定样本的亲疏关系，从而客观地划分类型。通常把被聚类的事物称为样本，将被聚类的一组事物称为样本集。而相似度函数可以用于度量样本数据之间相似程度的工具。

目前，常用的相似度函数有欧氏距离法和灰度关联法，欧氏距离法是一种静态分析方法，适用于研究对象的静态分析，只反映两个研究对象空间上的距离大小，能保证序列间的“值相似”度，但不能充分保证研究对象的形态或轮廓的相似性，即不能保证“型相似”度；灰色关联度法是动态分析方法，适用于研究对象的动态历程，其可以动态分析研究对象间的变化趋势，能保证“型相似”度，但不能保证“值相似”度。综上所述，上述两种方法在相似度的表述上都缺乏完整性，即不能同时表示序列间的“型相似”度和“值相似”度。

技术实现要素：

本发明的目的是提供一种用于聚类分析中相似度识别的方法，目的在于解决现有技术聚类分析中的相似度表述不完整的问题。

为解决上述技术问题，本发明提供一种用于聚类分析中相似度识别的方法，该方法包括：

获取第一序列和第二序列；

计算所述第一序列内预分配有预设权重的元素和所述第二序列内预分配有所述预设权重的元素间的欧氏距离；

根据第一序列内第i维元素的增量和第二序列内第i维元素的增量，计算所述第一序列第i维元素和所述第二序列内第i维元素间的关联系数，其中，i＝2,3,4...n；

根据所述关联系数，计算出所述第一序列和所述第二序列间的灰色关联度；

根据所述灰色关联度和所述欧氏距离，以预设权重系数，计算出所述第一序列和所述第二序列间的相似度。

可选地，所述计算所述第一序列内预分配有预设权重的元素和所述第二序列内预分配有所述预设权重的元素间的欧氏距离包括：

基于欧氏距离模型计算所述第一序列内预分配有预设权重的元素和所述第二序列内预分配有所述预设权重的元素间的欧氏距离；

其中，所述第一序列为x＝[x1,x2···xn]，所述第二序列为y＝[y1,y2···yn]；ωi为所述预设权重，ωi∈[0,1]；n为序列的总元素个数。

可选地，所述根据第一序列内第i维元素的增量和第二序列内第i维元素的增量，计算所述第一序列第i维元素和所述第二序列内第i维元素间的关联系数包括：

计算所述第一序列内第i维元素的增量以及所述第二序列内第i维元素的增量

基于关联系数模型计算所述第一序列第i维元素和所述第二序列内第i维元素间的关联系数；

其中，当同为零时，ε(i)＝1；当不同为零时，

可选地，所述根据所述关联系数，计算出所述第一序列和所述第二序列间的灰色关联度包括：

基于灰色关联度模型计算出所述第一序列和所述第二序列间的所述灰色关联度；其中，ε(i)为所述关联系数。

可选地，所述根据所述灰色关联度和所述欧氏距离，以预设权重系数，计算出所述第一序列和所述第二序列间的相似度包括：

基于相似度识别模型计算出所述第一序列和所述第二序列间的所述相似度；

其中，μ和ν均为权重系数，μ+ν＝1。

可选地，所述权重系数均为0.5。

本发明所提供的一种用于聚类分析中相似度识别的方法，通过获取第一序列和第二序列；计算所述第一序列内预分配有预设权重的元素和所述第二序列内预分配有所述预设权重的元素间的欧氏距离；根据第一序列内第i维元素的增量和第二序列内第i维元素的增量，计算所述第一序列第i维元素和所述第二序列内第i维元素间的关联系数，其中，i＝2,3,4...n；根据所述关联系数，计算出所述第一序列和所述第二序列间的灰色关联度；根据所述灰色关联度和所述欧氏距离，以预设权重系数，计算出所述第一序列和所述第二序列间的相似度。本申请通过权重系数，将序列间的欧氏距离和灰色关联度有机结合在一起，使得得出的相似度即可以反映两序列间的空间上的距离大小，也可以反映形态或轮廓的相似性，即计算出的相似度可以同时表示序列间的“型相似”度和“值相似”度。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的用于聚类分析中相似度识别方法的一种具体实施方式的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1为本发明实施例所提供的用于聚类分析中相似度识别方法的一种具体实施方式的流程示意图，该方法包括以下步骤：

步骤101：获取第一序列和第二序列。

需要说明的是，上述第一序列和第二序列可以是指聚类分析的两个研究对象。第一序列可以具体为x＝[x1,x2···xn]，第二序列可以具体为y＝[y1,y2···yn]。

步骤102：计算所述第一序列内预分配有预设权重的元素和所述第二序列内预分配有所述预设权重的元素间的欧氏距离。

具体地，预先为序列内的每个元素分配一个权重，然后再基于欧氏距离的定义，计算两个序列内的对应元素间的欧氏距离。例如，第一序列x内的第j个元素xj对应的权重为wj，第二序列y内的第j个元素yj的权重也为wj，先计算(wjxj-wjyj)²平方和，依次类推，依次计算两个序列内的每个元素，再将各个元素的平方和求和，接着求出序列间的欧氏距离。

作为一种具体实施方式，上述计算所述第一序列内预分配有预设权重的元素和所述第二序列内预分配有所述预设权重的元素间的欧氏距离的过程可以具体为：基于欧氏距离模型计算所述第一序列内预分配有预设权重的元素和所述第二序列内预分配有所述预设权重的元素间的欧氏距离；其中，所述第一序列为x＝[x1,x2···xn]，所述第二序列为y＝[y1,y2···yn]；ωi为所述预设权重，ωi∈[0,1]；n为序列的总元素个数。

显而易见地，ωi的取值可以根据实际情况进行设定，在此不作限定。

步骤103：根据第一序列内第i维元素的增量和第二序列内第i维元素的增量，计算所述第一序列第i维元素和所述第二序列内第i维元素间的关联系数，其中，i＝2,3,4...n。

需要说明的是，上述增量可以由序列的当前元素减去前一个元素得出，例如，当然，上述增量也可以是序列内不相邻元素间的差值，例如，

作为一种具体实施方式，上述根据第一序列内第i维元素的增量和第二序列内第i维元素的增量，计算所述第一序列第i维元素和所述第二序列内第i维元素间的关联系数的过程可以具体为：计算所述第一序列内第i维元素的增量以及所述第二序列内第i维元素的增量基于关联系数模型计算所述第一序列第i维元素和所述第二序列内第i维元素间的关联系数；其中，dxi＝(xi-xi-1)，dyi＝(yi-yi-1)；当同为零时，ε(i)＝1；当不同为零时，

需要说明的是，当λi等于1时，ε(i)大于0，此时，表示序列x和y的第i维元素相对于第(i-1)维元素变化的正负方向一致；而当λi等于-1时，ε(i)小于0，此时，表示序列x和y的第i维元素相对于第(i-1)维元素变化的正负方向相反。

传统的灰色关联度只能够反映序列间同向趋势的变化，该同向趋势变化为同为正向或同为负向。此处，引入符号函数灰色关联度的计算模型，使其可以反映不同向趋势与同向趋势变化。

可以看出，在灰色关联度部分引入符号函数λi，可以反映出序列间的正负关联性，完善了相似度函数的表达能力。

步骤104：根据所述关联系数，计算出所述第一序列和所述第二序列间的灰色关联度。

具体地，在计算出序列间各个元素的关联系数之后，可以根据该关联系数。

作为一种具体实施方式，上述根据所述关联系数，计算出所述第一序列和所述第二序列间的灰色关联度的过程可以具体为：基于灰色关联度模型计算出所述第一序列和所述第二序列间的所述灰色关联度；其中，ε(i)为所述关联系数。

步骤105：根据所述灰色关联度和所述欧氏距离，以预设权重系数，计算出所述第一序列和所述第二序列间的相似度。

需要说明的是，上述预设权重系数可以是指灰度关联度和欧氏距离的权重系数，具体地，灰度关联度的权重系数记为μ，欧氏距离的权重系数记为ν，μ+ν＝1。

可选地，μ＝0.5，ν＝0.5。当然，当需要提高序列间的“型相似度”时，μ的取值可以相应增大；而当需要提高序列间的“值相似度”时，ν的取值可以相应增大，即可以根据实际情况，对μ、ν的取值进行调整，在此不作限定。

作为一种具体实施方式，上述根据所述灰色关联度和所述欧氏距离，以预设权重系数，计算出所述第一序列和所述第二序列间的相似度的过程可以具体为：基于相似度识别模型计算出所述第一序列和所述第二序列间的所述相似度；其中，μ和ν均为权重系数，μ+ν＝1。

可以看出，上述相似度识别模型两部分，其中一部分是两序列间的灰色关联度，其可以表示出序列间的形态或轮廓相似性，即“型相似”度；另一部分是两序列间的欧氏距离，其可以表示出序列间的空间距离大小，即“值相似”度。将欧氏距离函数和灰色关联度通过权重系数有机结合在一起，可以克服现有技术中单一方法的局限性，使得相似度的表述上更加完整。

本发明实施例所提供的用于聚类分析中相似度识别方法，通过获取第一序列和第二序列；计算第一序列内预分配有预设权重的元素和第二序列内预分配有预设权重的元素间的欧氏距离；根据第一序列内第i维元素的增量和第二序列内第i维元素的增量，计算第一序列第i维元素和第二序列内第i维元素间的关联系数，其中，i＝2,3,4...n；根据关联系数，计算出第一序列和第二序列间的灰色关联度；根据灰色关联度和欧氏距离，以预设权重系数，计算出第一序列和第二序列间的相似度。该方法通过权重系数，将序列间的欧氏距离和灰色关联度有机结合在一起，使得得出的相似度即可以反映两序列间的空间上的距离大小，也可以反映形态或轮廓的相似性，即计算出的相似度可以同时表示序列间的“型相似”度和“值相似”度。

以上对本发明所提供的用于聚类分析中相似度识别方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王星华;周亚武;陈云龙;许炫壕
技术所有人：广东工业大学
我是此专利的发明人

上一篇：一种机柜顶框或底框用型钢堵头的制造方法与工艺
上一篇：一种数据更新方法、装置及电子设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。