一种数据聚类方法及装置与流程

文档序号:16263854发布日期:2018-12-14 21:47阅读:207来源:国知局
一种数据聚类方法及装置与流程
本发明属于数据处理
技术领域
,尤其涉及一种数据聚类方法及装置。
背景技术
由于测量不精确、抽样误差、过时数据来源或其他等原因,数据往往具有不确定性(简称不确定性数据)的性质,特别在需要与真实环境交互的应用中,如移动定位服务和传感器监测等应用中,以移动定位服务中追踪移动目标(如车辆或人)为例,在移动定位服务中不可能完全追踪到所有移动目标的准确的瞬间位置,因此每个移动目标的位置变化过程伴有不确定性,这个不确定性会对数据的管理,如数据查询和数据聚类产生影响。目前数据的不确定性包括两种类型:已存在的不确定性和数值不确定性。在第一种类型中,不管目标或数据元组存在是否,数据本身已经存在不确定性。例如关系数据库中的数据元组可能与能表现其存在信任度的一个概率值相关联。在第二种类型中,一条数据作为一个封闭区域,该数据的概率密度函数(pdf)限定该条数据的取值。对于这两种类型来说,可用的数据聚类有以下两种:通过运用em(expectationmaximization,最大期望)算法解决使混合密度适合不确定性数据聚类的问题和模糊c均值聚类算法,但是这两种数据聚类方法均没有考虑不确定性对聚类的影响,导致聚类准确降低。技术实现要素:有鉴于此,本发明的目的在于提供一种数据聚类方法及装置,用于提高不确定性数据聚类的准确度。技术方案如下:本发明提供一种数据聚类方法,所述方法包括:在获取到待聚类的不确定性数据的情况下,对任一数据集:将所述不确定性数据划分至该数据集中,基于所述不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心;对任一数据集:计算所述不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,将所述期望平方误差之和确定为所述不确定性数据相对于该数据集的期望平方误差总和;将期望平方误差总和取值最小的数据集确定为目标数据集;将所述不确定性数据划分至所述目标数据集中。优选的,所述对任一数据集:将所述不确定性数据划分至该数据集中,基于所述不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心包括:基于公式:得到第j个数据集cj的预设初始质心cj,其中xi为所述不确定性数据,f(xi)为不确定性概率密度函数。优选的,所述对任一数据集:计算所述不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和包括:基于公式:得到不确定性数据xi到第j个数据集cj重新计算出的预设初始质心cj的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,f(xi)为不确定性概率密度函数,k为数据集总数。本发明还提供一种数据聚类方法,所述方法包括:在获取到待聚类的不确定性数据的情况下,基于所述不确定性数据的不确定性概率密度函数,确定所述不确定性数据到每个数据集的预设初始质心的期望距离;将期望距离最小的数据集确定为所述不确定性数据的目标数据集,并将所述不确定性数据划分至所述目标数据集中;基于所述不确定性数据的不确定性概率密度函数,重新计算所述目标数据集的预设初始质心,并迭代执行基于所述不确定性数据的不确定性概率密度函数,确定所述不确定性数据到每个数据集的预设初始质心的期望距离和将期望距离最小的数据集确定为所述不确定性数据的目标数据集的步骤,直至满足预设条件。优选的,所述基于所述不确定性数据的不确定性概率密度函数,确定所述不确定性数据到每个数据集的预设初始质心的期望距离包括:基于公式:得到不确定性数据xi到第j个数据集cj的预设初始质心cj的期望距离,f(xi)为不确定性概率密度函数。优选的,所述基于所述不确定性数据的不确定性概率密度函数,重新计算所述目标数据集的预设初始质心包括:基于公式:得到目标数据集cj的预设初始质心cj,其中xi为所述不确定性数据,f(xi)为不确定性概率密度函数。本发明还提供一种数据聚类装置,所述装置包括:第一计算单元,用于在获取到待聚类的不确定性数据的情况下,对任一数据集:将所述不确定性数据划分至该数据集中,基于所述不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心;第二计算单元,用于对任一数据集:计算所述不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,将所述期望平方误差之和确定为所述不确定性数据相对于该数据集的期望平方误差总和;确定单元,用于将期望平方误差总和取值最小的数据集确定为目标数据集;划分单元,用于将所述不确定性数据划分至所述目标数据集中。优选的,所述第一计算单元,用于基于公式:得到第j个数据集cj的预设初始质心cj,其中xi为所述不确定性数据,f(xi)为不确定性概率密度函数;或者所述第二计算单元,用于基于公式:得到不确定性数据xi到第j个数据集cj重新计算出的预设初始质心cj的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,f(xi)为不确定性概率密度函数,k为数据集总数。本发明还提供一种数据聚类装置,所述装置包括:确定单元,用于在获取到待聚类的不确定性数据的情况下,基于所述不确定性数据的不确定性概率密度函数,确定所述不确定性数据到每个数据集的预设初始质心的期望距离;划分单元,用于将期望距离最小的数据集确定为所述不确定性数据的目标数据集,并将所述不确定性数据划分至所述目标数据集中;计算单元,用于基于所述不确定性数据的不确定性概率密度函数,重新计算所述目标数据集的预设初始质心,并触发所述确定单元和所述划分单元迭代执行基于所述不确定性数据的不确定性概率密度函数,确定所述不确定性数据到每个数据集的预设初始质心的期望距离和将期望距离最小的数据集确定为所述不确定性数据的目标数据集的步骤,直至满足预设条件。优选的,所述确定单元,用于基于公式:得到不确定性数据xi到第j个数据集cj的预设初始质心cj的期望距离,f(xi)为不确定性概率密度函数;或者所述计算单元,用于基于公式:得到目标数据集cj的预设初始质心cj,其中xi为所述不确定性数据,f(xi)为不确定性概率密度函数。从上述技术方案可知,在获取待聚类的不确定性数据的情况下,基于不确定性数据的不确定性概率密度函数,计算出对不确定性数据进行聚类所需信息,如基于不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心、视为不确定数据相对于该数据集的期望平方误差总和的不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,进而将期望平方误差总和取值最小的数据集确定为目标数据集,将不确定性数据划分至所述目标数据集中,实现基于不确定性数据的不确定性概率密度函数对不确定性数据的聚类,提高不确定性数据聚类的准确度。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的数据聚类方法的一种流程图;图2是本发明实施例提供的数据聚类方法的另一种流程图;图3是本发明实施例提供的数据聚类装置的一种结构示意图;图4是本发明实施例提供的数据聚类装置的另一种结构示意图。具体实施方式目前,数据聚类问题是在数据集cj(j从1到k)找到一个数据集c,其中数据集cj由基于相似性的平均值cj(可视为是数据集cj的预设初始质心)构成,而不同的数据聚类算法可以对应不同的目标函数,但是其主体思想均是最小化同一数据集中数据间的距离和最大化不同数据集中数据间的距离,其中最小化同一数据集中数据间的距离也可以被视为最小化同一数据集中美每条数据之间的距离以及最小化每条数据与该数据集中预设初始质心之间的距离。申请人从硬聚类算法——均值聚类(k-means)算法出发研究适用于不确定性数据的聚类算法,其中k-means算法的目的是在于从k个数据集中找到一个数据集c来最小化平方误差总和(sse)。平方误差总和的计算公式如下:||.||表示一个数据xi与数据集的预设初始质心cj的距离。例如,欧氏距离定义为:一个数据集ci的预设初始质心由下面的向量公式来定义:相对应的,k-means算法的过程如下:1.assigninitialvaluesforclustermeansc1tock2.repeat3.fori=1tondo4.assigneachdatapointxitoclustercjwhere||cj-xi||istheminimum.5.endfor6.forj=1tokdo7.recalculateclustermeancjofclustercj8.endfor9.untilconvergence10.returnc简单描述其过程是:1)对每个数据集设置预设初始质心;2)计算每条待聚类数据到每个数据集的预设初始质心之间的距离(||cj-xi||),并将待聚类数据划分至距离取值最小的数据集中;3)重新计算距离取值最小的数据集的预设初始质心;4)迭代步骤2至3直至满足预设条件。从上述k-means算法可知,在采用k-means算法进行聚类时没有考虑不确定性的影响,因此申请人总结出在对不确定性数据进行聚类时,需要基于不确定性数据的不确定性概率密度函数来计算出对不确定性数据进行聚类所需信息,如将聚类时每条待聚类数据到每个数据集的预设初始质心之间的距离(||cj-xi||)更改为期望距离e(||cj-xi||),并基于不确定性数据的不确定性概率密度函数来计算预设初始质心,或者将聚类的目的视为是最小化期望平方误差总和,以此提高不确定性数据聚类的准确度。为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参阅图1,其示出了本发明实施例提供的数据聚类方法的一种流程图,该数据聚类方法针对不确定性数据,用于提高不确定性数据聚类准确度,具体可以包括以下步骤:101:在获取到待聚类的不确定性数据的情况下,对任一数据集:将不确定性数据划分至该数据集中,基于不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心。可以理解的是:对于每个数据集来说,为每个数据集预先设置预设初始质心,当获取到待聚类的不确定性数据时,将该不确定性数据划分至任一数据集中,再基于不确定性数据的不确定性概率密度函数,重新计算任一数据集的预设初始质心,即通过不确定数据的不确定性概率密度函数更改数据集的预设初始质心。在本实施例中基于不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心的一种方式是:基于公式:得到第j个数据集cj的预设初始质心cj,其中xi为不确定性数据,f(xi)为不确定性概率密度函数。以三个数据集为例,这三个数据集分别是:数据集1、数据集2和数据集3,在将不确定性数据xi划分至数据集1的情况下,可以基于上述公式重新计算数据集1的预设初始质心,以通过不确定数据的不确定性概率密度函数更改数据集的预设初始质心。其中不确定性概率密度函数与不确定性数据的属性值oi相关,例如不确定性概率密度函数是属性值oi在时间t的概率密度函数,i=1到n。该不确定性概率密度函数的表现形式可以是:平均密度函数或者高斯分布函数。102:对任一数据集:计算不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及不确定性数据到其他数据集的预设初始质心的期望平方误差之和,将期望平方误差之和确定为不确定性数据相对于该数据集的期望平方误差总和。也就是说在确定所有数据集中不确定性数据相对于第j个数据集的期望平方误差总和时,第j个数据集的预设初始质心是重新计算出的预设初始质心,其他数据集的预设初始质心是预先设置的预设初始质心。仍以上述三个数据集:数据集1、数据集2和数据集3为例,在确定不确定性数据相对于数据集1的期望平方误差总和时,数据集1的预设初始质心是重新计算出的预设初始质心,数据集2和数据集3的预设初始质心是预先设置的预设初始质心。在本实施例中,对任一数据集:计算不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及不确定性数据到其他数据集的预设初始质心的期望平方误差之和的一种方式是:基于公式:得到不确定性数据xi到第j个数据集cj重新计算出的预设初始质心cj的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,f(xi)为不确定性概率密度函数,k为数据集总数。103:将期望平方误差总和取值最小的数据集确定为目标数据集,并将不确定性数据划分至目标数据集中,从而将对不确定性数据的聚类视为是一个最小化期望平方误差总和e(sse)的问题,这样就可以通过期望平方误差总和取值最小来确定出不确定性数据的目标数据集,进而可以将不确定性数据划分至目标数据集中。从上述技术方案可知,在获取待聚类的不确定性数据的情况下,对任一数据集:将不确定性数据划分至该数据集中,基于不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心,并对任一数据集:计算不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及不确定性数据到其他数据集的预设初始质心的期望平方误差之和,将期望平方误差之和确定为不确定性数据相对于该数据集的期望平方误差总和,将期望平方误差总和取值最小的数据集确定为目标数据集,将不确定性数据划分至所述目标数据集中,从而实现基于不确定性数据的不确定性概率密度函数对不确定性数据的聚类,由此提高不确定性数据聚类的准确度。请参阅图2,其示出了本发明实施例提供的数据聚类方法的另一种流程图,该数据聚类方法同样针对不确定性数据,用于提高不确定性数据聚类准确度,具体可以包括以下步骤:201:在获取到待聚类的不确定性数据的情况下,基于不确定性数据的不确定性概率密度函数,确定不确定性数据到每个数据集的预设初始质心的期望距离。在本实施例中,不确定性数据到每个数据集的预设初始质心的期望距离可以记为e(||cj-xi||),特别地,各种各样的几何图形不确定性区域(如,线,圆)和不同的不确定性概率密度函数意味着需要使用数值积分法,鉴于此可以采用e(|cj-xi|2)替代e(||cj-xi||)。由此不确定性数据到每个数据集的预设初始质心的期望距离的计算公式为:得到不确定性数据xi到第j个数据集cj的预设初始质心cj的期望距离,f(xi)为不确定性概率密度函数。202:将期望距离最小的数据集确定为不确定性数据的目标数据集,并将不确定性数据划分至目标数据集中。203:基于不确定性数据的不确定性概率密度函数,重新计算目标数据集的预设初始质心,并迭代执行步骤201和步骤202,直至满足预设条件。在本实施例中,重新计算目标数据集的预设初始质心的一种方式是:基于公式:得到目标数据集cj的预设初始质心cj,其中xi为不确定性数据,f(xi)为不确定性概率密度函数。此外在这里需要说明的一点是:在迭代执行步骤201确定不确定性数据到每个数据集的预设初始质心的期望距离时,若某个数据集的预设初始质心被重新计算,则对于重新计算预设初始质心的数据集来说,在执行步骤201时确定的是不确定性数据到该数据集重新计算出的预设初始质心的期望距离,即上述公式e(||cj-xi||)中的cj是重新计算出的预设初始质心。其中预设条件可以根据实际应用而定,例如预设条件可以是:(1)当期望距离小于预设距离(根据实际应用而定)(2)当在一次迭代中待聚类的不确定性数据重新分配给之前的目标数据集(3)当迭代次数达到预设迭代次数(根据实际应用而定)。将上述图2所示流程用循环方式表示如下:1.assigninitialvaluesforclustermeansc1tock(c1tock是每个数据集的预设初始质心)2.repeat3.fori=1tondo4.assigneachdatapointxi(不确定性数据)toclustercj(第j个数据集)wheree(||cj-xi||)(期望距离)istheminimum.5.endfor6.forj=1tokdo7.recalculateclustermeancjofclustercj8.endfor9.untilconvergence10.returnc(目标数据集)从上述技术方案可知,在获取待聚类的不确定性数据的情况下,基于不确定性数据的不确定性概率密度函数,确定不确定性数据到每个数据集的预设初始质心的期望距离,将期望距离最小的数据集确定为不确定性数据的目标数据集,并将不确定性数据划分至目标数据集中,基于不确定性数据的不确定性概率密度函数,重新计算目标数据集的预设初始质心,并迭代上述步骤直至满足预设条件,这样就可以基于不确定性数据的不确定性概率密度函数对不确定性数据的聚类,由此提高不确定性数据聚类的准确度。为了证明上述数据聚类方法的可行性,将本实施例提供的数据聚类方式应用于在平面空间中移动的目标对应的不确定性数据的场景中,在该场景中让每一不确定性数据在某一方向移动的位置均匀地分布在一段直线上。假设预设初始质心c=(p,q)和一条不确定性数据x被指定在一个不确定性线段上,该不确定性线段的终结点为(a,b)和(c,d),这样这个不确定性线段的线性方程式可用参数表示为(a+t(c-a),b+t(d-b)),其中t属于[0,1]。使用f(t)表示不确定性概率密度函数。同时不确定性线段的距离表示为进一步的:其中b=2[(c-a)(a-p)+(d-b)(b-q)],c=(p-a)2+(q-b)2。如果不确定性概率密度函数f(t)是均匀分布的,那么当f(t)=1时,上面的公式就变成:从而能够为均匀分布的不确定性计算出期望距离,从而实现对不确定性数据的聚类。需要指出一点:均匀分布是一个特例,当不是均匀分布则可以采用高斯函数等来表示不确定性概率密度函数。为了验证本实施例提供的数据聚类方法(为了便于描述简称为fk-means方法)是否提高聚类的准确度,在本实施例模拟以下情景:一个可追踪一组移动目标位置的系统已经拍了一组反应这些目标位置的快照,这些位置数据存在记录集中,其中每个位置数据都有着一定的不确定性,为此使用不确定性因素来捕捉不确定性信息。接下来比较fk-means方法与k-means方法的不同之外:(1)把k-means方法应用于记录中和把fk-means方法应用于记录中和数据不确定性。更具体地说,首先在一个100×100的二维空间产生一组随机数据作为记录。对于每条数据,一条数据的不确定性包括不确定性的类型、数据能够移动的最小距离d以及数据能够移动的方向。接下来,这些数据的真实位置根据记录和不确定性来模拟从累存记录中的原始位置的偏移来产生。特别地对于每条数据,将采集到的位置数据记录在案,然后随机产生一个数据决定其可能的移动距离。如果属于自由移动(多向)或双向不确定性,那么将产生另外一个数据来决定其可能的移动方向。例如使用实际值来表示位置数据。在本实施例中,fk-means方法与k-means方法针对的数据集如下:(1)记录(使用传统k-means)(2)记录和不确定性(使用fk-means)(3)真实值(使用传统k-means)为了核实fk-means方法在产生的数据集接近从真实数据中产生的数据集中的作用,采用广泛使用的用来计算聚类结果间相似度的调整兰德指数(ari)。ari值越高,则两个聚类结果相似度越高。申请人将对由(2)与(3)产生的数据集间的ari指数和(1)与(3)产生的数据集间的ari指数进行比较。待聚类的不确定性数据的个数(n)、数据集的个数(k)以及可能移动的最小距离(d)这三个参数的值在实验中将改变。表1呈现是当保持n=1000和k=20时改变d的值所得到的不同实验结果。在不同的参数组合情况下,做了500次的实验。每一次实验事先生成记录、不确定性度、实际值的组合。这些数据组合是同时在三种聚类过程中被使用。相同的预设初始质心集合也被同时使用到三种聚类过程中,这样可以避免由k-means方法和fk-means方法中预设初始质心引起的偏差。每一次实验,允许k-means方法((1)中和(3)中)和fk-means方法((2)中)在一直运行到当在群集中的所有待聚类的不确定性数据在两次连续迭代中没有变化时或迭代次数达到10000次时才结束。调整兰德指数和时间间隔由分别的fk-means方法和k-means方法500次实验取平均值得到。从表1可以看到,在应用于记录数据中,fk-means方法的调整兰德指数始终比传统k-means方法高。成对测试结果表明,在所有的设置条件下(每一个用例中p<0.000001)两种方法的调整兰德指数值不同之处是明显的。这个结果表明,由fk-means方法得到的数据集更接近于从真实世界获得的数据集。换言,fk-means方法能获得一个数据集,而这个数据集是从真实世界可利用数据中得到数据集的一个较好的预测。表1.实验结果d2.557.5102050ari(fk-means)0.7330.6890.6520.6320.5060.311ari(k-means)0.7000.6260.5730.5230.3510.121改进0.0330.0630.0790.1090.1550.189改进百分比4.77%10.03%13.84%20.82%44.34%155.75%申请人通过给n、k及d赋予不同的值且保持其他变量恒定来进行深入地实验。在所有情况下,申请人发现fk-means方法比传统的k-means方法改进,且研究结果表明当不确定性程度增加时,fk-means方法法的改进度也就越高。另一方面,除了当数据集的个数非常小的时候,待聚类的不确定性数据的个数和数据集的个数对fk-means方法的作用是不会有大的影响。在效率方面,申请人发现fk-means方法比k-means方法需要更多的计算时间,但是所需更多的计算时间常常只需要合理数量的额外时间,这是合乎情理的,因为fk-means方法考虑了不确定性使得聚类质量更好,即聚类的准确度提高。对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。与上述方法实施例相对应,本发明实施例还提供一种数据聚类装置,其结构如图3所示,可以包括:第一计算单元11、第二计算单元12、确定单元13和划分单元14。第一计算单元11,用于在获取到待聚类的不确定性数据的情况下,对任一数据集:将不确定性数据划分至该数据集中,基于不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心。可以理解的是:对于每个数据集来说,为每个数据集预先设置预设初始质心,当获取到待聚类的不确定性数据时,将该不确定性数据划分至任一数据集中,再基于不确定性数据的不确定性概率密度函数,重新计算任一数据集的预设初始质心,即通过不确定数据的不确定性概率密度函数更改数据集的预设初始质心。在本实施例中第一计算单元11重新计算该数据集的预设初始质心的一种方式是:基于公式:得到第j个数据集cj的预设初始质心cj,其中xi为不确定性数据,f(xi)为不确定性概率密度函数。第二计算单元12,用于对任一数据集:计算不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及不确定性数据到其他数据集的预设初始质心的期望平方误差之和,将期望平方误差之和确定为不确定性数据相对于该数据集的期望平方误差总和。也就是说在确定所有数据集中不确定性数据相对于第j个数据集的期望平方误差总和时,第j个数据集的预设初始质心是重新计算出的预设初始质心,其他数据集的预设初始质心是预先设置的预设初始质心。在本实施例中第二计算单元12得到期望平方误差总和的一种方式是:基于公式:得到不确定性数据xi到第j个数据集cj重新计算出的预设初始质心cj的期望平方误差以及所述不确定性数据到其他数据集的预设初始质心的期望平方误差之和,f(xi)为不确定性概率密度函数,k为数据集总数。确定单元13,用于将期望平方误差总和取值最小的数据集确定为目标数据集,从而将对不确定性数据的聚类视为是一个最小化期望平方误差总和e(sse)的问题,这样就可以通过期望平方误差总和取值最小来确定出不确定性数据的目标数据集。划分单元14,用于将不确定性数据划分至目标数据集中。从上述技术方案可知,在获取待聚类的不确定性数据的情况下,对任一数据集:将不确定性数据划分至该数据集中,基于不确定性数据的不确定性概率密度函数,重新计算该数据集的预设初始质心,并对任一数据集:计算不确定性数据到该数据集重新计算出的预设初始质心的期望平方误差以及不确定性数据到其他数据集的预设初始质心的期望平方误差之和,将期望平方误差之和确定为不确定性数据相对于该数据集的期望平方误差总和,将期望平方误差总和取值最小的数据集确定为目标数据集,将不确定性数据划分至所述目标数据集中,从而实现基于不确定性数据的不确定性概率密度函数对不确定性数据的聚类,由此提高不确定性数据聚类的准确度。请参阅图4,其示出了本发明实施例提供的数据聚类装置的另一种结构,可以包括:确定单元21、划分单元22和计算单元23。确定单元21,用于在获取到待聚类的不确定性数据的情况下,基于不确定性数据的不确定性概率密度函数,确定不确定性数据到每个数据集的预设初始质心的期望距离。在本实施例中,不确定性数据到每个数据集的预设初始质心的期望距离可以记为e(||cj-xi||),特别地,各种各样的几何图形不确定性区域(如,线,圆)和不同的不确定性概率密度函数意味着需要使用数值积分法,鉴于此可以采用e(|cj-xi|2)替代e(||cj-xi||)。由此不确定性数据到每个数据集的预设初始质心的期望距离的计算公式为:得到不确定性数据xi到第j个数据集cj的预设初始质心cj的期望距离,f(xi)为不确定性概率密度函数。划分单元22,用于将期望距离最小的数据集确定为不确定性数据的目标数据集,并将不确定性数据划分至目标数据集中。计算单元23,用于基于不确定性数据的不确定性概率密度函数,重新计算目标数据集的预设初始质心,并触发确定单元21和划分单元22迭代执行基于不确定性数据的不确定性概率密度函数,确定不确定性数据到每个数据集的预设初始质心的期望距离和将期望距离最小的数据集确定为不确定性数据的目标数据集的步骤,直至满足预设条件。在本实施例中,计算单元23重新计算目标数据集的预设初始质心的一种方式是:基于公式:得到目标数据集cj的预设初始质心cj,其中xi为不确定性数据,f(xi)为不确定性概率密度函数。此外在这里需要说明的一点是:在触发确定单元迭代执行确定不确定性数据到每个数据集的预设初始质心的期望距离时,若某个数据集的预设初始质心被重新计算,则对于重新计算预设初始质心的数据集来说,确定单元21确定的是该数据集重新计算出的预设初始质心的期望距离,即上述公式e(||cj-xi||)中的cj是重新计算出的预设初始质心。其中预设条件可以根据实际应用而定,例如预设条件可以是:(1)当期望距离小于预设距离(根据实际应用而定)(2)当在一次迭代中待聚类的不确定性数据重新分配给之前的目标数据集(3)当迭代次数达到预设迭代次数(根据实际应用而定)。从上述技术方案可知,在获取待聚类的不确定性数据的情况下,基于不确定性数据的不确定性概率密度函数,确定不确定性数据到每个数据集的预设初始质心的期望距离,将期望距离最小的数据集确定为不确定性数据的目标数据集,并将不确定性数据划分至目标数据集中,基于不确定性数据的不确定性概率密度函数,重新计算目标数据集的预设初始质心,并迭代上述步骤直至满足预设条件,这样就可以基于不确定性数据的不确定性概率密度函数对不确定性数据的聚类,由此提高不确定性数据聚类的准确度。此外,本实施例还提供一种存储介质,该存储介质上存储由计算机程序,所述计算机程序用于实现上述数据聚类方法。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1