一种数据样本的聚类方法和装置的制造方法

文档序号:8445574阅读:232来源:国知局
一种数据样本的聚类方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,特别涉及一种数据样本的聚类方法和装置。
【背景技术】
[0002] 随着计算机技术的发展,计算机的应用越来越广泛,功能也越来越全面。人们可以 通过计算机(如服务器)进行各种数据处理,如数据聚类和数据统计等,每一个需要处理的 数据可称作一个数据样本。
[0003] 服务器在对数据样本集中的数据样本进行聚类时,可以根据预设的聚类类别的数 量,从待聚类的数据样本中随机选取该数量的数据样本,作为各聚类类别的质心。对于数据 样本集中的每个数据样本,服务器计算该数据样本与各质心的距离,该距离可以表示数据 样本与质心的接近程度,计算距离的方法有很多种,如欧式距离算法等。服务器可以确定与 该数据样本的距离最小的质心,将该数据样本归入该质心所属的类别中,然后计算该类别 中所有数据样本的平均值,作为该类别的质心。服务器可以重复进行上述计算处理,即服务 器计算各数据样本与更新后的质心的距离,进而对数据样本进行重新聚类,然后计算重新 聚类后的各类别中所有数据样本的平均值,作为更新后的质心,直到各类别中的数据样本 保持不变。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 服务器在对某个数据样本进行聚类时,需要计算该数据样本与所有质心的距离, 计算量较大,这样会占用业务服务器大量的处理资源。

【发明内容】

[0006] 为了解决现有技术的问题,本发明实施例提供了一种数据样本的聚类方法和装 置。所述技术方案如下:
[0007] 第一方面,提供了一种数据样本的聚类方法,所述方法包括:
[0008] 获取目标数据样本和各聚类类别对应的质心;
[0009] 根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚 类类别对应的质心,确定每个其他聚类类别的质心与所述目标数据样本的距离下限;
[0010] 在所述其他聚类类别对应的各质心中,选取对应的距离下限小于所述目标数据样 本与所述第一聚类类别对应的质心之间的样本质心距离的质心;
[0011] 在选取的质心和所述第一聚类类别对应的质心中,确定与所述目标数据样本的距 离最小的质心,将所述目标数据样本归入与所述目标数据样本的距离最小的质心对应的聚 类类别中。
[0012] 结合第一方面,在该第一方面的第一种可能实现方式中,所述根据所述目标数据 样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定每个 其他聚类类别的质心与所述目标数据样本的距离下限,包括:
[0013] 确定所述目标数据样本与所述目标数据样本所属的第一聚类类别对应的质心的 样本质心距离,以及所述第一聚类类别对应的质心与每个其他聚类类别对应的质心的质心 间距离;
[0014] 确定所述样本质心距离与每个质心间距离的差值,将所述每个其他聚类类别的质 心对应的差值,作为所述每个其他聚类类别的质心与所述目标数据样本的距离下限。
[0015] 结合第一方面,在该第一方面的第二种可能实现方式中,所述根据所述目标数据 样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定每个 其他聚类类别的质心与所述目标数据样本的距离下限,包括:
[0016] 根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚 类类别对应的质心,确定所述目标数据样本与每个其他聚类类别对应的质心的差向量在单 位向量上的投影,将所述每个其他聚类类别的质心对应的投影的长度,作为所述每个其他 聚类类别的质心与所述目标数据样本的距离下限。
[0017] 结合第一方面,在该第一方面的第三种可能实现方式中,所述根据所述目标数据 样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定所述 目标数据样本与所述其他聚类类别的质心的距离下限,包括:
[0018] 根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚 类类别对应的质心,确定所述目标数据样本和每个其他聚类类别对应的质心的均值和方 差;
[0019] 根据所述目标数据样本和所述每个其他聚类类别对应的质心的均值和方差,以及 均方差不等式,确定所述每个其他聚类类别的质心与所述目标数据样本的距离下限。
[0020] 结合第一方面,在该第一方面的第四种可能实现方式中,所述在选取的质心和所 述第一聚类类别对应的质心中,确定与所述目标数据样本的距离最小的质心,将所述目标 数据样本归入与所述目标数据样本的距离最小的质心对应的聚类类别中,包括:
[0021] 根据选取的质心的数目,确定处理单元的第一数目;
[0022] 在预设的处理单元池中,获取所述第一数目个处理单元;
[0023] 通过获取的处理单元,在选取的质心和所述第一聚类类别对应的质心中,确定与 所述目标数据样本的距离最小的质心,将所述目标数据样本归入确定出的质心对应的聚类 类别中。
[0024] 第二方面,提供了一种数据样本的聚类装置,所述装置包括:
[0025] 获取模块,用于获取目标数据样本和各聚类类别对应的质心;
[0026] 确定模块,用于根据所述目标数据样本和所述目标数据样本所属的第一聚类类别 以外的其他聚类类别对应的质心,确定每个其他聚类类别的质心与所述目标数据样本的距 离下限;
[0027] 选取模块,用于在所述其他聚类类别对应的各质心中,选取对应的距离下限小于 所述目标数据样本与所述第一聚类类别对应的质心之间的样本质心距离的质心;
[0028] 聚类模块,用于在选取的质心和所述第一聚类类别对应的质心中,确定与所述目 标数据样本的距离最小的质心,将所述目标数据样本归入与所述目标数据样本的距离最小 的质心对应的聚类类别中。
[0029] 结合第二方面,在该第二方面的第一种可能实现方式中,所述确定模块,用于:
[0030] 确定所述目标数据样本与所述目标数据样本所属的第一聚类类别对应的质心的 样本质心距离,以及所述第一聚类类别对应的质心与每个其他聚类类别对应的质心的质心 间距离;
[0031]确定所述样本质心距离与每个质心间距离的差值,将所述每个其他聚类类别的质 心对应的差值,作为所述每个其他聚类类别的质心与所述目标数据样本的距离下限。
[0032] 结合第二方面,在该第二方面的第二种可能实现方式中,所述确定模块,用于:
[0033]根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚 类类别对应的质心,确定所述目标数据样本与每个其他聚类类别对应的质心的差向量在单 位向量上的投影,将所述每个其他聚类类别的质心对应的投影的长度,作为所述每个其他 聚类类别的质心与所述目标数据样本的距离下限。
[0034] 结合第二方面,在该第二方面的第三种可能实现方式中,所述确定模块,用于:
[0035]根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚 类类别对应的质心,确定所述目标数据样本和每个其他聚类类别对应的质心的均值和方 差;
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1