一种数据样本的聚类方法和装置的制造方法_2

文档序号:8445574阅读:来源:国知局
[0036]根据所述目标数据样本和所述每个其他聚类类别对应的质心的均值和方差,以及 均方差不等式,确定所述每个其他聚类类别的质心与所述目标数据样本的距离下限。
[0037] 结合第二方面,在该第二方面的第四种可能实现方式中,所述聚类模块,用于:
[0038]根据选取的质心的数目,确定处理单元的第一数目;
[0039]在预设的处理单元池中,获取所述第一数目个处理单元;
[0040]通过获取的处理单元,在选取的质心和所述第一聚类类别对应的质心中,确定与 所述目标数据样本的距离最小的质心,将所述目标数据样本归入确定出的质心对应的聚类 类别中。
[0041]本发明实施例提供的技术方案带来的有益效果是:
[0042]本发明实施例中,获取目标数据样本和各聚类类别对应的质心,根据目标数据样 本和目标数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定每个其他聚 类类别的质心与目标数据样本的距离下限,在其他聚类类别对应的各质心中,选取对应的 距离下限小于目标数据样本与第一聚类类别对应的质心之间的样本质心距离的质心,在选 取的质心和第一聚类类别对应的质心中,确定与目标数据样本的距离最小的质心,将目标 数据样本归入与目标数据样本的距离最小的质心对应的聚类类别中,这样,可以只计算第 一聚类类别对应的质心与目标数据样本的距离,以及选取的质心与目标数据样本的距离, 无需计算目标数据样本与所有质心的距离,且确定距离下限的计算量远小于质心与目标数 据样本的距离的计算量,从而可以节约服务器的处理资源。
【附图说明】
[0043] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0044]图1是本发明实施例提供的一种数据样本的聚类方法流程图;
[0045] 图2是本发明实施例提供的一种数据样本的聚类装置结构示意图;
[0046]图3是本发明实施例提供的一种服务器的结构示意图。
【具体实施方式】
[0047]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0048] 实施例一
[0049] 本发明实施例提供了一种数据样本的聚类方法,如图1所示,该方法的处理流程 可以包括如下的步骤:
[0050] 步骤101,获取目标数据样本和各聚类类别对应的质心。
[0051] 步骤102,根据目标数据样本和目标数据样本所属的第一聚类类别以外的其他聚 类类别对应的质心,确定每个其他聚类类别的质心与目标数据样本的距离下限。
[0052] 步骤103,在其他聚类类别对应的各质心中,选取对应的距离下限小于目标数据样 本与第一聚类类别对应的质心之间的样本质心距离的质心。
[0053] 步骤104,在选取的质心和第一聚类类别对应的质心中,确定与目标数据样本的 距离最小的质心,将目标数据样本归入与目标数据样本的距离最小的质心对应的聚类类别 中。
[0054] 本发明实施例中,获取目标数据样本和各聚类类别对应的质心,根据目标数据样 本和目标数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定每个其他聚 类类别的质心与目标数据样本的距离下限,在其他聚类类别对应的各质心中,选取对应的 距离下限小于目标数据样本与第一聚类类别对应的质心之间的样本质心距离的质心,在选 取的质心和第一聚类类别对应的质心中,确定与目标数据样本的距离最小的质心,将目标 数据样本归入与目标数据样本的距离最小的质心对应的聚类类别中,这样,可以只计算第 一聚类类别对应的质心与目标数据样本的距离,以及选取的质心与目标数据样本的距离, 无需计算目标数据样本与所有质心的距离,且确定距离下限的计算量远小于质心与目标数 据样本的距离的计算量,从而可以节约服务器的处理资源。
[0055] 实施例二
[0056] 本发明实施例提供了一种数据样本的聚类方法,该方法的执行主体为服务器。其 中,服务器可以是具有聚类功能的后台服务器。
[0057]服务器在对数据样本集中的数据样本进行聚类处理时,具体可以分为以下几个步 骤:步骤一,根据预设的聚类类别的数量,从待聚类的数据样本中随机选取该数量的数据样 本,作为各聚类类别的质心;步骤二,对于每个数据样本,计算该数据样本与各质心的数据 距离(该数据距离可以表示数据样本与质心的接近程度),确定与该数据样本的数据距离 最小的质心,将该数据样本归入该质心所属的类别中;步骤三,计算该类别中所有数据样本 的平均值,作为该类别的质心;步骤四,重复进行步骤二、三的处理过程,即计算各数据样本 与更新后的质心的数据距离,进而对数据样本进行重新聚类,然后计算重新聚类后的各类 别中所有数据样本的平均值,作为更新后的质心,直到各类别中的数据样本保持不变。
[0058] 本方案是对上述处理过程中,步骤二的处理过程进行了改进,下面将结合具体实 施方式,对图1所示的处理流程进行详细的说明,内容可以如下:
[0059] 步骤101,获取目标数据样本和各聚类类别对应的质心。
[0060] 在实施中,服务器可以获取需要进行聚类处理的数据样本(即目标数据样本),以 及各聚类类别对应的质心。在第一轮的聚类处理中,服务器可以根据预设的聚类类别的数 量,从待聚类的数据样本中随机选取该数量的数据样本,作为各聚类类别的质心,在后续的 聚类处理中,各聚类类别对应的质心可以为聚类后的各类别中所有数据样本的平均值。
[0061] 步骤102,根据目标数据样本和目标数据样本所属的第一聚类类别以外的其他聚 类类别对应的质心,确定每个其他聚类类别的质心与目标数据样本的距离下限。
[0062] 在实施中,数据样本可以具有多种属性,例如,对于数据样本为用户的情况,数据 样本对应的属性可以是每月花费、上网时间、年龄和性别等。数据样本可以用一个m维的向 量来表示,如目标数据样本可以用向量B1表示,B1={an,a12,......aj,数据样本集合可以 表示{a}。在对{a}进行聚类处理时,可以预先设置聚类类别的数量,如k类。这k个聚类 类别对应的质心可以表示为Cpc2、C3......ck,Cpc2、C3......Ck均为m维的向量。以ai属于 (^对应的聚类类别(即第一聚类类别)为例,服务器获取目标数据样本和各聚类类别对应 的质心之后,可以根据aJPc2、c3......ck,分别确定c2、c3......(^与ai的距离下限,距离下限 可以用h'表示,叫与c2的距离下限为h' 2,叫与c3的距离下限为h' 3,以此类推。
[0063]可选的,可以根据样本质心距离和质心间距离确定每个其他聚类类别对应的质心 对应的距离下限,相应的,步骤102的处理过程可以如下:确定目标数据样本与目标数据样 本所属的第一聚类类别对应的质心的样本质心距离,以及第一聚类类别对应的质心与每个 其他聚类类别对应的质心的质心间距离;确定样本质心距离与每个质心间距离的差值,将 每个其他聚类类别的质心对应的差值,作为每个其他聚类
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1