一种数据样本的聚类方法和装置的制造方法_3

文档序号:8445574阅读:来源:国知局
类别的质心与目标数据样本的距 离下限。
[0064]在实施中,服务器可以计算&1与ci的样本质心距离,该样本质心距离可以记为r, 还可以分别计算(^与C2、C3……Ck的质心间距离,这些质心间距离可以依次表示为d2……dk。然后服务器可以计算!"与七的差值,将该差值作为a:与C2的距离下限h' 2,计算r与 d3的差值,将该差值作为a:与c3的距离下限h' 3,以此类推,计算r与dk的差值,将该差 值作为&1与Ck的距离下限h'k。其中,样本质心距离和质心间距离的计算方法有很多种, 如欧式距离算法。在欧式距离算法中,任意两个数据样本(包括质心)之间的距离可以表
【主权项】
1. 一种数据样本的聚类方法,其特征在于,所述方法包括: 获取目标数据样本和各聚类类别对应的质心; 根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类 别对应的质心,确定每个其他聚类类别的质心与所述目标数据样本的距离下限; 在所述其他聚类类别对应的各质心中,选取对应的距离下限小于所述目标数据样本与 所述第一聚类类别对应的质心之间的样本质心距离的质心; 在选取的质心和所述第一聚类类别对应的质心中,确定与所述目标数据样本的距离最 小的质心,将所述目标数据样本归入与所述目标数据样本的距离最小的质心对应的聚类类 别中。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述目标数据样本和所述目标 数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定每个其他聚类类别的 质心与所述目标数据样本的距离下限,包括: 确定所述目标数据样本与所述目标数据样本所属的第一聚类类别对应的质心的样本 质心距离,以及所述第一聚类类别对应的质心与每个其他聚类类别对应的质心的质心间距 离; 确定所述样本质心距离与每个质心间距离的差值,将所述每个其他聚类类别的质心对 应的差值,作为所述每个其他聚类类别的质心与所述目标数据样本的距离下限。
3. 根据权利要求1所述的方法,其特征在于,所述根据所述目标数据样本和所述目标 数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定每个其他聚类类别的 质心与所述目标数据样本的距离下限,包括: 根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类 别对应的质心,确定所述目标数据样本与每个其他聚类类别对应的质心的差向量在单位向 量上的投影,将所述每个其他聚类类别的质心对应的投影的长度,作为所述每个其他聚类 类别的质心与所述目标数据样本的距离下限。
4. 根据权利要求1所述的方法,其特征在于,所述根据所述目标数据样本和所述目标 数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定所述目标数据样本与 所述其他聚类类别的质心的距离下限,包括: 根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类 别对应的质心,确定所述目标数据样本和每个其他聚类类别对应的质心的均值和方差; 根据所述目标数据样本和所述每个其他聚类类别对应的质心的均值和方差,以及均方 差不等式,确定所述每个其他聚类类别的质心与所述目标数据样本的距离下限。
5. 根据权利要求1所述的方法,其特征在于,所述在选取的质心和所述第一聚类类别 对应的质心中,确定与所述目标数据样本的距离最小的质心,将所述目标数据样本归入与 所述目标数据样本的距离最小的质心对应的聚类类别中,包括: 根据选取的质心的数目,确定处理单元的第一数目; 在预设的处理单元池中,获取所述第一数目个处理单元; 通过获取的处理单元,在选取的质心和所述第一聚类类别对应的质心中,确定与所述 目标数据样本的距离最小的质心,将所述目标数据样本归入确定出的质心对应的聚类类别 中。
6. -种数据样本的聚类装置,其特征在于,所述装置包括: 获取模块,用于获取目标数据样本和各聚类类别对应的质心; 确定模块,用于根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外 的其他聚类类别对应的质心,确定每个其他聚类类别的质心与所述目标数据样本的距离下 限; 选取模块,用于在所述其他聚类类别对应的各质心中,选取对应的距离下限小于所述 目标数据样本与所述第一聚类类别对应的质心之间的样本质心距离的质心; 聚类模块,用于在选取的质心和所述第一聚类类别对应的质心中,确定与所述目标数 据样本的距离最小的质心,将所述目标数据样本归入与所述目标数据样本的距离最小的质 心对应的聚类类别中。
7. 根据权利要求6所述的装置,其特征在于,所述确定模块,用于: 确定所述目标数据样本与所述目标数据样本所属的第一聚类类别对应的质心的样本 质心距离,以及所述第一聚类类别对应的质心与每个其他聚类类别对应的质心的质心间距 离; 确定所述样本质心距离与每个质心间距离的差值,将所述每个其他聚类类别的质心对 应的差值,作为所述每个其他聚类类别的质心与所述目标数据样本的距离下限。
8. 根据权利要求6所述的装置,其特征在于,所述确定模块,用于: 根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类 别对应的质心,确定所述目标数据样本与每个其他聚类类别对应的质心的差向量在单位向 量上的投影,将所述每个其他聚类类别的质心对应的投影的长度,作为所述每个其他聚类 类别的质心与所述目标数据样本的距离下限。
9. 根据权利要求6所述的装置,其特征在于,所述确定模块,用于: 根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类 别对应的质心,确定所述目标数据样本和每个其他聚类类别对应的质心的均值和方差; 根据所述目标数据样本和所述每个其他聚类类别对应的质心的均值和方差,以及均方 差不等式,确定所述每个其他聚类类别的质心与所述目标数据样本的距离下限。
10. 根据权利要求6所述的装置,其特征在于,所述聚类模块,用于: 根据选取的质心的数目,确定处理单元的第一数目; 在预设的处理单元池中,获取所述第一数目个处理单元; 通过获取的处理单元,在选取的质心和所述第一聚类类别对应的质心中,确定与所述 目标数据样本的距离最小的质心,将所述目标数据样本归入确定出的质心对应的聚类类别 中。
【专利摘要】本发明公开了一种数据样本的聚类方法和装置,属于计算机技术领域。所述方法包括:获取目标数据样本和各聚类类别对应的质心;根据所述目标数据样本和所述目标数据样本所属的第一聚类类别以外的其他聚类类别对应的质心,确定每个其他聚类类别的质心与所述目标数据样本的距离下限;在所述其他聚类类别对应的各质心中,选取对应的距离下限小于所述目标数据样本与所述第一聚类类别对应的质心之间的样本质心距离的质心;在选取的质心和所述第一聚类类别对应的质心中,确定与所述目标数据样本的距离最小的质心,将所述目标数据样本归入与所述目标数据样本的距离最小的质心对应的聚类类别中。采用本发明,可以节约服务器的处理资源。
【IPC分类】G06F17-30, G06K9-62
【公开号】CN104765776
【申请号】CN201510119224
【发明人】徐斌, 袁宏辉, 陈伟祥
【申请人】华为技术有限公司
【公开日】2015年7月8日
【申请日】2015年3月18日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1