聚类分析方法、装置及设备的制造方法

文档序号:8282365阅读:539来源:国知局
聚类分析方法、装置及设备的制造方法
【技术领域】
[0001] 本公开涉及数据处理技术领域,特别涉及一种聚类分析方法、装置及设备。
【背景技术】
[0002] 随着计算机科学技术的蓬勃发展,诸如商业管理、政府办公、工程开发、科学研宄 等各个领域所涉及的数据量呈爆炸式增长。然而,在数据量呈爆炸式增长的同时,如何在 海量的数据中高效提取有用信息成为了时下人们较为关注的一个焦点。为此,聚类分析 (cluster analysis)作为一种将研宄对象分为相对同质的群组(clusters)的数据挖掘方 法,受到了大家的青睐。
[0003] 相关技术中,通常采取 SL(single_linkage,单连接)、CL(complete_linkage,完 全连接)、AL (average-linkage,平均连接)三种层次聚类方法进行聚类分析。在计算类间 距离时,依据相异度矩阵进行计算。其中,对于SL层次聚类方法,类间距离等于两类样本之 间的最小距离。若用相似度衡量,则类间距离是一类中任一样本与另一类中任一样本的最 大相似度。对于CL层次聚类方法,类间距离等于两类样本之间的最大距离。对于AL层次 聚类方法,类间距离等于两类样本之间的平均距离。在得到类间距离后,基于该类间距离进 行聚类。
[0004] 针对上述三种聚类分析方法,在计算类间距离时均依赖于相异度矩阵;如果在计 算相异度矩阵时,某一样本的数据存在误差,则若重复使用相异度矩阵,那么便存在将误差 进一步放大的风险,从而导致聚类结果产生更大的偏差,聚类效果较差。

【发明内容】

[0005] 为克服相关技术中存在的问题,本公开提供一种聚类分析方法、装置及设备。
[0006] 根据本公开实施例的第一方面,提供一种聚类分析方法,所述方法包括:
[0007] 对于待聚合类中的第一类和第二类,计算所述第一类和所述第二类中两两样本之 间的距离,所述两两样本中一个样本来自于所述第一类,另一个样本来自于所述第二类;
[0008] 将得到的样本距离按照预定顺序进行排序,确定指定数目个样本距离,所述指定 数目根据所述第一类或所述第二类的类内聚合度调整得到;
[0009] 根据所述指定数目个样本距离,计算所述第一类和所述第二类的类间距离;
[0010] 根据所述待聚合类中每两个类之间的类间距离,对所述待聚合类进行聚类。
[0011] 可选地,当所述第一类和所述第二类的类间距离为平均距离时,所述根据所述指 定数目个样本距离,应用如下公式,计算所述第一类和所述第二类的类间距离,包括:
【主权项】
1. 一种聚类分析方法,其特征在于,所述方法包括: 对于待聚合类中的第一类和第二类,计算所述第一类和所述第二类中两两样本之间的 距离,所述两两样本中一个样本来自于所述第一类,另一个样本来自于所述第二类; 将得到的样本距离按照预定顺序进行排序,确定指定数目个样本距离,所述指定数目 根据所述第一类或所述第二类的类内聚合度调整得到; 根据所述指定数目个样本距离,计算所述第一类和所述第二类的类间距离; 根据所述待聚合类中每两个类之间的类间距离,对所述待聚合类进行聚类。
2. 根据权利要求1所述的方法,其特征在于,当所述第一类和所述第二类的类间距离 为平均距离时,所述根据所述指定数目个样本距离,应用如下公式,计算所述第一类和所述 第二类的类间距离,包括:
其中,Gp指代所述第一类,G。指代所述第二类;K为常数,指代所述指定数目;i为变量, i G [1,时;化i指代所述指定数目个样本距离中第i个样本距离的大小;Dk(Gp,G。)指代所 述第一类和所述第二类的类间距离。
3. 根据权利要求1所述的方法,其特征在于,当所述第一类和所述第二类的类间距离 为中值距离时,所述根据所述指定数目个样本距离,应用如下公式,计算所述第一类和所述 第二类的类间距离,包括: Dk 佑p,G。)=化k/2 其中,Gp指代所述第一类,G。指代所述第二类;K为常数,指代所述指定数目;化k/2指代 所述指定数目个样本距离中第K/2个样本距离的大小;Dk(Gp,G。)指代所述第一类和所述第 二类的类间距离。
4. 根据权利要求1所述的方法,其特征在于,所述确定指定数目个样本距离之前,所述 方法还包括: 根据所述第一类的样本数量和样本距离,计算所述第一类的类内聚合度; 根据所述类内聚合度,调整所述指定数目的大小。
5. 根据权利要求4所述的方法,其特征在于,所述根据所述第一类的样本数量和样本 距离,应用如下公式,计算所述第一类的类内聚合度,包括:
其中,Gp为样本数量为rip的类,rip为常数,i和j为变量,i G [l,np],j G [l,np],d。 指代类6。中样本X郝样本X之间的距离,^/&指代类6。的类内聚合度。
6. 根据权利要求1所述的方法,其特征在于,所述根据所述待聚合类中每两个类之间 的类间距离,对所述待聚合类进行聚类,包括: 在所述每两个类之间的类间距离中,确定类间距离最小的两个类; 将所述类间距离最小的两个类进行聚合,得到一个新类;
计算所述新类分别与第=类的类间距离,所述第=类为除所述类间距离最小的两个类 之外的其他类; 重复执行上述步骤,直至得到一个聚合类。
7. -种聚类分析装置,其特征在于,所述装置包括: 样本距离计算模块,用于对于待聚合类中的第一类和第二类,计算所述第一类和所述 第二类中两两样本之间的距离,所述两两样本中一个样本来自于所述第一类,另一个样本 来自于所述第二类; 样本距离确定模块,用于将得到的样本距离按照预定顺序进行排序,确定指定数目个 样本距离,所述指定数目根据所述第一类或所述第二类的类内聚合度调整得到; 类间距离计算模块,用于根据所述指定数目个样本距离,计算所述第一类和所述第二 类的类间距离; 聚类模块,用于根据所述待聚合类中每两个类之间的类间距离,对所述待聚合类进行 聚类。
8. 根据权利要求7所述的装置,其特征在于,所述类间距离计算模块,用于当所述第一 类和所述第二类的类间距离为平均距离时,根据所述指定数目个样本距离,应用如下公式, 计算所述第一类和所述第二类的类间距离:
其中,Gp指代所述第一类,G。指代所述第二类;K为常数,指代所述指定数目;i为变量, i G [1,时;化i指代所述指定数目个样本距离中第i个样本距离的大小;Dk(Gp,G。)指代所 述第一类和所述第二类的类间距离。
9. 根据权利要求7所述的装置,其特征在于,所述类间距离计算模块,用于当所述第一 类和所述第二类的类间距离为中值距离时,根据所述指定数目个样本距离,应用如下公式, 计算所述第一类和所述第二类的类间距离: Dk 佑p,G。)=化k/2 其中,Gp指代所述第一类,G。指代所述第二类;K为常数,指代所述指定数目;化k/2指代 所述指定数目个样本距离中第K/2个样本距离的大小;Dk(Gp,G。)指代所述第一类和所述第 二类的类间距离。
10. 根据权利要求7所述的装置,其特征在于,所述装置还包括: 类内聚合度计算模块,用于根据所述第一类的样本数量和样本距离,计算所述第一类 的类内聚合度; 指定数目调整模块,用于根据所述类内聚合度,调整所述指定数目的大小。
11. 根据权利要求10所述的装置,其特征在于,所述指定数目调整模块,用于根据所述 第一类的样本数量和样本距离,应用如下公式,计算所述第一类的类内聚合度:
其中,Gp为样本数量为rip的类,rip为常数,i和j为变量,i G [l,np],j G [l,np],d。
指代类Gp中样本X郝样本X j.之间的距离,指代类Gp的类内聚合度。
12. 根据权利要求7所述的装置,其特征在于,所述聚类模块,用于在所述每两个类之 间的类间距离中,确定类间距离最小的两个类;将所述类间距离最小的两个类进行聚合,得 到一个新类;计算所述新类分别与第=类的类间距离,所述第=类为除所述类间距离最小 的两个类之外的其他类;重复执行上述步骤,直至得到一个聚合类。
13. -种聚类分析设备,其特征在于,所述设备包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为;对于待聚合类中的第一类和第二类,计算所述第一类和所 述第二类中两两样本之间的距离,所述两两样本中一个样本来自于所述第一类,另一个样 本来自于所述第二类;将得到的样本距离按照预定顺序进行排序,确定指定数目个样本距 离,所述指定数目根据所述第一类或所述第二类的类内聚合度调整得到;根据所述指定数 目个样本距离,计算所述第一类和所述第二类的类间距离;根据所述待聚合类中每两个类 之间的类间距离,对所述待聚合类进行聚类。
【专利摘要】本公开是关于一种聚类分析方法、装置及设备,属于数据处理技术领域。方法包括:对于待聚合类中的第一类和第二类,计算所述第一类和所述第二类中两两样本之间的距离;将得到的样本距离按照预定顺序进行排序,确定指定数目个样本距离,所述指定数目根据所述第一类或所述第二类的类内聚合度调整得到;根据所述指定数目个样本距离,计算所述第一类和所述第二类的类间距离;根据所述待聚合类中每两个类之间的类间距离,对所述待聚合类进行聚类。由于基于类的形状自适应地调整了指定数目的大小,并基于该指定数目确定了计算类间距离所使用的样本距离基数,所以得到的计算结果较为精准,不易受异常数据和噪声等的影响。在进行聚类时,聚类效果较好。
【IPC分类】G06F17-30
【公开号】CN104598544
【申请号】CN201410852005
【发明人】陈志军, 张涛, 关亚勇
【申请人】小米科技有限责任公司
【公开日】2015年5月6日
【申请日】2014年12月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1