一种针对大数据的分解组合聚类方法

文档序号:6620077阅读:711来源:国知局
一种针对大数据的分解组合聚类方法
【专利摘要】本发明公开了一种基于分解组合的大数据聚类方法,将数据集进行横向切分,获得若干数据子集;再将横向数据子集进行纵向切分,获得若干纵向数据子集;然后使用基础聚类算法,获得经过横向和纵向切分后数据子集的类别标签。将若干个纵向数据子集的类别标签进行组合聚类获得横向数据子集的类别标签;再将若干个横向数据子集的类别标签再次进行组合聚类得到完整数据集的类别标签。本发明将大数据聚类问题转化为组合聚类问题,具有高效性,鲁棒性和可并行化等优点。适用于大数据聚类,特别适用在文档分类、客户分群、信息检索等领域。
【专利说明】一种针对大数据的分解组合聚类方法

【技术领域】
[0001] 本发明属于数据挖掘领域,涉及一种数据划分的聚类方法,具体的说是一种针对 大数据的组合聚类方法。

【背景技术】
[0002] 大数据给人们带来了前所未有的冲击和挑战,大数据的特点:Volume(大量)、 Velocity (高速)、Variety (多样)、veracity (真实性)。如何挖掘大数据中蕴含的潜在价 值信息成为工业界和学术界的热点问题。大数据具有数据量大,维度高的特点,这使得传统 的数据分析方法在大数据面前束手无策,力不从心;并且大数据中存在噪声属性和噪声样 本点也让挖掘大数据的内在模式难上加难。


【发明内容】

[0003] 鉴于大数据聚类中的海量高维难题,本发明的目的是提供一种针对大数据的分解 组合聚类方法,本发明采用"分解-组合"的方法,首先将大数据分别进行横向和纵向切分, 得到若干数据子集,再利用快速聚类法获得数据子集的类别标签,再利用组合聚类法将若 干数据子集的类别标签进行组合,得到完整的数据类别标签。
[0004] 本发明的目的是通过以下技术方案来实现的:
[0005] -种针对大数据的分解组合聚类方法,其特征在于:该方法首先将大数据分解,针 对每个数据子集聚类,再使用组合聚类的方法求得最后的完整类别标签,具体步骤如下:
[0006] 1)对大数据的样本点进行随机抽样,得到若干横向数据子集;
[0007] 进一步:将大数据D进行横向切分,获得r个数据子集Dp 1彡i彡r,使得r个数 据子集的全集为D,r个数据子集的样本总数为D的样本数量的5倍以上。
[0008] 进一步:利用随机抽样的方式,对大数据进行横向切分,随机抽取10%的样本量 获得数据子集以,有放回的重复抽样r = 100次,使得100个数据子集的全集为D。
[0009] 2)对得到的横向数据子集的属性进行随机抽样,得到若干规模较小的纵向数据 子集;
[0010] 进一步:对每个数据子集〇,进行纵向切分,获得c个数据子集Du,l < j < c,使得 c个数据子集的全集为Dp c个数据子集的属性总数为Di的属性数量的5倍以上。
[0011] 进一步:利用随机抽样的方式,对每个数据子集Di进行纵向切分,随机抽取10% 的属性获得数据子集D#有放回的重复抽样c = 100次,使得100个数据子集的全集为 Di〇
[0012] 3)对得到的纵向数据子集,进行基础聚类,得到若干基础聚类结果;
[0013] 利用K均值对每个数据集子集Du进行聚类,得到π u ;K均值算法如下,其中K均 值聚类距离函数为平方欧式距离或者余弦相似度;只需要运行Κ均值算法一次即可:
[0014] (31)选择Κ个点作为初始中心;
[0015] (32)重复;
[0016] (33)将每个点指派到最近的中心,形成K个簇;
[0017] (34)重新计算每个簇的中心;
[0018] (35)直到中心不发生变化。
[0019] 4)对纵向数据子集的基础聚类结果进行组合聚类,得到横向数据子集的类别标 签;
[0020] 进一步:利用基于Κ均值的一致性聚类方法对c个%进行组合聚类,得到π i作 为Di的类别标签。
[0021] 利用基于K均值的组合聚类方法对100个π U,1彡j彡C进行组合聚类,得到^ 作为Di的类别标签;基于K均值的组合聚类方法如下:
[0022] (41)将100个基础聚类结果π y转化为〇-1矩阵,其转换方式如下:
[0023] 用U

【权利要求】
1. 一种针对大数据的分解组合聚类方法,其特征在于:该方法首先将大数据分解,针 对每个数据子集聚类,再使用组合聚类的方法求得最后的完整类别标签,具体步骤如下: 1) 对大数据的样本点进行随机抽样,得到若干横向数据子集; 2) 对得到的横向数据子集的属性进行随机抽样,得到若干规模较小的纵向数据子集; 3) 对得到的纵向数据子集,进行基础聚类,得到若干基础聚类结果; 4) 对纵向数据子集的基础聚类结果进行组合聚类,得到横向数据子集的类别标签; 5) 将未出现在横向数据子集的数据点的类别标签标记为0 ; 6) 对横向数据子集的类别标签进行组合聚类,得到整个数据集的类别标签; 7) 模式输出,得到完整数据集的类别标签,完成大数据的分解组合聚类。
2. 根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤1)中, 将大数据D进行横向切分,获得r个数据子集Dy 1 < i < r,使得r个数据子集的全集为D, r个数据子集的样本总数为D的样本数量的5倍以上。
3. 根据权利要求2所述的针对大数据的分解组合聚类方法,其特征在于:利用随机抽 样的方式,对大数据进行横向切分,随机抽取10%的样本量获得数据子集Dp有放回的重复 抽样r = 100次,使得100个数据子集的全集为D。
4. 根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤2)中, 对每个数据子集Di进行纵向切分,获得c个数据子集Dy 1 < j < c,使得c个数据子集的 全集为Dp c个数据子集的属性总数为Di的属性数量的5倍以上。
5. 根据权利要求4所述的针对大数据的分解组合聚类方法,其特征在于:利用随机抽 样的方式,对每个数据子集Di进行纵向切分,随机抽取10 %的属性获得数据子集Dy有放 回的重复抽样c = 100次,使得100个数据子集的全集为Dp
6. 根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤3)中, 利用K均值对每个数据集子集进行聚类,得到π u ;K均值算法如下,其中K均值聚类距 离函数为平方欧式距离或者余弦相似度;只需要运行Κ均值算法一次即可: (31) 选择Κ个点作为初始中心; (32) 重复; (33) 将每个点指派到最近的中心,形成Κ个簇; (34) 重新计算每个簇的中心; (35) 直到中心不发生变化。
7. 根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤4)中, 利用基于Κ均值的一致性聚类方法对c个π υ进行组合聚类,得到π i作为Di的类别标签。
8. 根据权利要求7所述的针对大数据的分解组合聚类方法,其特征在于:利用基于K 均值的组合聚类方法对
进行组合聚类,得到^作为Di的类别标签; 基于K均值的组合聚类方法如下: (41)将100个基础聚类结果π y转化为0-1矩阵,其转换方式如下: 用1广={1广|1</<?,.}表示由上述基础聚类结果得到的〇-1二元矩阵,叫为〇1样本个 数,其生成方式如下所示:
X,点在%中的类别为g 其他 ; 其中
因此,_
是一<
的矩阵,其中&为的31 υ簇个数,并且
; (42) 选择组合聚类效用函数U,并从中分解 如果效用函数U可以进行如下所示的分解,则可利用基于快速一致性聚类的框架进行 求解;
其中,Pk表示第k个类占所有数据的比例,表示π u的第k个类的中心,且上式中 沪为凸函数; (43) 基于,生成快速聚类法的距离函数,利用K均值聚类法的距离范式,
其中
经验结果表明,基于熵的效用函数收敛速度快,并且还能够得到较好的聚类结果,其表 达式如下:
其对应的K均值距离函数为加和的KL散度,形式如下:
(44) 最后利用K均值聚类算法,在0-1矩阵上运用聚类函数f进行组合聚类,得到数据 子集Di的类别标签π it)
9.根据权利要求1所述的针对大数据的分解组合聚类方法,其特征在于:步骤6)中, 利用基于K均值的一致性聚类方法对1*个^进行组合聚类,得到π作为D的类别标签, 方法与步骤4)相同。
【文档编号】G06F17/30GK104063518SQ201410334542
【公开日】2014年9月24日 申请日期:2014年7月14日 优先权日:2014年7月14日
【发明者】吴俊杰, 伍之昂, 曹杰 申请人:南京弘数信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1