一种针对大数据的分解组合聚类方法

文档序号：6620077阅读：711来源：国知局

一种针对大数据的分解组合聚类方法
【专利摘要】本发明公开了一种基于分解组合的大数据聚类方法，将数据集进行横向切分，获得若干数据子集；再将横向数据子集进行纵向切分，获得若干纵向数据子集；然后使用基础聚类算法，获得经过横向和纵向切分后数据子集的类别标签。将若干个纵向数据子集的类别标签进行组合聚类获得横向数据子集的类别标签；再将若干个横向数据子集的类别标签再次进行组合聚类得到完整数据集的类别标签。本发明将大数据聚类问题转化为组合聚类问题，具有高效性，鲁棒性和可并行化等优点。适用于大数据聚类，特别适用在文档分类、客户分群、信息检索等领域。
【专利说明】一种针对大数据的分解组合聚类方法

【技术领域】
[0001] 本发明属于数据挖掘领域，涉及一种数据划分的聚类方法，具体的说是一种针对大数据的组合聚类方法。

【背景技术】
[0002] 大数据给人们带来了前所未有的冲击和挑战，大数据的特点：Volume(大量）、 Velocity (高速）、Variety (多样）、veracity (真实性）。如何挖掘大数据中蕴含的潜在价值信息成为工业界和学术界的热点问题。大数据具有数据量大，维度高的特点，这使得传统的数据分析方法在大数据面前束手无策，力不从心；并且大数据中存在噪声属性和噪声样本点也让挖掘大数据的内在模式难上加难。

【发明内容】

[0003] 鉴于大数据聚类中的海量高维难题，本发明的目的是提供一种针对大数据的分解组合聚类方法，本发明采用"分解-组合"的方法，首先将大数据分别进行横向和纵向切分，得到若干数据子集，再利用快速聚类法获得数据子集的类别标签，再利用组合聚类法将若干数据子集的类别标签进行组合，得到完整的数据类别标签。
[0004] 本发明的目的是通过以下技术方案来实现的：
[0005] -种针对大数据的分解组合聚类方法，其特征在于：该方法首先将大数据分解，针对每个数据子集聚类，再使用组合聚类的方法求得最后的完整类别标签，具体步骤如下：
[0006] 1)对大数据的样本点进行随机抽样，得到若干横向数据子集；
[0007] 进一步：将大数据D进行横向切分，获得r个数据子集Dp 1彡i彡r，使得r个数据子集的全集为D，r个数据子集的样本总数为D的样本数量的5倍以上。
[0008] 进一步：利用随机抽样的方式，对大数据进行横向切分，随机抽取10%的样本量获得数据子集以，有放回的重复抽样r = 100次，使得100个数据子集的全集为D。
[0009] 2)对得到的横向数据子集的属性进行随机抽样，得到若干规模较小的纵向数据子集；
[0010] 进一步：对每个数据子集〇,进行纵向切分，获得c个数据子集Du，l < j < c，使得 c个数据子集的全集为Dp c个数据子集的属性总数为Di的属性数量的5倍以上。
[0011] 进一步：利用随机抽样的方式，对每个数据子集Di进行纵向切分，随机抽取10% 的属性获得数据子集D#有放回的重复抽样c = 100次，使得100个数据子集的全集为 Di〇
[0012] 3)对得到的纵向数据子集，进行基础聚类，得到若干基础聚类结果；
[0013] 利用K均值对每个数据集子集Du进行聚类，得到π u ;K均值算法如下，其中K均值聚类距离函数为平方欧式距离或者余弦相似度；只需要运行Κ均值算法一次即可：
[0014] (31)选择Κ个点作为初始中心；
[0015] (32)重复；
[0016] (33)将每个点指派到最近的中心，形成K个簇；
[0017] (34)重新计算每个簇的中心；
[0018] (35)直到中心不发生变化。
[0019] 4)对纵向数据子集的基础聚类结果进行组合聚类，得到横向数据子集的类别标签；
[0020] 进一步：利用基于Κ均值的一致性聚类方法对c个％进行组合聚类，得到π i作为Di的类别标签。
[0021] 利用基于K均值的组合聚类方法对100个π U，1彡j彡C进行组合聚类，得到^ 作为Di的类别标签；基于K均值的组合聚类方法如下：
[0022] (41)将100个基础聚类结果π y转化为〇-1矩阵，其转换方式如下：
[0023] 用U

【权利要求】
1. 一种针对大数据的分解组合聚类方法，其特征在于：该方法首先将大数据分解，针对每个数据子集聚类，再使用组合聚类的方法求得最后的完整类别标签，具体步骤如下： 1) 对大数据的样本点进行随机抽样，得到若干横向数据子集； 2) 对得到的横向数据子集的属性进行随机抽样，得到若干规模较小的纵向数据子集； 3) 对得到的纵向数据子集，进行基础聚类，得到若干基础聚类结果； 4) 对纵向数据子集的基础聚类结果进行组合聚类，得到横向数据子集的类别标签； 5) 将未出现在横向数据子集的数据点的类别标签标记为0 ; 6) 对横向数据子集的类别标签进行组合聚类，得到整个数据集的类别标签； 7) 模式输出，得到完整数据集的类别标签，完成大数据的分解组合聚类。
2. 根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤1)中，将大数据D进行横向切分，获得r个数据子集Dy 1 < i < r，使得r个数据子集的全集为D， r个数据子集的样本总数为D的样本数量的5倍以上。
3. 根据权利要求2所述的针对大数据的分解组合聚类方法，其特征在于：利用随机抽样的方式，对大数据进行横向切分，随机抽取10%的样本量获得数据子集Dp有放回的重复抽样r = 100次，使得100个数据子集的全集为D。
4. 根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤2)中，对每个数据子集Di进行纵向切分，获得c个数据子集Dy 1 < j < c，使得c个数据子集的全集为Dp c个数据子集的属性总数为Di的属性数量的5倍以上。
5. 根据权利要求4所述的针对大数据的分解组合聚类方法，其特征在于：利用随机抽样的方式，对每个数据子集Di进行纵向切分，随机抽取10 %的属性获得数据子集Dy有放回的重复抽样c = 100次，使得100个数据子集的全集为Dp
6. 根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤3)中，利用K均值对每个数据集子集进行聚类，得到π u ;K均值算法如下，其中K均值聚类距离函数为平方欧式距离或者余弦相似度；只需要运行Κ均值算法一次即可： (31) 选择Κ个点作为初始中心； (32) 重复； (33) 将每个点指派到最近的中心，形成Κ个簇； (34) 重新计算每个簇的中心； (35) 直到中心不发生变化。
7. 根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤4)中，利用基于Κ均值的一致性聚类方法对c个π υ进行组合聚类，得到π i作为Di的类别标签。
8. 根据权利要求7所述的针对大数据的分解组合聚类方法，其特征在于：利用基于K 均值的组合聚类方法对
进行组合聚类，得到^作为Di的类别标签；基于K均值的组合聚类方法如下： (41)将100个基础聚类结果π y转化为0-1矩阵，其转换方式如下：用1广={1广|1</<?,.}表示由上述基础聚类结果得到的〇-1二元矩阵，叫为〇1样本个数，其生成方式如下所示：
X,点在％中的类别为g 其他 ; 其中
因此，_
是一<
的矩阵，其中&为的31 υ簇个数，并且
； (42) 选择组合聚类效用函数U，并从中分解如果效用函数U可以进行如下所示的分解，则可利用基于快速一致性聚类的框架进行求解；
其中，Pk表示第k个类占所有数据的比例，表示π u的第k个类的中心，且上式中沪为凸函数； (43) 基于，生成快速聚类法的距离函数，利用K均值聚类法的距离范式，
其中
经验结果表明，基于熵的效用函数收敛速度快，并且还能够得到较好的聚类结果，其表达式如下：
其对应的K均值距离函数为加和的KL散度，形式如下：
(44) 最后利用K均值聚类算法，在0-1矩阵上运用聚类函数f进行组合聚类，得到数据子集Di的类别标签π it)
9.根据权利要求1所述的针对大数据的分解组合聚类方法，其特征在于：步骤6)中，利用基于K均值的一致性聚类方法对1*个^进行组合聚类，得到π作为D的类别标签，方法与步骤4)相同。
【文档编号】G06F17/30GK104063518SQ201410334542
【公开日】2014年9月24日申请日期:2014年7月14日优先权日:2014年7月14日
【发明者】吴俊杰, 伍之昂, 曹杰申请人:南京弘数信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴俊杰;伍之昂;曹杰
技术所有人：南京弘数信息科技有限公司
我是此专利的发明人

上一篇：遥感卫星数据处理方法和系统的制作方法
上一篇：餐馆排号信息无线发布系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。