一种面向大规模异构数据的联合聚类方法

文档序号:8319266阅读:244来源:国知局
一种面向大规模异构数据的联合聚类方法
【技术领域】
[0001] 本发明属于互联网信息挖掘领域,尤其涉及能够降低大规模异构数据的稀疏性 的,一种面向大规模异构数据的联合聚类方法。
【背景技术】
[0002] 随着微博、社交网络等异构信息网络的兴起,异构信息挖掘已经成为当前数据挖 掘领域中的一个研宄热点。异构网络中包含多类实体,实体之间存在着复杂的交互关系。例 如微博中包含用户、消息、标签、词等实体,用户发布消息,消息由词语组成,消息中还包含 标签等。通过抽取实体间的关系数据进行联合聚类分析,能够挖掘出异构网络中不同实体 间的潜在结构关系。
[0003] 非负矩阵分解在联合聚类算法中取得了很好的效果,但是数据本身的几何结构会 影响聚类的准确性。特别是在处理大规模异构数据时,当异构数据规模增大时,关系数据结 构呈现明显变化。主要表现出如下两方面的问题:
[0004] (1)非平衡问题:待分析的异构数据规模增大时,异构数据中不同类实体的规模 并不呈现统一的增长模式。例如微博消息数量成线性增长时,用户、词和标签等实体并不呈 现线性增长模式。传统的非负矩阵分解方法的时间复杂度都与矩阵的行和列规模相关,因 此处理大规模数据时计算时间复杂度较高。
[0005] (2)稀疏性问题:真实异构网络中的关系数据比较稀疏,随着待分析异构数据规 模进一步增大时,关系数据变得异常稀疏。例如微博中的消息内容最多包含140个字,构建 的消息和词之间的关系矩阵非常稀疏。当消息规模进一步增大时,由于中文常用词的数量 是一定的,因此消息和词之间的关系矩阵变得异常稀疏,消息和用户、标签的关系矩阵同样 如此。传统的非负矩阵分解方法针对异常稀疏的关系矩阵进行分解时效果并不理想。

【发明内容】

[0006] 本发明的目的是提供能够降低大规模异构数据的稀疏性的,一种面向大规模异构 数据的联合聚类方法。
[0007] 本发明是通过以下技术方案实现的:
[0008] 一种面向大规模异构数据的联合聚类方法,包括以下步骤,
[0009] 步骤一:从异构数据中抽取实体以及实体间的异质关系,建立二部图,得到异质关 系矩阵R ;步骤二:从将异质关系矩阵R对应的两个实体中选择规模小的实体X2,以实体X2 的关联关系构建关联矩阵C ;
[0010] 步骤三:采用对称矩阵稀疏分解法对关联矩阵C进行分解,得到实体&对应的聚 类指示矩阵B ;
[0011] 步骤四:将实体X2对应的聚类指标矩阵B作为输入,对异质关系矩阵R进行三分 解,得到实体X 1对应的聚类指示矩阵F,通过实体X i对应的聚类指示矩阵F和实体X 2对应 的聚类指示矩阵B,实现实体类别划分。
[0012] 本发明一种面向大规模异构数据的联合聚类方法,还可以包括:
[0013] 1、得到异质关系矩阵R的方法为:
[0014] 步骤一:从异构数据中抽取待分析的实体,统计实体在异构数据中出现的频次,删 除频次小于或者等于2次的实体;
[0015] 步骤二:从剩余的实体中抽取任意两个实体之间的异质关系,建立二部图G = (V,Ε,ω),其中F = Z1 UZ2,\和X 2为异构关系中的两类实体,实体X JP X 2的数量分别为m 和n,E为异构关系对应的边,ω为边的权重;
[0016] 步骤三:将二部图表示成mXn的关系矩阵,得到异质关系矩阵R。
[0017] 2、关联矩阵C为:
[0018] C = W,
[0019] 其中,W为关联强度矩阵,Wi,」为实体X 2中任意两个实体X i, Xj的关联关系,
【主权项】
1. 一种面向大规模异构数据的联合聚类方法,其特征在于:包括以下步骤, 步骤一:从异构数据中抽取实体以及实体间的异质关系,建立二部图,得到异质关系矩 阵R; 步骤二:从将异质关系矩阵R对应的两个实体中选择规模小的实体X2,以实体X2的关 联关系构建关联矩阵C ; 步骤三:采用对称矩阵稀疏分解法对关联矩阵C进行分解,得到实体X2对应的聚类指 示矩阵B; 步骤四:将实体X2对应的聚类指标矩阵B作为输入,对异质关系矩阵R进行三分解,得 到实体X1对应的聚类指示矩阵F,通过实体X i对应的聚类指示矩阵F和实体X 2对应的聚类 指示矩阵B,实现实体类别划分。
2. 根据权利要求1所述的一种面向大规模异构数据的联合聚类方法,其特征在于:所 述的得到异质关系矩阵R的方法为: 步骤一:从异构数据中抽取待分析的实体,统计实体在异构数据中出现的频次,删除频 次小于或者等于2次的实体; 步骤二:从剩余的实体中抽取任意两个实体之间的异质关系,建立二部图G = (V,Ε,ω ),其中V = X1 U X 2, XjP X 2为异构关系中的两类实体,实体X JP X 2的数量分别为 m和n,E为异构关系对应的边,ω为边的权重; 步骤三:将二部图表示成mXn的关系矩阵,得到异质关系矩阵R。
3. 根据权利要求1所述的一种面向大规模异构数据的联合聚类方法,其特征在于:所 述的关联矩阵C为: C = W, 其中,W为关联强度矩阵,Wu为实体X 2中任意两个实体X i, X j勺关联关系,
其中,N(Wi, Wj)为乂2中的实体X i, Xj基于X i中实体同时出现的次数。
4. 根据权利要求1所述的一种面向大规模异构数据的联合聚类方法,其特征在于:所 述的求得实体X2对应的聚类指示矩阵B的方法为: 采用对称矩阵稀疏分解法对关联矩阵C进行分解,得到矩阵B : B1 , =max{CB.(B' B1)',()) > 对矩阵B进行二元化,使B中每一行的最大值对应的聚类结果为1,其余对应的都为0, 得到实体X2对应的聚类指示矩阵B。
5. 根据权利要求1所述的一种面向大规模异构数据的联合聚类方法,其特征在于:所 述的得到实体X1对应的聚类指示矩阵F的方法为: 建立目标函数: J4= I Ir-FSBtI I2, s. t. F ^ 0, B ^ 0, S ^ O 将实体X2对应的聚类指标矩阵B作为输入,采用快速的迭代求解方法,迭代求解矩阵F 和矩阵S,得到实体X1对应的聚类指示矩阵F。
6.根据权利1所述的一种面向大规模异构数据的联合聚类方法,其特征在于:所述的 异构网络为微博,异构网络中的实体为用户、消息、标签和词。
【专利摘要】本发明公开了一种面向大规模异构数据的联合聚类方法。包括以下步骤:从异构数据中抽取实体以及实体间的异质关系,得到异质关系矩阵;从将异质关系矩阵对应的两个实体中选择规模小的实体X2,以实体X2的关联关系构建关联矩阵;采用对称矩阵稀疏分解法对关联矩阵C进行分解,得到实体X2对应的聚类指示矩阵B;将矩阵B作为输入,对异质关系矩R进行三分解,得到实体X1对应的聚类指示矩阵,通过实体X1对应的聚类指示矩阵和实体X2对应的聚类指示矩阵,实现实体类别划分。本发明能够降低矩阵的稀疏性,提高了联合聚类方法的准确率。
【IPC分类】G06F17-30
【公开号】CN104636454
【申请号】CN201510054469
【发明人】杨武, 申国伟, 王巍, 苘大鹏, 玄世昌
【申请人】哈尔滨工程大学
【公开日】2015年5月20日
【申请日】2015年2月2日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1