一种面向多实体稀疏关系的联合挖掘方法_2

文档序号:9200388阅读:来源:国知局
首先给出稀疏约束的定义。
[0039] 对于任意异质关系矩阵Rfcti包含m行和η列,其可看成是由η个列向量组 合的矩阵。因此,在向量稀疏度量的基础上,矩阵稀疏度量Sp(Rfcti)定义为:
[0040]
[0041] 本发明采用对称稀疏矩阵分解方法,其对应的目标函数为Q1。 (4)
[0042]
[0043] (^)为11><11的对称矩阵,令其分解为1(个聚类,贝1」/^)的规模为11\1(,1> (~)的规 模为KXK。目标函数Q1的求解方法很多,例如乘法更新、梯度下降、坐标下降等。
[0044] Jingu Kim等人将非负矩阵分解方法都归纳到块坐标下降的框架下进行求解,并 且具有较快的收敛速度。针对目标函数%,对列向量块进行稀疏约束。可以看成是K 个列向量,每一个列可以看成是一个块,因此可以采用块坐标下降的方法进行求解。
[0045] 对于目标函数%的K个列向量块,可以采用序列更新的方法进行,针对每一个列 向量块Fj的更新可以转换成:
[0046]
(6)
[0047] 进一步可以写成:
[0048]
[0049] 该目标函数可以通过如下进行求解:
[0050]
(8)
[0051] 为列向量块,因此其求解可以转换成列向量的稀疏优化问题进行求解。
[0052] 3)异质关系矩阵分解。通过对关联矩阵进行对称分解之后,可得到每一类实体s 对应第i个关联矩阵对应的划分指示矩阵~~。针对异质关系矩阵Rfe\给定划分指示矩 阵,求解另一类实体的划分指示矩阵P(t)的问题可以转换成NNLS问题。NNLS问题的 求解方法很多,为了确保实体s对应的稀疏结构,同样采用稀疏投射的方法实现,既能确保 稀疏结构,同时能够快速求解。
[0053] (三)聚类指示矩阵融合
[0054] 由于异质关系数据中很多实体在多个异质关系中,而关联矩阵构造时并没有考虑 到这一点。为了提高多类异质关系对实体聚类的约束作用,本文针对多关系实体提出了基 于异质关系矩阵分解的融合算法。
[0055] 对于任意一类实体s,其与Ls类实体存在异质关系,因此,针对这L s类实 体得到的划分指示矩阵^ω(/ = 1···Μ.进行融合。在融合的过程中,不同异质关 系对划分结果产生的影响并不相同,因此,实体S对应的Lsf异质关系对应的权重 。对应的权重融合计算公式:
[0056]
(9)
[0057] 实验验证
[0058] 为了验证本发明的有效性,实验中将选择最新的三个算法作为对比算法SSNMF, TMBP, MultiNMF0
[0059] 本发明收集四个数据集作为实验数据集,分别是DBLP,Soccer事件数据集, Indignados时间数据集,Weibo数据集。
[0060] DBLP :该数据集为算法TMBP中应用的数据集,包括database,data mining, information retrieval,artificial intelligence 四类文章。原数据集中考虑了论文标 题和摘要信息,为了构造稀疏数据集,本文中只考虑论文标题,共抽取标题、词、会议、作者 四类实体。
[0061] Soccer_Event 和 Indignados_Event :该数据集为 the 2012Social Event Detection dataset (SED2012)的子集,其为Flick的图片分享数据。Soccer_Event主要描 述足球事件,抽取了单类中大于20个元素,共计23个子类数据。Indignados_Event为发生 在西班牙首都madrid的indignados事件,抽取了单类中大于20个元素,共计18个子类数 据。为了防止过度稀疏,文中将图片的标题、描述词、标签作为图片的描述信息,因此,抽取 了图片,词,用户三类实体。
[0062] Weibo :该数据集采用Sina提供的API采用2012年10月的微博消息,共计抽取7 个微博主题消息,分别为:闯红灯、丰田汽车回收、美国总统大选、莫言获得诺贝尔奖、"我是 特种兵"电视剧、杭州烟花大会、中国好声音。微博消息长度主要为20-30。在该数据集中 共抽取微博消息、标签、位置和词四类实体。
[0063] 1)准确性对比实验
[0064] 由于算法SSNMF、MultiNMF等针对星型结构中的中心实体进行聚类,为了对比方 便,下面将选四个数据集中的论文标题、图片、图片和微博消息四种实体的聚类作为对比分 析。四个算法在四个不同的数据集上的对比结果表明本发明方法在四个指标度量下整体优 于其他三种方法。
[0065] 本文方法无需异质关系数据建模成星型结构,因此能够能够针对所有实体进行聚 类分析。TMBP算法虽然将异质关系数据建模成星型结构,但是其针对所有实体进行聚类。 因此,选择TMBP算法作为对比算法。由于四个数据集中只有DBLP数据集上的会议和作者提 供了聚类标签,对比了会议和作者的结果,本发明方法在四个指标上都优于TMBP算法。这 主要是针对关联矩阵进行分解,并且采用的是稀疏约束下的非负矩阵分解方法。
[0066] 为了说明本发明方法HSNMF-CM在真实数据集中的效果,本文以事件检测数据上 的聚类为例进行说明。事件数据集为Flick用户发布的骚乱和足球事件的信息,从两个 数据聚类结果中分别抽取3个,其中每个聚类结果中的图片和词能够很好的叙述对应的事 件。
【主权项】
1. 一种面向多实体稀疏关系的联合挖掘方法,其特征在于,包括以下步骤: (1) 从异构数据中抽取实体、异质关系,两类实体之间的异质关系采用异质关系矩阵表 示,进而构建异质关系矩阵集合R: (I. 1)实体抽取:从异构数据中抽取待分析的实体,并统计实体在异构数据中的出现 频次,剔除频次小于或等于2次的实体,选择剩余的实体作为待分析实体集合; (1. 2)异构关系抽取:从待分析的实体集合中抽取任意两个实体之间存在的异质交互 关系; (1. 3)异质关系形式化建模:任意两类实体之间的异质关系通过二部图进行建模,两 个实体之间交互的频次作为异质关系的强度,二部图进一步可通过异质关系矩阵进行表 示; (2) 对于每一个异质关系矩阵Ri进行非负矩阵分解: (2. 1)关联矩阵构造:从异质关系矩阵中选择规模较小一类实体,依据同类实体之间 的关联关系构建关联矩阵; (2. 2)基于稀疏约束的关联矩阵稀疏对称分解:针对关联矩阵,采用鲁棒的稀疏约束 的对称分解方法; (2. 3)异质关系矩阵三分解:以关联矩阵分解得到的结果作为输入,采用迭代的三分 解方法进行求解; (3) 针对每一类实体对应的矩阵分解结果进行融合,得到最终的聚类指示矩阵: (3. 1)聚类指示矩阵二元化:根据关联矩阵对称分解的结果进行二元化; (3. 2)针对每一类实体对应的聚类指示矩阵进行融合,得到最终的聚类指示矩阵,分解 得到的指示矩阵中只有一个元素为1,其余为〇,指示矩阵中为1的表示实体属于对应的类 别。
【专利摘要】本发明属于智能信息处理领域,具体涉及一种利用计算机技术辅助网络信息智能分析和处理的面向多实体稀疏关系的联合挖掘方法。本发明包括:从异构数据中抽取实体、异质关系,两类实体之间的异质关系采用异质关系矩阵表示,进而构建异质关系矩阵集合R;对于每一个异质关系矩阵Ri进行非负矩阵分解;针对每一类实体对应的矩阵分解结果进行融合,得到最终的聚类指示矩阵。本发明在真实数据集上与最近的几种方法进行了对比分析,可知本方法在准确率、纯度、NMI和ARI四个度量指标下都整体优于其他算法。本方法只与规模较小一类的实体相关,因此在大规模数据上具有较好的可扩展性。
【IPC分类】G06F17/30
【公开号】CN104915371
【申请号】CN201510175590
【发明人】杨武, 申国伟, 王巍, 苘大鹏, 玄世昌
【申请人】哈尔滨工程大学
【公开日】2015年9月16日
【申请日】2015年4月14日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1