一种基于深度学习的隐含关系发现方法与流程

文档序号:14835877发布日期:2018-06-30 12:22阅读:538来源:国知局
一种基于深度学习的隐含关系发现方法与流程

本发明属于信息技术领域,具体涉及一种基于深度学习的隐含关系发现方法。



背景技术:

随着Facebook、Twitter、微信等社交媒体的普及和推广,社交媒体已经成为人们之间交流交互的重要平台。不同类型的社会关系对人有着不同的影响,人们的生活、学习和工作在这些关系的潜移默化之下发生着改变,比如在社交网络中,人们的喜好会受到朋友的影响,学生的研究方向会受到导师的影响。同时,在这些关系中还隐含着大量的额外信息,比如通过研究“导师-学生”关系,可以挖掘学术团体,建立科研社区网络,进一步了解相关研究课题的发展历程,找到下一步的发展方向。

网络中有很多的显式关系,如朋友关系、关注关系、评论关系、回复关系等,然而,也有很多关系是隐含在网络中的,如:“导师-学生”关系隐含在论文合著网络中。论文合著网络是科研人员在合作出版文献过程中逐渐形成的合作关系网络,比如DBLP。目前,有若干的项目以维护关系作为自己的目标,比如LinkedIn和AI家谱。前者要求用户对每一个特殊的对象进行标注,比如同事、导师、学生等,后者同样采用手工标注的方法对研究领域的导师信息进行标注。显然,这些方法大量依赖于人工的标注,不仅效率低,准确性也不高,这大大限制了其推广能力。对于这种现象一个理想的解决方案是设计一种方法,自动从网络中挖掘或预测出其中隐含的关系。

在论文合著网络中,想要仅从出版名单中判断谁是导师是比较困难的。有时根据直觉的假设,采用启发式规则可以在某些社交网络中区分关系类型。但是,研究发现使用典型的启发式规则只能达到精度为70-80%,即使是使用基于多个不同特征训练的多个规则结合监督学习模型,精度平均仍然只有80%,而且,在实践训练中它往往是很难收集监督信息的。

论文合著网络中的“导师-学生”关系具有如下几个特性:

1.隐含性。“导师-学生”关系是隐藏在论文合著网络中的,在论文合著网络中,只有论文的合作者、论文的题目、论文的发表时间、论文发表的刊物/会议等信息,无法显式地知道合作者之间的“导师-学生”关系。

2.时间依赖性。导师-学生关系具有高度的时间依赖性,对于任何一个作者来说,在其众多的合作者中,早期的合作者比后期的合作者更有可能是其导师。此外,一个人可以从学生的角色转化为导师角色,而这个角色转变可能没有任何明显的迹象。

3.难推测性。由于论文合著网络仅具有合作出版论文的相关信息,与其他社交媒体相比是非常简单的,同时因为“导师-学生”关系隐藏在论文合著网络中,这就导致在论文合著网络中人工地去推断“导师-学生”关系是比较困难的。

近年来,社交关系研究引起了学术界的广泛关注。当前对社交关系的研究工作可以分为三个方面:社交关系预测、社交关系类型识别和关系的交互预测。

社交关系预测,又称为链路预测,是指根据网络中节点的特征或已经存在的边,预测两个节点间存在边的可能性。Liben-Nowell等针对特定的社交网络,基于图的相似性度量方法计算节点之间的相似性,再利用该相似性预测节点之间的链接可能性。Lee等提出一种计算代价较小的基于社交向量时钟特征的模型来解决链接预测问题。Cunchao Tu等提出CANE模型,通过对用户相关的文本数据信息进行网络嵌入从而达到链路预测的目标。Backstrom等针对社交关系的强度问题提出了基于监督学习的随机游走算法。Zhao等提出一种基于“可靠路径”的预测方法,这是少数适用于加权网络的预测方法之一。

关系类型识别,是指针对一个或多个社交网络,自动地识别与挖掘出其中所蕴含的关系类型。Coppola等提出基于语义的自动关系挖掘框架。Leskovec等利用对数回归模型识别社交网络中的正关系或负关系,即朋友关系或非朋友关系。Diehl等使用学习排序函数识别“经理-下属”关系。Pentland等提出了几种obile数据挖掘模型,用于推测朋友关系。论文合著网络的“导师-学生”关系挖掘问题属于关系类型识别问题,在该问题上,唐杰等提出了TPFG模型用于从论文合著网络中挖掘“指导者-被指导者”关系,此外,他们面向异构网络(如邮件网络、科研合作网络等),提出一种基于因子图的统一框架,旨在解决社交关系类型的识别问题。李勇军等利用最大熵模型推测论文合著网络中的“导师-学生”关系。

关系交互预测,主要研究单向的社交关系怎样发展成双向的社交关系,以及其发生变化的原因。最常见的单向关系是明星和他们粉丝之间的关系,双向关系是朋友关系。Hopcroft等探索关系交互预测问题,Lou等研究社交关系是如何发展成为三元闭包的。他们共同提出一种将关系交互预测问题抽象为图的学习框架。



技术实现要素:

针对现有技术中存在的上述技术问题,本发明提出了一种基于深度学习的隐含关系发现方法,设计合理,克服了现有技术的不足,具有良好的效果。

为了实现上述目的,本发明采用如下技术方案:

一种基于深度学习的隐含关系发现方法,对隐含关系挖掘问题作出形式化的定义:

定义1学者发表网络G

将时间依赖的学者发表网络形式化表示为一个二部图,令G=(A,P,E),其中表示学者发表网络中所有作者的集合;是所有论文的集合;E={eik|1<=i<=na,1<=k<=np,ai是pk的作者},表示学者发表网络中的作者与论文的著作关系;

定义2论文合著网络G’

从G中生成其中,是作者集合,a0是一虚拟作者,对于作者ai,假设其导师为如果那么认为E’={eij|1<=i<=na,1<=j<=na,ai和aj具有合作关系且ai≠aj};其中,pnij是与eij相关的一个向量,pnij∈R1×40表示ai和aj在某一个时间域内合著的论文数量;对于单个作者来说,使用pni可以表示作者ai论文发表情况;

定义3论文合著矩阵C

对于A中任意作者x,假设其与m位作者具有合著关系,合作者集合用Ax表示,Ax={b0,b1,b2,···,bm},其中b0=a0;若在某一年t中,x与bj合著的论文数为则对于作者x,有合著矩阵:

其中,T为作者合作的总体时间域,本文以一年为一个时间跨度,若作者合著时间为[1970,2010],共40年,则在上述矩阵中T=39,合著矩阵C∈R(m+1)×40

定义4导师学生关系R

令R={yij|0<=i<=na,0<=j<=na},表示作者之间是否是“导师-学生”关系,其具体取值如下:

所述的基于深度学习的隐含关系发现方法,具体包括如下步骤:

Input:学者发表网络G;

Output:“导师-学生”关系的预测结果;

步骤1:对学者发表网络G中的链接进行分析,从学者发表网络G中生成论文合著网络G’;

步骤2:根据论文合著网络G’,计算论文发表情况矩阵C,D,S,进而计算论文的合著矩阵XS,XD,XT;

步骤3:建立tARMM(time-aware Advisor-advisee Relationship Mining Model,时间感知的导师学生关系挖掘模型)模型;

步骤4:通过tARMM模型对合著矩阵进行处理;

步骤4.1:使用RGRU计算概率PT;

步骤4.2:使用DNN计算概率PF;

步骤4.3:计算最终的导师概率P;

步骤5:P中最大概率的候选导师即为x的预测导师,从而得到“导师-学生”关系的预测结果。

优选地,在步骤2中,对于论文的合著情况,从如下两个方面进行分析:

第一方面,从合著的详细情况进行分析,对于作者x,通过合著矩阵C表示x与其候选导师之间的合著论文发表情况;

候选导师的论文发表情况用D表示:

作者x的论文发表情况pnx用S表示:

S=(S0 … ST-1) (2.3);

分别利用作者和候选导师的论文发表情况对合著矩阵C进行归一化处理:

XS=C·S (2.5);

XD=D·S (2.6);

其中,XS为基于学生的合著子矩阵,XSij∈XS,表示在第j年中作者x与其候选导师bi合著论文数占作者x第j年总论文数的比例;XD为基于导师的合著子矩阵,XDij∈XD,表示在第j年中作者x与其候选导师bi合著论文数占候选导师bi第j年总论文数的比例;

第二方面,从合著的时间角度出发,根据合著矩阵C将合著情况的时间结构以矩阵的形式进行表示,具体定义如下:

XT为基于时间结构的合著子矩阵,其含义是用矩阵的形式表示作者x与其候选导师bi之间合著论文的时间结构。

优选地,在步骤4.1中,在tARMM模型中,对RNN(Recursive Neural Network,循环神经网络)进行改造,生成更新门循环单元RGRU(Refresh Gate Recurrent Unit,更新门循环单元),通过更新门循环单元RGRU,对XT进行处理,得到导师概率PT;

对于时刻t,有:

rt=σ(wr[ht+1,xt]+br) (2.9);

ht=wh[(1-rt)ht+1,rtxt] (2.10);

其中,rt是更新门在时间t的状态,wr是更新门的权重矩阵,br是更新门的偏移量,ht+1是更新门单元时刻t+1的状态,xt是时刻t的输入矩阵,ht是更新门单元在时间t的状态,wt和bt分别是生成状态ht的权重矩阵和偏移量;

基于RGRU的导师概率PT:

PT=hT (2.11);

其中,hT是更新门单元在时间T的状态;其公式与ht相同;

具体步骤如下:

Input:论文合著矩阵XT;

Output:基于RGRU的导师概率PT;

步骤4.1.1:初始化PT为零矩阵;

步骤4.1.2:通过公式(2.9)计算t年的更新门的状态rt;

步骤4.1.3:通过公式(2.10)计算t年的更新门单元的状态ht;

步骤4.1.4:通过公式(2.11)计算x的导师概率PT。

优选地,在步骤4.2中,通过tARMM模型,采用深度神经网络,对XS、XD进行处理,得到基于类图矩阵的导师概率PF;

将XS和XD进行组合,构成一个双颜色通道的位图,称之为类图矩阵X;目标是发现类图矩阵X中的特定图形所在的行号;由于这是一个像素级的目标定位问题,所以构建一个DNN进行识别,根据感知器的计算公式,对于DNN中的每一个节点,其输出为:

其中,wi,b为模型的权重与偏移量参数,pi为每个节点预测出的概率值;

则DNN最终产生的基于类图矩阵的导师概率PF为DNN最后一层的输出:

PF=Relu(f(XS,XD)) (2.13);

具体步骤如下:

Input:论文合著矩阵XS和XD;

Output:基于类图矩阵的导师概率PF;

步骤4.2.1:初始化PF为零矩阵;

步骤4.2.2:通过公式(2.12)计算DNN中每个节点的输出;

步骤4.2.3:通过公式(2.13)计算概率PF。

优选地,在步骤4.3中,将PT和PF通过全连接层生成最终的导师概率矩阵,从中选取最高的概率值P,其对应的候选导师即为x的预测导师;

P=σ(PF·PT) (2.14)。

本发明所带来的有益技术效果:

本发明借鉴了长短时记忆模型(LSTM)和逻辑门循环单元(GRU)等变体循环神经网络(RNN)模型的理论,将RNN进行改造,提出更新门循环单元(RGRU),用于处理合著矩阵中的时间结构;由于RGRU仅具有一个门单元,在结构上比LSTM和GRU更简单,但在“导师-学生”关系的挖掘问题上具有更高的准确性;

本发明采用深度学习的思想处理论文合著网络中的“导师-学生”关系挖掘问题,提出时间依赖的“导师-学生”关系挖掘神经网络(tARMM),该模型在数据集上的预测准确度高于其他方法,能达到95%左右,对于其他具有时间依赖性的社会关系挖掘具有一定的借鉴意义和参考价值。

附图说明

图1为“导师-学生”关系挖掘示意图。

图2为tARMM示意图。

图3为RGRU示意图。

图4(a)为XS的类图矩阵示意图。

图4(b)为XD的类图矩阵示意图。

图5为DNN示意图。

图6为全连接层示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明:

1、问题的形式化定义

在这部分,给出本文中的一些基础符号和定义。

表1.1主要的符号及其含义

定义1学者发表网络G

将时间依赖的学者发表网络形式化表示为一个二部图,令G=(A,P,E),其中表示学者发表网络中所有作者的集合;是所有论文的集合;E={eik|1<=i<=na,1<=k<=np,ai是pk的作者},表示学者发表网络中的作者与论文的著作关系。

定义2论文合著网络G’

从G中生成G’=(A’,E’,{pnij}eij∈E’),其中,是作者集合,a0是一虚拟作者,对于作者ai,假设其导师为如果那么认为E’={eij|1<=i<=na,1<=j<=na,ai和aj具有合作关系且ai≠aj}。pnij是与eij相关的一个向量,pnij∈R1×40表示ai和aj在某一个时间域内合著的论文数量。对于单个作者来说,使用pni可以表示作者ai论文发表情况。

定义3论文合著矩阵C

对于A中任意一作者x,假设其与m位作者具有合著关系,合作者集合用Ax表示,Ax={b0,b1,b2,···,bm},其中b0=a0。若在某一年t中,x与bj合著的论文数为则对于作者x,有合著矩阵:

其中,T为作者合作的总体时间域,本文以一年为一个时间跨度,若作者合著时间为[1970,2010],共40年,则在上述矩阵中T=39,合著矩阵C∈R(m+1)×40

定义4导师学生关系R

令R={yij|0<=i<=na,0<=j<=na},表示作者之间是否是“导师-学生”关系,其具体取值如下:

本文的研究目标就是从C中预测出x的导师yx,这需要解决谁是x的导师、以多大的概率为x的导师这两个问题。

2模型构建

2.1合著矩阵的构建

为了挖掘“导师-学生”关系,首先从原始的学者发表网络G中生成论文合著网络G’,然后从中提取合著矩阵((如图1示))。

对于论文的合著情况,可以从如下两个方面进行分析:

第一方面从合著的详细情况进行分析,对于作者x,有合著矩阵C表示x与其候选导师之间的合著论文发表情况。

候选导师的论文发表情况用D表示:

作者x的论文发表情况pnx用S表示:

S=(S0 … ST-1) (2.3);

于是,分别利用作者和候选导师的论文发表情况对合著矩阵C进行归一化处理:

XS=C·S (2.5);

XD=D·S (2.6);

XS和XD分别为基于学生的合著子矩阵和基于导师的合著子矩阵。对于XSij∈XS,表示在第j年中作者x与其候选导师bi合著论文数占作者x第j年总论文数的比例。XDij∈XD表示在第j年中作者x与其候选导师bi合著论文数占候选导师bi第j年总论文数的比例。

第二方面,从合著的时间角度出发,根据合著矩阵C将合著情况的时间结构以矩阵的形式进行表示,具体定义如下:

XT成为基于时间结构的合著子矩阵,其含义是用矩阵的形式表示作者x与其候选导师之间合著论文的时间结构。

2.2时间依赖的关系挖掘模型构建

本节我们提出一种时间依赖的关系挖掘神经网络模型tARMM(如图2所示),该模型通过分别对XT和XS、XD进行处理,得到基于时间结构和基于类图矩阵的导师概率矩阵,然后通过全连接层生成最终的导师概率矩阵。在对XT进行处理时,设计逆时间的更新门循环单元,对于XS和XD进行处理时,采用深度神经网络。

2.2.1基于RGRU的概率计算方法

本文在标准RNN基础上增设一更新门单元,形成只有一个更新门的循环神经网络,称之为更新门循环单元RGRU(如图3所示)。对于基于发表时间的合著矩阵XT,通过公式(2.7)可知在矩阵中,非0元素所在列越靠前,则所在行表征的候选导师具备更高的导师概率。所以将矩阵XT以列为单位反向经RGRU处理,得到基于RGRU的导师概率矩阵。

对于时刻t,有:

rt=σ(wr[ht+1,xt]+br) (2.9);

ht=wh[(1-rt)ht+1,rtxt] (2.10);

其中,rt是更新门在时间t的状态,wr是更新门的权重矩阵,br是更新门的偏移量,ht+1是更新门单元时刻t+1的状态,xt是时刻t的输入矩阵,ht是更新门单元在时间t的状态,wt和bt分别是生成状态ht的权重矩阵和偏移量;

基于RGRU的导师概率PT:

PT=hT (2.11);

其中,hT是更新门单元在时间T的状态;hT公式与ht相同。

综上所述,基于改进的更新门循环单元(RGRU)的导师概率计算如算法1所示。

2.2.2基于类图矩阵的概率计算方法

XS和XD分别从学生和候选导师两方面表征合著情况。以XS为例,将基于学生的合著矩阵看作是66×40的灰度图,采取位图方式进行显示,可以发现当其中某一行所表征的候选导师为实际导师时,在该行中会存在连续的一段像素值构成类似于“一”的特殊图像,但是在不同的位图中具有不同的特征,所以本文通过深度神经网络对位图进行处理,提取其特征矩阵,挖掘特殊图像所在的位置。图4(a)为XS类图矩阵;图4(b)为XD类图矩阵。

将XS和XD进行组合,构成一个双颜色通道的位图,称之为类图矩阵X。所以下一步的目标是发现类图矩阵X中的特定图形所在的行号。由于这是一个像素级的目标定位问题,所以构建一个DNN(如图5所示)进行识别。根据感知器的计算公式,对于DNN中的每一个节点,其输出为:

令y′为DNN中最后一层的输出。则DNN最终产生的基于类图矩阵的导师概率PF为:

PF=Relu(f(XS,XD))=y (2.13);

综上所述,DNN的实现过程可以使用如下算法描述。

最后,将PT和PF通过全连接层(如图6所示)生成最终的导师概率矩阵,从中选取最高的概率值,其对应的候选导师即为预测的导师。

P=σ(PF·PT) (2.14);

2.3模型的学习算法

本部分将介绍模型的学习算法,包括损失函数和参数的更新方法。本文所提的模型采用交叉熵作为损失函数,具体如下:

在参数的更新方面,本文是在所有的参数均被初始化之后,采用Adam方法去优化参数。Adam方法是一种自适应学习率的学习方法,可以为每个参数计算自己的学习率。其公式如下:

mt=β1mt-1+(1-β1)gt (2.16);

其中,mt是对梯度的一阶矩估计,可以看作是对期望E|gt|的估计,vt是对矩阵的二阶矩估计,可以看作是对期望的估计,和是对mt和vt的校正,近似为对期望的无偏估计。是学习率的一个动态约束。

2.4算法描述

本文提出的tARMM模型的完整算法描述如下:

3实验设计与分析

3.1实验设置

数据集。使用Michael Ley开发的DBLP计算机科学文献数据库作为实验的数据集去推测其中的“导师-学生”关系。选取其中从1970到2010年的部分,它包含有654628位作者和1076946篇出版物。作为标签数据,使用MAN,MathGP,AIGP三个数据集的并集作为验证数据集,其中MAN是通过在导师的个人主页上面爬取获得的,MathGP是从Mathematics Genealogy项目中爬取获得,AIGP是从AI Genealogy项目中爬取获得。

做了一系列的实验去探索模型在“导师-学生”关系挖掘问题上的正确性和有效性。随机从数据集中选择部分数据对模型进行训练,然后再从数据集中随机抽取数据集进行测试。

为了直观地比较推测结果,本文使用分类算法最常用的评价指标:准确率ACC,其计算公式如下:

其中,TP为真正例个数,FP为假正例个数。

实验环境为:Intel Core i5-2520M双核(2.5GHz),windows10 64位,8G内存,NVIDA GeForce GT635M显卡。编程语言为:Matlab和Python,使用TensorFlow框架。

3.2编程技术

数据预处理阶段采用Matlab编写代码,tARMM模型实现部分采用python进行编写,该部分使用了TensorFlow机器学习框架。结果的展示部分采用JavaWeb实现,网页端主要采用了百度开源的ECharts组件。

(1)TensorFlow

TensorFlow是Google开源的第二代用于数字计算的软件库,它是一个非常灵活的机器学习框架,能够运行在服务器或个人电脑甚至移动设备的单个或多个CPU和GPU上。

TensorFlow是基于数据流图的处理框架,数据流图中的节点表示数学运算,边表示运算节点之间的数据交互。TensorFlow中Tensor表示节点之间传输的数据,Flow表示数据流,就是Tensor按照流的形式进入数据运算图的各个节点。

在编程时需要使用图(graph)表示计算任务,然后在称为会话(Session)的上下文(Context)中执行图,同时,使用tensor表示数据,通过变量(Variable)维护状态,使用feed或者fetch为任意操作赋值或者从中获取数据。

(2)Echarts

Echarts是一个纯javascript的图标库,将其嵌入到html网页当中,可以在计算机和移动设备上流畅运行,兼容当前绝大多数的浏览器,底层实现依赖于轻量级的Canvas类库Zrender,提供生动、直观、可交互、可高度个性化的数据可视化图标。文本使用Echarts用于实验结果的展示。

3.3实验结果

对于深度学习来说,不同的优化方法将会对训练的效率和有效性有不同的影响。一般来说,普遍使用梯度下降法作为模型的训练方法。梯度下降又有多种分类,其中批量梯度下降法BGD是梯度下降法中最原始的形式,具体思路是使用所有的样本来更新每一个参数。由于批量梯度下降法在更新每一个参数时,都需要所有的训练样本,所以训练过程会随着样本数量的增加而变得越来越缓慢。随机梯度下降法SGD正是为了解决批量梯度下降法这一弊端而提出的,本文即采用了随机梯度下降法来训练模型。

3.3.1 RGRU的有效性

为了证明RGRU的有效性,单独使用RNN、LSTM和更新门循环单元RGRU进行试验,得到的结果如下:

表3.2不同神经网络的表现

通过实验可以看出RGRU比单纯的循环神经网络和长短时记忆模型在“导师-学生”关系的挖掘问题上具有更高的准确性。证明对循环神经网络的改进是正确有效的。

3.3.2 tARMM与其他算法的比较

在该部分,选取针对“导师-学生”关系问题提出的TPFG模型和用于分类的SVM模型与本文提出的tARMM模型作对比。进行多次试验,取平均值,结果如下:

表3.3不同算法的结果比较

通过实验可以看出,tARMM模型的准确率是高于SVM和TPFG的,进一步证明tARMM模型的正确性。

4总结与展望

本文研究了论文合著网络中“导师-学生”关系的识别问题。针对该问题,首先通过对数据的预处理生成合著矩阵,然后建立tARMM模型处理合著矩阵挖掘“导师-学生”关系。在tARMM模型中对RNN进行改造生成RGRU,该单元可挖掘具有时间依赖性的关系。利用DBLP中的数据进行实验,证明了tARMM模型的正确性和有效性。

在该研究中,由于带标签的数据集无法涵盖整个DBLP数据库,所以存在一定的误差。对此,后期将通过扩大带标签的数据集对模型进行改进,提高模型的准确性。同时,本模型对具有时间依赖性的社会关系具有一定的拓展性,后期将针对不同的社交媒体对模型做进一步的改进,提高模型的通用性。

当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1