一种异质信息网络嵌入方法、装置、电子设备及存储介质与流程

文档序号:17762665发布日期:2019-05-24 21:50阅读:211来源:国知局
一种异质信息网络嵌入方法、装置、电子设备及存储介质与流程

本发明涉及信息技术领域,特别是涉及一种异质信息网络嵌入方法、装置、电子设备及存储介质。



背景技术:

异质信息网络(hin,heterogeneousinformationnetwork)嵌入旨在将多类型的节点嵌入到一个低维度的向量空间。由于网络嵌入可以有效地学习网络内在特性的隐含特征,它为网络分析提供了一种新颖的角度。

现有的异质信息网络嵌入的方法为,以异质信息网络中任一节点为起点,延与该节点相连接的任一元路径随机游走,生成节点序列。计算该节点序列中相邻节点的最大相似性,实现得到该节点序列中每个节点的嵌入向量。

然而,发明人发现,现有的异质信息网络嵌入方法中,将所有节点和边使用相同的处理方式计算相似性。但在实际场景中,该异质信息网络包含多种类型的节点和边,例如dblp(databasesystemsandlogicprogramming,数据库系统和逻辑编程)学术网络为例,例如图1所示的本发明实施例的一种异质信息网络拓扑结构图,其中包含四种类型的节点:作者(author,a)、论文(paper,p)、会议(conference,c)和关键词(term,t)。网络中还包含多种类型的关系:写作/被写关系(writing/written)和发表/被发表关系(publish/published)等。此外,还有由元路径表示的一些复杂关系,例如apa(合作关系)和apc(作者在会议上发表论文)等。直接将所有节点和边使用相同的处理方式计算相似性,得到每个节点的嵌入向量,必然忽略了节点的自身特性,使得得到的异质信息网络嵌入的结果并不能很好地满足后续应用的需求。



技术实现要素:

本发明实施例的目的在于提供一种异质信息网络嵌入方法、装置、电子设备及存储介质,以实现对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。具体技术方案如下:

第一方面,本发明实施例公开了一种异质信息网络嵌入方法,所述方法包括:

获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系;

按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;所述目标关系为隶属关系或交互关系;

针对所述隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;

针对所述交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的所述异质信息网络嵌入模型的交互关系模型中;

在所述异质信息网络嵌入模型值最小时,分别输出所述待处理异质信息网络中各节点的目标嵌入向量。

可选地,按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:

按照各所述节点的节点类型以及各所述节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;

按照所述节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。

可选地,所述按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:

将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;

针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;

按照所述稀疏度值的大小,确定各类型节点关系元组的目标关系。

可选地,预先确定所述异质信息网络嵌入模型的步骤,包括:

获取隶属关系各正样本、交互关系各正样本以及预设各负样本;所述正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;所述负样本为所述样本异质信息网络中不存在节点间连接关系的节点关系元组;

针对所述隶属关系,分别确定所述隶属关系各正样本的隶属相似性函数,以及确定各所述负样本的隶属相似性函数:

通过所述隶属关系各正样本的隶属相似性函数、所述负样本的隶属相似性函数,确定所述隶属关系损失函数;

针对所述交互关系,分别确定所述交互关系各正样本的交互相似性函数,以及确定各所述负样本的交互相似性函数:

通过所述交互关系各正样本的交互相似性函数、所述负样本的交互相似性函数,确定所述交互关系损失函数;

对所述隶属关系损失函数、所述交互关系损失函数求和,得到异质信息网络嵌入模型。

可选地,所述隶属相似性函数表示为:

其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;xp表示所述隶属关系正样本中节点p的初始嵌入向量;xq表示所述隶属关系正样本中节点q的初始嵌入向量;wpq表示所述节点p与所述节点q的节点间连接关系的权重值;

所述隶属关系损失函数表示为:

其中,leuar表示所述隶属关系损失函数;s∈rar表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈par表示隶属关系正样本;<p′,s,q′>∈p′ar表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一所述隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一所述负样本的隶属相似性函数;

所述交互相似性函数表示为:

g(u,v)=wu,v||xu+yr-xv||

其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;xu表示所述交互关系正样本中节点u的初始嵌入向量;xv表示所述交互关系正样本中节点v的初始嵌入向量;yr表示所述交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示所述节点u与所述节点v的节点间连接关系的权重值;

所述交互关系损失函数表示为:

其中,ltrir表示所述交互关系损失函数;r∈rir表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈pir表示交互关系正样本;<u′,r,v′>∈p′ir表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一所述交互关系正样本的交互相似性函数;f(u′,v′)表示任一所述负样本的交互相似性函数。

第二方面,本发明实施例公开了一种异质信息网络嵌入装置,所述装置包括:

节点信息获取模块,用于获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系;

目标关系确定模块,用于按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;所述目标关系为隶属关系或交互关系;

隶属关系节点关系元组输入模块,用于针对所述隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;

交互关系节点关系元组输入模块,用于针对所述交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的所述异质信息网络嵌入模型的交互关系模型中;

目标嵌入向量输出模块,用于在所述异质信息网络嵌入模型值最小时,分别输出所述待处理异质信息网络中各节点的目标嵌入向量。

可选地,所述目标关系确定模块,包括:

平均度值计算子模块,用于按照各所述节点的节点类型以及各所述节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;

第一目标关系确定子模块,用于按照所述节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。

可选地,所述目标关系确定模块,包括:

节点关系元组分类子模块,用于将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;

稀疏度值计算子模块,用于针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;

第二目标关系确定子模块,用于按照所述稀疏度值的大小,确定各类型节点关系元组的目标关系。

可选地,所述装置还包括:

样本获取模块,用于获取隶属关系各正样本、交互关系各正样本以及预设各负样本;所述正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;所述负样本为所述样本异质信息网络中不存在节点间连接关系的节点关系元组;

隶属相似性函数确定模块,用于针对所述隶属关系,分别确定所述隶属关系各正样本的隶属相似性函数,以及确定各所述负样本的隶属相似性函数:

隶属关系损失函数确定模块,用于通过所述隶属关系各正样本的隶属相似性函数、所述负样本的隶属相似性函数,确定所述隶属关系损失函数;

交互相似性函数确定模块,用于针对所述交互关系,分别确定所述交互关系各正样本的交互相似性函数,以及确定各所述负样本的交互相似性函数:

交互关系损失函数确定模块,用于通过所述交互关系各正样本的交互相似性函数、所述负样本的交互相似性函数,确定所述交互关系损失函数;

异质信息网络嵌入模型确定模块,用于对所述隶属关系损失函数、所述交互关系损失函数求和,得到异质信息网络嵌入模型。

可选地,所述隶属相似性函数表示为:

其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;xp表示所述隶属关系正样本中节点p的初始嵌入向量;xq表示所述隶属关系正样本中节点q的初始嵌入向量;wpq表示所述节点p与所述节点q的节点间连接关系的权重值;

所述隶属关系损失函数表示为:

其中,leuar表示所述隶属关系损失函数;s∈rar表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈par表示隶属关系正样本;<p′,s,q′>∈p′ar表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一所述隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一所述负样本的隶属相似性函数;

所述交互相似性函数表示为:

g(u,v)=wu,v||xu+yr-xv||

其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;xu表示所述交互关系正样本中节点u的初始嵌入向量;xv表示所述交互关系正样本中节点v的初始嵌入向量;yr表示所述交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示所述节点u与所述节点v的节点间连接关系的权重值;

所述交互关系损失函数表示为:

其中,ltrir表示所述交互关系损失函数;r∈rir表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈pir表示交互关系正样本;<u′,r,v′>∈p′ir表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一所述交互关系正样本的交互相似性函数;f(u′,v′)表示任一所述负样本的交互相似性函数。

第三方面,本发明实施例公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中、所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;

所述存储器,用于存放计算机程序;

所述处理器,用于执行存储器上所存放的程序时,实现上述异质信息网络嵌入方法中任一所述的方法步骤。

又一方面,本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述异质信息网络嵌入方法中任一所述的方法步骤。

又一方面,本发明实施例公开了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述异质信息网络嵌入方法中任一所述的方法步骤。

在本发明实施例的一种异质信息网络嵌入方法、装置、电子设备及存储介质中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种异质信息网络拓扑结构;

图2为现有技术中使用单一模型得到节点的嵌入向量的方法结构图;

图3为本发明实施例中采用多个针对性模型得到节点的嵌入向量的方法结构图;

图4为本发明实施例的一种异质信息网络嵌入方法流程图;

图5为本发明实施例的一种异质信息网络嵌入方法中异质信息网络数据表;

图6为本发明实施例的一种异质信息网络嵌入装置结构示意图;

图7为本发明实施例的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

由于网络嵌入可以有效地学习网络内在特性的隐含特征,它为网络分析提供了一种新颖的角度。例如图1所示的本发明实施例的一种异质信息网络拓扑结构,其中包含四种类型的节点:作者(author,a)、论文(paper,p)、会议(conference,c)和关键词(term,t),以及节点间连接关系,写作/被写关系(writing/written)和发表/被发表关系(publish/published)等。

为了建模网络的异质性,现有的异质信息网络嵌入的方法为,以异质信息网络中任一节点为起点,延与该节点相连接的任一元路径随机游走,生成节点序列。计算该节点序列中相邻节点的最大相似性,实现得到该节点序列中每个节点的嵌入向量。另外还有一些基于神经网络的方法,这些方法学习用于网络嵌入的非线性映射函数,进而得到每个节点的嵌入向量。虽然这些方法考虑了网络的异质性,但是他们通常有一个假设:通过使得两个节点的表示相互靠近,单一的模型可以处理所有的关系和节点,如图2所示的现有技术中使用单一模型得到节点的嵌入向量的方法结构图。

由图1可知,该异质信息网络结构包含原子关系(如,ap和pc)和复合关系(如,apa和apc)。显然地,ap关系和pc关系表现出相当不同的结构特征。也就是说,在ap关系中,一些作者写了一些论文,这表明了一种peer-to-peer的对等结。而在pc关系中,很多论文发表于同一个会议,这反映了一种one-centered-by-another的结构特征。同样地,apa和apc分别表示了peer-to-peer和one-centered-by-another的结构特征。直接通过图2所示的单一模型计算相邻节点间有连接关系的节点的相似性,必然忽略了节点的自身特性,使得得到的异质信息网络嵌入的结果并不能很好地满足后续应用的需求。

因此,本发明实施例中首先通过透彻的数学分析,探索了异质信息网络中关系的结构特征,并且提出了两个结构相关的度量方法。这两个方法可以将多样的关系一致地划分为两类:表示one-centered-by-another结构的隶属关系(affiliationrelations,ars)和表示peer-to-peer结构的交互关系(interactionrelations,irs)。为了捕获关系中有差异的结构特征,本发明实施例对于隶属关系的节点关系元组,设置了隶属关系模型,通过隶属关系模型计算节点关系元组中节点间的欧式距离,以此保证节点在隐含空间中直接相近。另一方面,对于桥接两个对等节点的交互关系关系,设置了交互关系模型,通过交互关系模型将这类关系的节点关系元组建模为节点间的翻译。由于隶属关系模型与交互关系模型在数学形式上是一致的,它们可以以统一的方式联合优化求解,进而得到本发明实施例的异质信息网络嵌入模型,最后优化该异质信息网络嵌入模型,得到该异质信息网络嵌入模型最小值对应的待处理异质信息网络中各节点的目标嵌入向量。如图3所示的本发明实施例中采用多个针对性模型得到节点的嵌入向量的方法结构图。具体实施方式如下:

第一方面,本发明实施例公开了一种异质信息网络嵌入方法,如图4所示。图4为本发明实施例的一种异质信息网络嵌入方法流程图,方法包括:

s401,获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系。

一个异质信息网络通常被定义为一个图其中v和e分别是节点和边的集合。每个节点v和边e都存在它们的类型映射函数:φ:v→tv和tv和te表示节点和边的类型的集合,其中|tv|+|te|>2并且t=tv∪te。异质信息网络嵌入表示给定一个异质信息网络进而学习一个映射函数其可以将每个节点v∈v映射到一个低维的向量空间其中d《|v|。

本步骤中,根据待处理异质信息网络的拓扑结构,获得拓扑结构中包含的各节点的节点类型、以及各节点间连接关系。或者根据待处理异质信息网络的数据表,获得数据表中包含的各节点的节点类型、以及各节点间连接关系。

例如图5所示的本发明实施例的一种异质信息网络嵌入方法中异质信息网络数据表。该数据表中包含学术异质信息网络dblp、社交异质信息网络yelp以及学术异质信息网络aminer。其中,dblp的各节点的节点类型为:作者(author,a)、论文(paper,p)、会议(conference,c)和关键词(term,t),各节点间连接关系为:{ap,pc,pt,apc,apt};yelp的各节点的节点类型为:用户(user,u)、商店(business,b)、预定类型(reservation,r)、服务类型(service,s)和星级(starlevel,l),各节点间连接关系为:{br,bs,bl,ub,bub};aminer的各节点的节点类型为:作者(author,a)、论文(paper,p)、会议(conference,c)和引用(reference,r);各节点间连接关系为{ap,pc,pr,apc,apr}。

本步骤中,可获取该异质信息网络数据表中dblp各节点的节点类型:作者(author,a)、论文(paper,p)、会议(conference,c)和关键词(term,t),以及各节点间连接关系:{ap,pc,pt,apc,apt}。其中,ap表示作者a写作论文p,或者论文p被作者a所写关系;pc表示会议c上发表论文p,或者论文p被发表在会议c上;pt表示论文p包含关键词t;

apc表示作者a写作的论文p发表在会议c上;apt表示作者a写作论文p,包含关键词ts402,按照各节点的节点类型以及各节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;目标关系为隶属关系或交互关系。

本发明实施例中,在一个异质信息网络中,节点间连接关系r包括原子关系(例如,链接)和复合关系(例如,元路径,元路径定义为一个由节点类型或者边类型构成的序列简写为元路径描述了节点v1和vl+1之间的复杂关系)。一个节点关系元组可描述为<u,r,v>,描述了两个节点u和v的节点间连接关系为r;<u,r,v>∈p,p表示节点关系元组集合。例如,图1中<a2,apc,c2>为一个节点关系元组,表示a1写了一篇论文并发表在c2上。

本步骤中,对各节点间连接关系以及对应节点形成的节点关系元组进行针对性的分析,确定每个节点关系元组是隶属关系或交互关系。

可选地,上述s202中按照各节点的节点类型以及各节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:

步骤一,按照各节点的节点类型以及各节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;

由于节点的度可以很好地反映网络的结构,本发明中定义了一个基于度的度量d(r)来研究异质信息网络中关系的差异性。具体地,计算由节点间连接关系r连接的两种类型节点的平均度。

形式化地,给定一个节点间连接关系r以及节点u和v(即,节点关系元组<u,r,v>),tu和tv分别是节点u和节点v的节点类型,则本步骤中可计算节点间连接关系对应节点的平均度值d(r),具体计算公式如下:

其中,是节点类型为tu的节点u的平均度值;是节点类型为tv的节点v的平均度值。

步骤二,按照节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。

节点间连接关系对应节点的平均度值d(r)的数值大,表示由节点间连接关系r连接的节点u和节点v之间的一种相当不等价的结构(one-centered-by-another)。而d(r)的数值小,表明一种对等的结构(peer-to-peer)。换言之,d(r)数值大的关系表现出很强的隶属关系,由此类节点间连接关系连接的节点通常共享更多相似的特性;d(r)数值小的关系表示了一种相当强的交互关系。

因此,本步骤中可按照节点间连接关系对应节点的平均度值的大小,将每个节点关系元组对应划分为隶属关系(affiliationrelations,ar)或交互关系(interactionrelations,ir)。

为了更好地理解多种关系间的结构差异,可以图5中dblp为例说明。如图5中所示,对于pc关系,其d(pc)=718.8,类型为p的节点的平均度为1.0;类型为c的节点的平均度是718.8。这表明论文和会议在结构上是不对等的,论文环绕会议。不同的,d(ap)=1.0表示作者和论文之间是一种对等的(peer-to-peer)结构关系,这和我们的常识也是一致的。在语义上,pc关系表示“论文发表在会议上”,暗示一种隶属关系ar,而ap关系表示“作者书写论文”,其明显地描述了一种交互关系ir。

可选地,上述s402中按照各节点的节点类型以及各节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系,包括:

步骤a,将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;

另外,本发明实施例中还可通过节点关系元组的稀疏度值对网络的结构进行分析。

本步骤中,将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类。

例如,图1所示的异质信息网络拓扑图中,存在节点关系元组<a1,ap,p1)、<a2,ap,p4>、<a1,apc,c1>;<a3,apc,c2>,则可按照节点间连接关系对节点关系元组分类为:ap:<a1,ap,p1>、<a2,ap,p4>;apc:<a1,apc,c1>;<a3,apc,c2>。

步骤b,针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;

本步骤中可通过如下公式计算该类型节点关系元组的稀疏度值s(r):

其中,nr表示该类型节点关系元组的数量,表示节点类型为tu的节点的数量;表示节点类型为tv的节点的数量。

按照上述计算公式可计算出每种类型节点关系元组的稀疏度值。

步骤c,按照稀疏度值的大小,确定各类型节点关系元组的目标关系。

可以图5中dblp为例说明,s(pc)=0.05;s(ap)=0.0002。在语义上,pc关系表示“论文发表在会议上”,暗示一种隶属关系ar,而ap关系表示“作者书写论文”,其明显地描述了一种交互关系ir。

显然地,隶属关系(ar)和交互关系(ir)表现出相当不同的特征:(1)ar表示了one-centered-by-another的结构,关系中的两类节点的平均度值差异非常大,其稀疏度值较大。(2)ir描述了peer-to-peer的结构,关系中的两类节点的平均度是对等的,其稀疏度值较小。

s403,针对隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中。

上述s402中已将待处理异质信息网络中包含的节点关系元组分成了隶属关系ar以及交互关系ir。ar表现了节点之间的隶属结构,其表明由此类关系连接的节点共享相似的特性,因此,本发明实施例中针对ar设置了隶属关系模型,在表示向量空间中,由ar连接的节点可以直接相互靠近,这和欧式距离的优化目标也是一致的。ir表明了对等节点之间的强烈交互关系,关系本身包含了节点间重要的结构信息。因此,本发明实施例中针对ir设置了交互关系模型,将ir关系建模为节点间的翻译操作。

此外,基于翻译的距离与欧式距离在数学形式上是一致的,因此它们可以容易地结合并联合优化求解,进而得到本发明实施例的异质信息网络嵌入模型。具体预先建立异质信息网络嵌入模型的方法,以下实施例详细说明。

本步骤中,针对隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中。

s404,针对交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的交互关系模型中。

s405,在异质信息网络嵌入模型值最小时,分别输出待处理异质信息网络中各节点的目标嵌入向量。

在本发明实施例的一种异质信息网络嵌入方法中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。

可选地,在本发明异质信息网络嵌入方法的一种实施例中,预先确定异质信息网络嵌入模型的步骤,包括:

步骤a,获取隶属关系各正样本、交互关系各正样本以及预设各负样本;正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;负样本为样本异质信息网络中不存在节点间连接关系的节点关系元组;

如表1所示,ar和ir的分布是相当不平衡的,而且两类关系包含的节点关系元组中节点间连接关系分布也是不平衡的。传统的边采样可能会导致数量较少的边过采样,而数量较多的边欠采样。为了解决这一问题,本发明中根据节点关系元组中节点间连接关系的概率分布采样正样本,正样本为样本异质信息网络中存在节点间连接关系的节点关系元组。

对于负样本,可预先建立负的节点关系元组集合p′u,r,v={(u′,r,v)|u′∈v}∪{(u,r,v′)|v′∈v},通过随机替换节点关系元组中头节点或替换尾节点,但不同时替换头节点或尾节点,进而得到预设的各负样本,负样本为样本异质信息网络中不存在节点间连接关系的节点关系元组。

步骤b,针对隶属关系,分别确定隶属关系各正样本的隶属相似性函数,以及确定各负样本的隶属相似性函数:

由隶属关系ar连接的节点共享相似的特性,因此在表示向量空间中,可直接使得节点相互靠近。因此,本发明实施例中可以欧式距离作为度量节点之间隶属相似性函数的依据。

可选地,隶属相似性函数表示为:

其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;xp表示隶属关系正样本中节点p的初始嵌入向量;xq表示隶属关系正样本中节点q的初始嵌入向量;wpq表示节点p与节点q的节点间连接关系的权重值;

通过上述公式可表示出所有隶属关系正样本中节点间隶属相似性函数,并通过上述公式表示出所有负样本中节点间隶属相似性函数。

步骤c,通过隶属关系各正样本的隶属相似性函数、负样本的隶属相似性函数,确定隶属关系损失函数;

可选地,隶属关系损失函数表示为:

其中,leuar表示隶属关系损失函数;s∈rar表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈par表示隶属关系正样本;<p′,s,q′>∈p′ar表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一负样本的隶属相似性函数。

步骤d,针对交互关系,分别确定交互关系各正样本的交互相似性函数,以及确定各负样本的交互相似性函数。

可选地,交互相似性函数表示为:

g(u,v)=wu,v||xu+yr-xv||

其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;xu表示交互关系正样本中节点u的初始嵌入向量;xv表示交互关系正样本中节点v的初始嵌入向量;yr表示交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示节点u与节点v的节点间连接关系的权重值。

通过上述公式可表示出所有隶属关系正样本中节点间交互相似性函数,并通过上述公式表示出所有负样本中节点间交互相似性函数。

步骤e,通过交互关系各正样本的交互相似性函数、负样本的交互相似性函数,确定交互关系损失函数。

可选地,交互关系损失函数表示为:

其中,ltrir表示交互关系损失函数;r∈rir表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈pir表示交互关系正样本;<u′,r,v′>∈p′ir表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一交互关系正样本的交互相似性函数;f(u′,v′)表示任一负样本的交互相似性函数。

步骤f,对隶属关系损失函数、交互关系损失函数求和,得到异质信息网络嵌入模型。

可选地,异质信息网络嵌入模型l可表示如下:

本发明实施例分析了异质信息网络中关系结构特征,并且提出了两个结构相关的度量方法,将异质关系一致地划分为隶属关系和交互关系,进而分别设置了隶属关系模型和交互关系模型,通过联合隶属关系模型和交互关系模型得到了新颖的关系结构感知的异质信息网络嵌入模型。通过求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。另外,本发明实施例通过图5的三种数据集充分的实验并验证了本发明异质信息网络嵌入方法的有效性。实验结果表明了本发明实施例在多个数据挖掘任务中的表现,均显著地优于现有的网络嵌入方法。

第二方面,本发明实施例公开了一种异质信息网络嵌入装置,如图6所示。图6为本发明实施例的一种异质信息网络嵌入装置结构示意图,装置包括:

节点信息获取模块601,用于获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系;

目标关系确定模块602,用于按照各节点的节点类型以及各节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;目标关系为隶属关系或交互关系;

隶属关系节点关系元组输入模块603,用于针对隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;

交互关系节点关系元组输入模块604,用于针对交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的交互关系模型中;

目标嵌入向量输出模块605,用于在异质信息网络嵌入模型值最小时,分别输出待处理异质信息网络中各节点的目标嵌入向量。

在本发明实施例的一种异质信息网络嵌入装置中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。

可选地,在本发明异质信息网络嵌入装置的一种实施例中,目标关系确定模块602,包括:

平均度值计算子模块,用于按照各节点的节点类型以及各节点间连接关系,分别计算各节点间连接关系对应节点的平均度值;

第一目标关系确定子模块,用于按照节点间连接关系对应节点的平均度值的大小,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系。

可选地,在本发明异质信息网络嵌入装置的一种实施例中,目标关系确定模块602,包括:

节点关系元组分类子模块,用于将各节点间连接关系以及对应节点形成的节点关系元组,按照节点间连接关系进行分类;

稀疏度值计算子模块,用于针对每个类型节点关系元组,计算该类型节点关系元组的稀疏度值;

第二目标关系确定子模块,用于按照稀疏度值的大小,确定各类型节点关系元组的目标关系。

可选地,在本发明异质信息网络嵌入装置的一种实施例中,装置还包括:

样本获取模块,用于获取隶属关系各正样本、交互关系各正样本以及预设各负样本;正样本为样本异质信息网络中存在节点间连接关系的节点关系元组;负样本为样本异质信息网络中不存在节点间连接关系的节点关系元组;

隶属相似性函数确定模块,用于针对隶属关系,分别确定隶属关系各正样本的隶属相似性函数,以及确定各负样本的隶属相似性函数:

隶属关系损失函数确定模块,用于通过隶属关系各正样本的隶属相似性函数、负样本的隶属相似性函数,确定隶属关系损失函数;

交互相似性函数确定模块,用于针对交互关系,分别确定交互关系各正样本的交互相似性函数,以及确定各负样本的交互相似性函数:

交互关系损失函数确定模块,用于通过交互关系各正样本的交互相似性函数、负样本的交互相似性函数,确定交互关系损失函数;

异质信息网络嵌入模型确定模块,用于对隶属关系损失函数、交互关系损失函数求和,得到异质信息网络嵌入模型。

可选地,在本发明异质信息网络嵌入装置的一种实施例中,隶属相似性函数表示为:

其中,f(p,q)表示任一隶属关系正样本中节点间隶属相似性函数;xp表示隶属关系正样本中节点p的初始嵌入向量;xq表示隶属关系正样本中节点q的初始嵌入向量;wpq表示节点p与节点q的节点间连接关系的权重值;

隶属关系损失函数表示为:

其中,leuar表示隶属关系损失函数;s∈rar表示节点关系元组中节点间连接关系s属于隶属关系;<p,s,q>∈par表示隶属关系正样本;<p′,s,q′)∈p′ar表示任一负样本;γ表示间隔超参数,γ>0;f(p,q)表示任一隶属关系正样本的隶属相似性函数;f(p′,q′)表示任一负样本的隶属相似性函数;

交互相似性函数表示为:

g(u,v)=wu,v||xu+yr-xv||

其中,g(u,v)表示任一交互关系正样本中节点间隶属相似性函数;xu表示交互关系正样本中节点u的初始嵌入向量;xv表示交互关系正样本中节点v的初始嵌入向量;yr表示交互关系正样本中节点间连接关系r的初始嵌入向量;wu,v表示节点u与节点v的节点间连接关系的权重值;

交互关系损失函数表示为:

其中,ltrir表示交互关系损失函数;r∈rir表示节点关系元组中节点间连接关系r属于交互关系;<u,r,v>∈pir表示交互关系正样本;<u′,r,v′>∈p′ir表示任一负样本;γ表示间隔超参数,γ>0;f(u,v)表示任一交互关系正样本的交互相似性函数;f(u′,v′)表示任一负样本的交互相似性函数。

第三方面,本发明实施例公开了一种电子设备,如图7所示。图7为本发明实施例的一种电子设备结构示意图,包括处理器701、通信接口702、存储器703和通信总线704,其中、处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;

存储器703,用于存放计算机程序;

处理器701,用于执行存储器上所存放的程序时,实现以下方法步骤:

获取待处理异质信息网络中包含的各节点的节点类型、以及各节点间连接关系;

按照各所述节点的节点类型以及各所述节点间连接关系,确定各节点间连接关系以及对应节点形成的节点关系元组对应的目标关系;所述目标关系为隶属关系或交互关系;

针对所述隶属关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的异质信息网络嵌入模型的隶属关系模型中;

针对所述交互关系的各节点关系元组,将该节点关系元组中节点间连接关系的初始嵌入向量、该节点关系元组中各节点的初始嵌入向量,输入到预先确定的所述异质信息网络嵌入模型的交互关系模型中;

在所述异质信息网络嵌入模型值最小时,分别输出所述待处理异质信息网络中各节点的目标嵌入向量。

上述电子设备提到的通信总线704可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口702用于上述电子设备与其他设备之间的通信。

存储器703可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器703还可以是至少一个位于远离前述处理器701的存储装置。

上述的处理器701可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明实施例的一种电子设备中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。

又一方面,本发明实施例公开了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现上述异质信息网络嵌入方法中任一的方法步骤。

在本发明实施例的一种计算机可读存储介质中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。

又一方面,本发明实施例公开了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述异质信息网络嵌入方法中任一的方法步骤。

在本发明实施例的一种包含指令的计算机程序产品中,通过分析异质网络中关系结构特征,进而将各节点间连接关系以及对应节点形成的节点关系元组分为隶属关系或交互关系。由于隶属关系的节点共享相似的特性,隶属关系连接的节点可以直接相互靠近,本发明对此设置了隶属关系模型;交互关系之间的节点表现为强烈交互关系,本发明对此设置了交互关系模型。通过联合隶属关系模型以及交互关系模型得到异质信息网络嵌入模型,进而求解该异质信息网络嵌入模型的最小值,实现得到待处理异质信息网络中各节点的目标嵌入向量。本发明基于异质信息网络本身的结构特性,实现了对异质信息网络中各节点进行针对性的网络嵌入分析,使得得到的异质信息网络嵌入的结果更好地满足后续应用的需求。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1