一种实现图嵌入的方法、装置、计算机存储介质及终端与流程

文档序号:21976628发布日期:2020-08-25 19:09阅读:88来源:国知局
一种实现图嵌入的方法、装置、计算机存储介质及终端与流程

本文涉及但不限于知识图谱技术,尤指一种实现图嵌入的方法、装置、计算机存储介质及终端。



背景技术:

复杂网络能够用于表示人际关系网、引文网络等复杂系统。近些年在复杂网络研究领域涌现出许多新任务,例如社团发现、链路预测和智能推荐等;复杂网络的研究通常依赖于网络的统计特性或者人工设定的特征,在处理任务时不够灵活高效。图嵌入为复杂网络的研究提供了新的思路。

图是一种数据结构,多数复杂网络能够通过图来表示;图包含节点的集合与节点之间连边的集合,节点的特征用特征矩阵表示,节点之间的连接关系用邻接矩阵表示;利用邻接矩阵和特征矩阵中的信息为图中节点学习到有效的表示或编码即图数据的嵌入,简称图嵌入;在图g=(v,e)中,v={v1,v2,…,vn}为节点的集合,n为图中的总节点数;e为节点之间连边的集合,节点连边的定义为(vi,vj)∈e;i,j∈[n];式中[n]为从1到n的整数组成的集合。图嵌入即将图中的节点表示成低维向量f:vi→vj∈rd;i∈[n],d≤n。图嵌入可作为下游机器学习或数据挖掘任务的输入。

当前,如何提升图数据的嵌入质量,是本领域技术人员关注的一个问题。



技术实现要素:

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种实现图嵌入的方法、装置、计算机存储介质及终端,能够提升图数据的嵌入质量。

本发明实施例提供了一种实现图嵌入的方法,包括:

对图中各目标节点,根据相邻节点的属性信息,构建目标节点的邻域;

基于构建的各目标节点的领域,进行图数据的嵌入处理。

另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述实现图嵌入的方法。

再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,

处理器被配置为执行存储器中的计算机程序;

所述计算机程序被所述处理器执行时实现如上述实现图嵌入的方法。

还一方面,本发明实施例还提供一种实现图嵌入的装置,包括:构建邻域单元和嵌入处理单元;其中,

构建邻域单元用于:对图中各目标节点,根据相邻节点的属性信息,构建目标节点的邻域;

嵌入处理单元用于:基于构建的各目标节点的领域,进行图数据的嵌入处理。

本申请包括:对图中各目标节点,根据相邻节点的属性信息,构建目标节点的邻域;基于构建的各目标节点的领域,进行图数据的嵌入处理。本发明实施例在构建目标节点的领域时,以相邻节点的属性作为依据,为提高构建的邻域与局部图的连接强度提供了基础,基于构建的邻域进行图嵌入,提升了图数据的嵌入质量。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1为相关技术采样邻居节点的示意图;

图2为本发明实施例聚合示意图;

图3为本发明实施例实现图嵌入的方法的流程图;

图4为本发明实施例实现图嵌入的装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

反馈式半监督图嵌入学习(graphsage,revisitingsemi-supervisedlearningwithgraphembedding)代表的基于深度学习的聚合式图嵌入方法,利用图卷积网络捕获局部信息,通过聚合节点的邻域信息为节点生成嵌入;图1为相关技术采样邻居节点的示意图,如图1所示,针对目标节点,采样一定数量的一度邻居节点作为其邻域,邻域中的一度邻居节点再以相同的方式采样更远处的二度节点图中的k表示邻域搜索深度;在采样结束后,通过神经网络的层级传播机制将被采样节点的特征信息由远及近地聚合到目标节点上,图2为本发明实施例聚合示意图,如图2所示,聚合后的信息经过学习,演变为能表征节点特征的嵌入。为了简化节点的选择过程,在训练模型时增加负样本,即在各目标节点的邻居节点集中随机采样部分节点作为其邻域;采用随机采样获得领域的方法运算复杂度虽低,但是却忽略了邻居节点自身性质的差异,从而影响了图数据的嵌入质量。

图3为本发明实施例实现图嵌入的方法的流程图,如图3所示,包括:

步骤301、对图中的每一个目标节点,根据相邻节点的属性信息,构建目标节点的邻域;

在一种示例性实施例中,属性信息包括群聚系数值。群聚系数值是邻居节点的重要属性之一,能够反映邻居节点在图中的重要程度;一般的,群聚系数值较大的邻居节点包含更多的局部结构信息,对生成有效的图嵌入更有帮助。相应地,步骤301中的构建目标节点的邻域包括:

对目标节点,选取群聚系数值最大的第一预设数量的邻居节点组成构建目标节点邻域的第一节点集合;隐藏群聚系数值最小的第二预设数量的邻居节点后,从被选取和被隐藏以外的其他邻居节点中随机选取第三预设数量的邻居节点组成构建目标节点邻域的第二节点集合;

根据选取的第一节点集合和第二节点集合,构建目标节点的邻域。

需要说明的是,构建的目标节点的邻域中包含邻居节点的节点数可以参照相关原理确定,邻域中包含邻居节点的节点数等于第一节点集合和第二节点集合中包含的邻居节点数量的和;本发明实施例用于构建邻域的邻居节点与被隐藏的邻居节点的节点数之和,小于目标节点包含的所有邻居节点的总数,即第二节点集合是由大于第三预设数量的邻居节点中随机选取获得的。另外,确定用于构建邻域的邻居节点后,本发明实施例可以参照本领域技术人员公知方式进行邻域构建。

在一种示例性实施例中,本发明实施例属性信息还可以包括点介数和度值等信息,可以由本领域技术人员分析确定。在一种示例性实施例中,第一预设数量的取值可以设定为邻域包含邻居节点的50%~80%;第二预设数量的取值可以设定为邻域包含邻居节点的50%。

假设邻域包含邻居节点数为s,即邻域大小为s,以下对构建邻域的过程进行示例:

首先,按照群聚系数值从小到大的顺序对目标节点的邻居节点进行排序;

然后,选择群聚系数值最大的p个邻居节点,作为采样的邻居节点;

接着,隐藏h个群聚系数值最小的邻居节点(通过相关技术中已有的方法标记这些群聚系数值最小的邻居节点,在采样过程中不选择这些被标记的邻居节点,即这些群聚系数值最小的邻居节点不作为样本节点,但并不删除它们);

最后,从隐藏处理后的邻居节点的集合中随机采样剩余的(s-p)个邻居节点;p个优先采样的邻居节点和(s-p)个随机采样的邻居节点可以构建目标节点的邻域。

本申请图数据中包含多个目标节点时,各目标节点的邻居节点数可以不相同,在较大的图中,邻居节点的数量庞大,需要分别对各目标节点的邻居节点进行采样,构建出大小统一、便于计算的邻域;该邻域在网络的各层中它的大小往往是固定的;通过分析发现:对图数据中每个待生成图嵌入的目标节点,各邻居节点在点介数、度值、集聚系数等属性上存在差异,表征的局部信息也不同;单纯地随机采样这些邻居节点,可能导致包含更多信息的邻居节点被忽略,或对构建嵌入没有帮助的邻居节点被选择;本发明实施例通过提高群聚系数值较大的邻居节点被采样的概率,降低了群聚系数值较小的邻居节点被采样的概率,提高了邻域与局部图的连接强度;同时,本发明实施例保留了一部分随机采样的邻居节点,保留了一定的采样随机性,避免了主观因素对采样结果产生过多的影响,防止了产生较高的倾向性误差,使得最终构建出的邻域更能代表节点的局部信息。

不同图数据中节点的平均邻居数存在差异,优先采样数和隐藏节点数可以根据图数据的具体情况进行设置。本发明实施例构建出的邻域与局部图的连接强度更大,对目标节点的局部结构的表征效果更好。

步骤302、基于构建的各目标节点的领域,进行图数据的嵌入处理。

本发明实施例根据邻居节点的属性信息进行邻域构建,为提升图嵌入的质量提供了基础;基于构建的邻域进行图嵌入,提升了图数据的嵌入质量。

在一种示例性实施例中,步骤302中的进行图数据的嵌入处理包括:

聚合构建的目标节点的邻域中包含的邻居节点的特征,获得邻域特征;

将获得的邻域特征与通过在前迭代获得的目标节点特征进行结合,获得结合特征;

通过图神经网络对获得的结合特征进行迭代聚合,以生成目标节点的表示。

需要说明的是,本发明实施例生成目标节点的表示时即完成图嵌入。目标节点的特征可以通过相关技术进行迭代处理获得。

在一种示例性实施例中,本发明实施例通过图神经网络的层级传播机制对获得的结合特征进行迭代聚合。

在一种示例性实施例中,通过图神经网络对获得的结合特征进行迭代聚合可以包括:

通过负采样算法对所述图神经网络的进行参数学习;

根据进行参数学习的图神经网络,对获得的结合特征进行迭代聚合。

本申请中,通过负采样算法对图神经网络的参数进行优化学习的方法为相关技术中的已有的实现方法,负采样算法的优化目标是最大化正样本的概率,同时最小化负样本的概率,反映在图中即鼓励相近的节点拥有相似的嵌入,同时强制相隔远的节点拥有相异的嵌入。在目标函数中采用负采样算法能够实现图的无监督学习,在学习结束时得到最终的节点嵌入,即完成图嵌入。

本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序被处理器执行时实现上述实现图嵌入的方法。

本发明实施例还提供一种终端,包括:存储器和处理器,存储器中保存有计算机程序;其中,

处理器被配置为执行存储器中的计算机程序;

计算机程序被处理器执行时实现如上述实现图嵌入的方法。

图4为本发明实施例实现图嵌入的装置的结构框图,如图4所示,包括:构建邻域单元和嵌入处理单元;其中,

构建邻域单元用于:对图中各目标节点,根据相邻节点的属性信息,构建目标节点的邻域;

在一种示例性实施例中,属性信息包括群聚系数值,构建邻域单元具体用于:

对每一个所述目标节点,选取群聚系数值最大的第一预设数量的邻居节点组成构建目标节点邻域的第一节点集合;隐藏群聚系数值最小的第二预设数量的邻居节点后,从被选取和被隐藏以外的其他邻居节点中随机选取第三预设数量的邻居节点组成构建目标节点邻域的第二节点集合;

根据选取的第一节点集合和第二节点集合,构建目标节点的邻域。

嵌入处理单元用于:基于构建的各目标节点的领域,进行图数据的嵌入处理。

在一种示例性实施例中,嵌入处理单元具体用于:

聚合构建的目标节点的邻域中包含的邻居节点的特征,获得邻域特征;

将获得的邻域特征与通过在前迭代获得的目标节点特征进行结合,获得结合特征;

通过图神经网络对获得的结合特征进行迭代聚合,以生成目标节点的表示。

在一种示例性实施例中,本发明实施例嵌入处理单元用于通过图神经网络对获得的结合特征进行迭代聚合,包括:

通过负采样算法对图神经网络的进行参数学习;

根据进行参数学习的图神经网络,对获得的结合特征进行迭代聚合。

“本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。”

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1