一种有向图嵌入表示模型的构建方法、嵌入表示学习方法

文档序号：36090154发布日期：2023-11-18 08:35阅读：74来源：国知局

本发明涉及图表示学习领域，具体来说，涉及图表示学习领域中的图嵌入技术，更具体地说，涉及一种有向图嵌入表示模型的构建方法、嵌入表示学习方法。

背景技术：

1、图是一种网状数据结构，其由非空的节点集合和一个描述节点之间关系的边集合组成，其中，节点表示实体，边表示两个节点之间的连接关系，即两个实体之间的关系。图大体可分为有向图和无向图，其中，无向图中的边没有指向性；有向图中的边具有指向性。图数据可以用来描述社交网络、通信网络以及交通网络等现实世界中的物体与物体之间的联系，并且通过对图数据分析处理可以深入了解社会结构、语言和不同的交流模式，还能够将图数据的分析结果应用在诸如推荐系统、智能问答等多种应用场景中，因此图数据一直是学界研究的热点。

2、真实的图数据往往是高维、难以处理的，为了能够处理图数据，研究人员提出了图嵌入的方法，所谓的图嵌入方法是图表示学习的一种，简单的来说就是把图数据映射到低维向量空间以获得图数据的嵌入表示(向量表示)，且在将图数据转换为嵌入表示时应尽可能的保留图数据的结构信息及其潜在的特性。

3、随着深度学习的不断发展，有研究人员提出可以采用深度学习模型对图数据进行处理以获取图数据的嵌入表示，但是图数据不同于图像、文字等结构化数据，其呈现出非欧几里得特性，难以采用传统的卷积神经网络对图数据进行特征提取，进而难以获取其嵌入表示。基于此，现有技术一般采用图神经网络对图数据进行特征提取以获取图数据中的结构知识，进而获取图数据的嵌入表示。现有的基于图神经网络的图嵌入方法主要包括两种类型，一类是基于谱域的图嵌入方法，另一类是基于空间域的图嵌入方法。

4、其中，基于谱域的图嵌入方法以参考文献[1]提出的方案为代表，采用图卷积神经网络(gcn，graph convolutional network)建模图数据中节点的邻域结构以获取图数据的嵌入表示。这类方法基于频谱分析理论，需要对称的邻接矩阵作为输入，因此这类方法在处理有向图时会加入反向链路以满足邻接矩阵的对称性，然而，图数据中链路(边)的方向在一部分现实系统中具有重要参考价值，若简单地将有向图转化为双向图会造成图数据结构信息的损失。比如在引文网络中，先发表的研究不可能引用后发表的研究，举例来说，假设在一个引文网络中文献a引用了文献b，则这种事实可以被表示为(文献a，引用，文献b)，若采用基于谱域的图嵌入方法对该引文网络构建的图数据进行处理，为了满足邻接矩阵的对称性，会在原始构建的图数据中加入(文献b，引用，文献a)这一反向链路，这样处理之后会造成反事实的信息错误，也就无法正确处理有向图中的方向性信息。

5、而基于空间域的图嵌入方法，以参考文献[2]提出的方案为代表，采用graphsage图神经网络通过链路的方向进行消息传递，逐渐更新图数据中每个节点的特征以获取图数据的嵌入表示。虽然这类方法不需要进行邻接矩阵的对称化操作，但是这类方法在处理有向图时仅将链路的方向作为消息传递的引导，忽略了有向链路之间的方向之间的复杂联系，造成了局部图结构中拓扑信息的缺失。比如，采用这类方法处理引文网络构建的图数据，当引文网络中存在文献a引用文献b，文献c引用文献b这两种事实时，这类方法仅能将文献a到文献b的引用方向以及文献c到文献b的引用方向作为消息传递的路径，无法发掘出文献a和文献c之间的相关关系(因为消息无法通过不存在的边或方向错误的边进行传播)，也就无法有效提取有向图中蕴含在链路连接方向中的复杂的拓扑信息。

6、综合上述可知，虽然现有的基于图神经网络的图嵌入方法能够对图数据进行处理并获得图数据的嵌入表示，但是现有技术中的图嵌入方法在处理有向图时至少存在以下限制之一：(1)无法正确处理有向图中的方向性信息；(2)忽略了有向图链路方向之间的拓扑结构，无法有效提取有向图中蕴含在链路连接方式中的复杂的拓扑信息，导致无法很好地获取有向图的嵌入表示，进而不利于执行与图数据相关的下游任务。

7、参考文献：

8、[1]kipf,thomas and max welling.“semi-supervised classification withgraph convolutional networks.”arxiv abs/1609.02907(2016):n.pag.

9、[2]hamilton,william l.,zhitao ying and jure leskovec.“inductiverepresentation learning on large graphs.”nips(2017).

技术实现思路

1、因此，本发明的目的在于克服上述现有技术的缺陷，提供一种有向图嵌入表示模型的构建方法、一种有向图嵌入表示学习方法和一种蛋白质分类系统。

2、本发明的目的是通过以下技术方案实现的。

3、根据本发明的第一方面，提供一种有向图嵌入表示模型的构建方法，所述方法包括：t1、构建初始模型，所述初始模型包括特征获取模块和拓扑信息聚合模块；t2、获取有向图对所述初始模型进行多轮迭代训练以得到有向图嵌入表示模型，其中，所述有向图包括多个实体和多条连接任意两实体之间的有向边，且每轮迭代训练包括：t21、通过所述特征获取模块获取所述有向图中每一实体对应的当前轮特征表示；t22、通过所述拓扑信息集合模块提取所述有向图中每一实体的拓扑信息以获取每一实体对应的当前轮拓扑表示；t23、从所述有向图的所有实体中随机选择多个实体作为多个正样本，并构建与每个正样本对应的负样本集合，其中，所述负样本集合包括多个负样本，每个负样本为从其对应正样本实体以外的实体中随机选择的实体；t24、基于步骤t21得到的每一实体对应的当前轮特征表示以及步骤t22得到的每一实体对应的当前轮拓扑表示，获取所述步骤t23中构建的每个正样本对应的当前轮特征表示和当前轮拓扑表示，以及每个负样本对应的当前轮拓扑表示；t25、基于步骤t24得到的每个正样本对应的当前轮特征表示和当前轮拓扑表示，以及每个负样本对应的当前轮拓扑表示，按照预设的损失函数计算当前轮迭代损失，并根据当前轮迭代损失更新所述初始模型的参数。

4、在本发明的一些实施例中，所述特征获取模块被配置为用于对所述有向图中的每一实体进行特征编码以获取每一实体对应的特征视角的表示。

5、在本发明的一些实施例中，所述特征获取模块包括多层串联的图神经网络。

6、在本发明的一些实施例中，所述特征获取模块包括2层图注意力网络。

7、在本发明的一些实施例中，在所述步骤t21中，所述特征获取模块被配置为采用如下方式对每一实体进行特征编码：t211、采用预设的第一函数聚合实体对应的所有一阶相邻实体的上一轮特征视角的表示，以获取该实体对应的当前轮隐层状态；t212、采用预设的第二函数聚合实体对应的所有一阶相邻实体的当前轮隐层状态，以获取该实体对应的当前轮特征视角的表示。

8、在本发明的一些实施例中，所述第一函数为：

9、

10、其中，si′表示实体ei对应的当前轮隐层状态，relu(*)表示激活函数，ni表示实体ei对应的所有一阶相邻实体组成的集合，αij表示实体ej对实体ei的重要性参数，sj表示实体ej对应的上一轮特征视角的表示；

11、所述第二函数为：

12、

13、其中，zi表示实体ei对应的当前轮特征视角的表示，leakrelu(*)表示激活函数，sj′表示实体ej对应的当前轮隐层状态；

14、其中，在每一轮迭代过程中按照如下方式计算重要性参数：

15、

16、其中，wt表示可学习参数w的转置，w表示权重矩阵，si表示实体ei对应的上一轮特征视角的表示，sk表示实体ek对应的上一轮特征视角的表示，表示串联操作。

17、在本发明的一些实施例中，在所述步骤t22中，采用如下方式提取每一实体对应的当前轮拓扑信息：t221、基于所述有向图确定实体对应的所有一阶相邻实体和所有二阶相邻实体，并基于其构建与该实体对应的子图，其中，所述子图中包括一条或多条拓扑路径，且每一条拓扑路径由实体，该实体的一阶相邻实体，该实体的二阶相邻实体，实体与该实体的一阶相邻实体之间的有向边，以及该实体的一阶相邻实体与该实体的二阶相邻实体之间的有向边构成；t222、对步骤t221得到的子图进行多次随机采样得到多条拓扑路径，并按照预设的分类规则对采样得到的每一条拓扑路径进行分类，以及将每一条拓扑路径上实体的一阶相邻实体和实体的二阶相邻实体建模为一个虚拟节点；t223、获取步骤t222采样得到的每一条拓扑路径上虚拟节点的特征表示，其中，将每一条拓扑路径上实体的一阶相邻实体的当前轮特征视角的表示和实体的二阶相邻实体的当前轮特征视角的表示拼接，以获取每一条拓扑路径上虚拟节点的特征表示；t224、采用所述拓扑信息聚合模块对步骤t223得到的每一条拓扑路径上虚拟节点的特征表示进行处理以获取每一条拓扑路径上虚拟节点的影响因子，并按照预设的第三函数对所有影响因子进行平均值池化得到实体对应的当前轮拓扑表示。

18、在本发明的一些实施例中，所述预设的分类规则为：若拓扑路径中存在由实体指向该实体的一阶相邻实体的有向边，以及该实体的二阶相邻实体指向该实体的一阶相邻实体的有向边，则将该拓扑路径归类为头对头拓扑模式；若拓扑路径中存在由实体指向该实体的一阶相邻实体的有向边，以及该实体的一阶相邻实体指向该实体的二阶相邻实体的有向边，则将该拓扑路径归类为头对尾拓扑模式；若拓扑路径中存在由该实体的一阶相邻实体指向该实体的有向边，以及该实体的二阶相邻实体指向该实体的一阶相邻实体的有向边，则将该拓扑路径归类为尾对头拓扑模式；若拓扑路径中存在由该实体的一阶相邻实体指向该实体的有向边，以及该实体的一阶相邻实体指向该实体的二阶相邻实体的有向边，则将该拓扑路径归类为尾对尾拓扑模式。

19、在本发明的一些实施例中，所述拓扑信息聚合模块包括多个子聚合网络，且每一个子聚合网络被配置为用于对一个类别的拓扑路径上的虚拟节点进行处理以获取该类拓扑路径上虚拟节点的影响因子，其中，所述每个子聚合网络均为一个多层感知机。

20、在本发明的一些实施例中，所述每个多层感知机均包括三层全连接层。

21、在本发明的一些实施例中，所述第三函数为：

22、

23、其中，z′i表示实体ei对应的当前轮拓扑表示，d表示超参数，pointplus表示向量按位相加，cj表示第j条拓扑路径上虚拟节点的影响因子，c表示所有拓扑路径上虚拟节点的影响因子构成的集合。

24、在本发明的一些实施例中，所述预设的损失函数为：

25、

26、其中，d(*)表示相似度度量函数，zi表示实体ei对应的当前轮特征视角的表示，z′i表示实体ei对应的当前轮拓扑表示，εn表示实体ei对应的负样本集合，zj′表示实体ej对应的当前轮拓扑表示。

27、根据本发明的第二方面，提供一种有向图嵌入表示学习方法，所述方法包括：s1、获取有向图，所述有向图包括多个实体和多条连接任意两实体之间的有向边；s2、采用如本发明第一方面所述方法得到的有向图嵌入表示模型对步骤s1得到的有向图进行处理以获取每一实体对应的特征视角的表示和拓扑表示，并将得到的每一实体对应的特征视角的表示和拓扑表示进行拼接得到每一实体对应的嵌入表示。

28、根据本发明的第三方面，提供一种蛋白质分类系统，所述系统包括：数据处理模块，用于获取待检测蛋白质合成物的分子结构，并根据该待检测蛋白质合成物的分子结构构建有向图，其中，所述待检测蛋白质合成物包括多种蛋白质分子，所述有向图中包括多个实体和多条连接任意两实体之间的有向边，且实体为所述待检测蛋白质合成物中任意蛋白质分子；如本发明第一方面所述方法得到的有向图嵌入表示模型，用于将所述数据处理模块得到的有向图进行处理以获取每一蛋白质分子的嵌入表示；预先训练得到蛋白质分类模型，用于基于所述有向图嵌入表示模型得到的每一蛋白质分子的嵌入表示对蛋白质分子进行分类处理，以获取所述待检测蛋白质合成物中每一蛋白质分子的类别。

29、与现有技术相比，本发明的优点在于：(1)引入拓扑信息聚合模块提取实体的拓扑信息以捕捉有向图中不同链路连接关系之间的潜在的结构信息；(2)基于有向图中实体的特征表示和实体的拓扑表示为迭代训练提供训练样本，并基于其计算迭代损失优化特征获取模块和拓扑信息聚合模型，进而改善有向图嵌入表示的效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄庆明倪文鑫许倩倩姜阳邦彦操晓春
技术所有人：中国科学院计算技术研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。