基于图表示学习的身份保持对抗训练方法、装置、介质

文档序号:29862367发布日期:2022-04-30 11:34阅读:71来源:国知局
基于图表示学习的身份保持对抗训练方法、装置、介质

1.本发明涉及图数据挖掘技术领域,尤其涉及一种基于图表示学习的身份保持对抗训练方法、装置、介质。


背景技术:

2.图表示学习成为分析图结构数据的热门研究领域。在软件层面,图表示学习旨在学习一种编码函数,该函数充分利用图数据的优势,将具有复杂结构的图数据转换为保留多样化图属性和结构特征的低维空间中的密集表示。目前,图表示学习方法广泛应用于节点分类、异常检测、连边预测、标签推荐等各种图挖掘任务中。同时为实际生活中的大量应用问题带来了突破性的进展,例如在商品推荐场景中,用户对于商品的喜好程度的预测可以形式化为连边预测问题,其中节点代表用户或者商品,连边表示其喜好程度。药物靶点预测是连边预测任务对应的另一个重要的实际应用,其中节点表示药物或者蛋白质,连边表示两者之间是否能起作用。在金融风险控制场景中,已知借款人之间的交易关系,需要判断每个借款人的风险程度即其还款能力,防止将贷款发放给高风险人群。该场景是典型的节点分类问题,不同的类别表示不同的风险程度,每个借款人是一个节点,用连边表示借款人间的交易信息。
3.然而这些方法都忽略了现实世界中图数据的噪声,例如在推荐场景中用户可能存在误点击,对不喜欢的商品点了赞。同时在算法训练的过程中可能面临着过拟合的问题。基于对抗训练的图表示学习方法,通过在图表示学习方法之上引入对抗训练,将对抗样本及其对应的原始样本一同用于训练图表示学习模型,以提升训练数据的多样性从而解决上述问题。但该方法由于未保证对抗样本的质量,容易在对抗样本中引入错误信息并损害图表示学习模型性能,影响了在商品推荐场景、药物靶点预测、金融风险控制场景等实际训练场景中的节点分类、异常检测、连边预测、标签推荐等各种图挖掘任务中的图结构数据分析精度。


技术实现要素:

4.本发明实施例的目的是提供一种基于图表示学习的身份保持对抗训练方法、装置、存储介质、电子设备,该方法生成的对抗样本与原样本保持相同的样本身份信息,提升了图表示学习在图挖掘任务中的图结构数据分析精度。
5.为了实现上述目的,本发明一方面提供一种基于图表示学习的身份保持对抗训练方法,包括:
6.获取训练场景的图数据,定义所述图数据的每一个节点为用于表征所述训练场景的一个原样本,定义所述原样本的样本身份信息;
7.生成每一个所述原样本对应的对抗样本;
8.通过为所述对抗样本添加身份保持约束,将所述对抗样本保持所述原样本的样本身份信息;
9.将所述对抗样本作为第一输入变量,输入至初始图表示学习模型,执行身份保持对抗训练;
10.更新所述初始图表示学习模型,得到目标图表示学习模型,利用所述目标图表示学习模型预测所述训练场景中所述原样本在不同图挖掘任务下的输出。
11.可选的,所述生成每一个所述原样本对应的对抗样本,包括:
12.将每一个所述原样本作为第二输入变量,输入至所述初始图表示学习模型进行训练,得到每一个所述原样本的表示;
13.为每一个所述原样本的表示添加扰动因子,生成每一个所述原样本对应的对抗样本。
14.可选的,所述为每一个所述原样本的表示添加扰动因子,生成每一个所述原样本对应的对抗样本之前,还包括:
15.生成所述扰动因子,
16.所述扰动因子包括扰动强度与扰动方向,所述扰动强度用于确定所述对抗样本与所述原样本之间的距离,所述扰动方向用于确定所述对抗样本的生成方向;
17.对于每一个所述原样本,生成的对抗样本的表示为:
18.h
′i=hi+ri*di19.其中,ri、di、hi分别为第i个所述原样本对应的扰动强度、扰动方向、表示。
20.可选的,所述生成所述扰动因子,包括:
21.确定所述扰动强度,包括:
22.将每一个节点的邻居节点的表示作为输入,输入至感知机模型,通过自适应学习得到每一个所述节点对应的扰动强度;
23.所述扰动强度表示为:
24.ri=relu(w2*relu(w1hi))
25.其中,w1、w2是可学习的参数,relu是激活函数;
26.构造所述扰动强度满足的约束条件,得到第一损失函数;
27.所述第一损失函数表示为:
[0028][0029]
其中,n表示所述节点的数量。
[0030]
可选的,所述生成所述扰动因子,还包括:
[0031]
确定所述扰动方向,包括:
[0032]
通过最大化所述初始图表示学习模型的原损失函数方向,确定所述扰动方向,所述扰动方向表示为:
[0033][0034]
其中,l
basic
表示所述初始图表示学习模型的原损失函数。
[0035]
可选的,所述通过为所述对抗样本添加身份保持约束,将所述对抗样本保持所述原样本的样本身份信息,包括:
[0036]
构造所述身份保持约束,包括:
[0037]
负采样每一个所述节点,构造所述身份保持约束,得到第二损失函数;
[0038]
所述第二损失函数表示为:
[0039][0040]
其中,hk为第k个所述节点的表示,i≠k;p(n)表示每一个所述节点被采样到的概率,按均匀分布负采样;k是负采样的个数;σ(h
′i,hi)表示原样本与其相对应的对抗样本之间的关系;σ(h
′i,hk)表示原样本与其不对应的对抗样本之间的关系;
[0041]
采用二分类判别器,根据所述第二损失函数,将所述原样本每一个节点的表示对应一个类别。
[0042]
可选的,所述更新所述初始图表示学习模型,得到目标图表示学习模型,利用所述目标图表示学习模型预测所述训练场景中所述原样本在不同图挖掘任务下的输出,包括:
[0043]
确定整体损失函数,所述整体损失函数表示为:
[0044]
l=l
basic
+λ1l
basic
+λ2l
id
+λ3l
norm
[0045]
其中,λ1、λ2、λ3表示收敛因子;l
basic
表示所述初始图表示学习模型的原损失函数,l
norm
表示第一损失函数,l
id
表示第二损失函数,l

basic
表示将所述对抗样本作为第一输入变量,输入至所述初始图表示学习模型,执行身份保持对抗训练,得到的第三损失函数;
[0046]
根据所述整体损失函数,利用梯度反向传播方法更新所述初始图表示学习模型,得到目标图表示学习模型;
[0047]
利用所述目标图表示学习模型预测所述训练场景中所述原样本在不同图挖掘任务下的输出。
[0048]
可选的,所述训练场景包括商品推荐场景,所述方法包括:
[0049]
获取所述商品推荐场景的图数据,定义所述图数据中用于表征所述商品推荐场景包含用户特征属性的节点为用户信息原样本,用于表征所述商品推荐场景包含商品特征属性的节点为商品信息原样本;定义用户自身的编号信息为所述用户信息原样本的样本身份信息,商品信息定义商品自身的编号信息为所述商品信息原样本的样本身份信息;
[0050]
生成每一个所述原样本对应的对抗样本;
[0051]
通过为所述对抗样本添加身份保持约束,将所述对抗样本保持所述原样本的样本身份信息;
[0052]
将所述对抗样本作为第一输入变量,输入至初始图表示学习模型,执行身份保持对抗训练;
[0053]
更新所述初始图表示学习模型,得到目标图表示学习模型,利用所述目标图表示学习模型得到所述商品推荐场景中所述用户信息原样本与所述商品信息原样本之间的关联数据,以预测用户对商品的喜爱程度。
[0054]
本发明另一方面还提供一种基于图表示学习的身份保持对抗训练装置,包括:
[0055]
原样本获取模块,用于获取训练场景的图数据,定义所述图数据的每一个节点为用于表征所述训练场景的一个原样本,定义所述原样本的样本身份信息;
[0056]
对抗样本生成模块,用于生成每一个所述原样本对应的对抗样本;
[0057]
对抗样本约束模块,用于通过为所述对抗样本添加身份保持约束,将所述对抗样本保持所述原样本的样本身份信息;
[0058]
对抗训练模块,用于将所述对抗样本作为第一输入变量,输入至初始图表示学习模型,执行身份保持对抗训练;
[0059]
模型更新模块,用于更新所述初始图表示学习模型,得到目标图表示学习模型,利用所述目标图表示学习模型预测所述训练场景中所述原样本在不同图挖掘任务下的输出。
[0060]
本发明另一方面还提供一种存储介质,用于存储一种用于执行上述的基于图表示学习的身份保持对抗训练方法的计算机程序。
[0061]
本发明另一方面还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于图表示学习的身份保持对抗训练方法。
[0062]
在本发明实施例中,通过对所述原样本的表示添加扰动因子,生成图表示学习模型最容易判断错的对抗样本,可以用最少的对抗样本来提升图表示学习模型的效果。并在生成对抗样本后,引入身份保持的正则项约束,为所述对抗样本添加身份保持约束,以使对抗样本保持所述原样本的身份,即保证生成的对抗样本与其对应的原样本表示同一个节点,从而避免引入额外的噪声,进而高质量得丰富训练数据集从而保证了对抗样本质量。并将生成的保持身份的对抗样本作为所述原样本的数据增强,去训练图表示学习模型,从而增强了图表示学习模型对噪声的抵抗能力,缓和了身份保持对抗训练过程中的过拟合问题,提升了图表示学习模型在节点分类、异常检测、连边预测、标签推荐等各种图挖掘任务中表现效果。该身份保持对抗训练方法具有较好的普适性,通过分析图表示学习模型输出的原样本的表示之间的关联关系或者其所属类别,预测所述训练场景中所述原样本在不同图挖掘任务下的输出,可以针对不同场景进行目标预测,适用于商品推荐场景、药物靶点预测场景、以及金融风险控制场景等多种场景中,针对不同场景中的节点分类、异常检测、连边预测、标签推荐等各种图挖掘任务进行数据预测。
附图说明
[0063]
图1是本发明实施例提供的基于图表示学习的身份保持对抗训练方法的流程示意图;
[0064]
图2是cora数据集中,节点表示对随机噪声的鲁棒性效果示意图;
[0065]
图3是citeseer数据集中,节点表示对随机噪声的鲁棒性效果示意图;
[0066]
图4是本发明的基于图表示学习的身份保持对抗训练装置的结构示意图;
[0067]
图5是电子设备的结构示意图。
具体实施方式
[0068]
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
[0069]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0070]
需要说明的,本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
[0071]
此外,在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件,所属领域中具有通常知识者应可理解,制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。以外,“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
[0072]
如前所述,在相关技术中,针对图表示学习的对抗训练中,将与原样本身份不对应的对抗样本作为增强数据训练模型导致引入额外的噪声,影响图表示学习模型在节点分类、异常检测、连边预测、标签推荐等各种图挖掘任务中表现的问题。
[0073]
本发明实施例一提供了一种基于图表示学习的身份保持对抗训练方法,参考图1,图1示出了一种基于图表示学习的身份保持对抗训练方法实施例一的步骤流程图,可以包括如下步骤:
[0074]
s1、获取训练场景的图数据,定义所述图数据的每一个节点为用于表征所述训练场景的一个原样本,定义所述原样本的样本身份信息。
[0075]
在具体实现中,本实施例中根据训练场景中节点分类、异常检测、连边预测,和/或标签推荐等各种图挖掘任务中的实际需求获取原样本数据。即通过获取训练场景的图数据,图数据包含节点及其连边关系,其中每个节点称为一个原样本,每个节点拥有自身的样本身份信息以及其他属性信息。例如训练场景为商品推荐场景时,通过获取所述商品推荐场景的图数据,定义所述图数据中用于表征所述商品推荐场景包含用户特征属性的节点为用户信息原样本,用于表征所述商品推荐场景包含商品特征属性的节点为商品信息原样本;定义用户自身的编号信息为所述用户信息原样本的样本身份信息,定义商品自身的编号信息为所述商品信息原样本的样本身份信息;用户信息原样本的属性信息表示系统获取的关于用户的描述,例如年龄、性别,自我介绍等信息。
[0076]
s2、生成每一个所述原样本对应的对抗样本;
[0077]
本实施例中,通过对每一个所述原样本添加扰动因子,生成图表示学习模型最容易判断错的对抗样本,可以用最少的对抗样本来提升图表示学习模型的效果。
[0078]
在具体实现中,所述生成每一个所述原样本对应的对抗样本,具体包括:
[0079]
将每一个所述原样本作为第二输入变量,输入至所述初始图表示学习模型进行训练,得到每一个所述原样本的表示;
[0080]
为每一个所述原样本的表示添加扰动因子,生成每一个所述原样本对应的对抗样本。
[0081]
在具体实现中,将每一个所述原样本作为第二输入变量,输入至所述初始图表示学习模型进行训练,得到每一个所述原样本的表示,即通过图表示学习模型为每个节点输
出一个向量表示,该向量表示可以用于预测多种不同的图分析任务。例如在商品推荐场景中,将商品信息原样本、用户信息原样本分别输入至所述初始图表示学习模型进行训练,通过图表示学习模型分别输出商品信息原样本的表示、用户信息原样本的表示,然后通过为商品信息原样本的表示、用户信息原样本的表示分别添加扰动因子,生成对应的商品信息对抗样本的表示、用户信息对抗样本的表示。
[0082]
具体的,对于扰动因子的确定,所述扰动因子包括扰动强度与扰动方向,所述扰动强度用于确定所述对抗样本与所述原样本之间的距离,所述扰动方向用于确定所述对抗样本的生成方向;对于每一个所述原样本,生成的对抗样本的表示为:
[0083]h′i=hi+ri*di[0084]
其中,ri、di、hi分别为第i个所述原样本对应的扰动强度、扰动方向、表示。
[0085]
在一些实施例中,对于扰动强度,具体通过将每一个节点的邻居节点的表示作为输入,输入至感知机模型,通过自适应学习得到每一个所述节点对应的扰动强度。所述扰动强度表示为:
[0086]ri
=relu(w2*relu(w1hi))
[0087]
其中,w1、w2是可学习的参数,relu是激活函数。
[0088]
因为距离原样本越远的对抗样本,越容易被图表示学习模型视为困难的样本,因此,为生成图表示学习模型最容易判断错的对抗样本,期望每个节点的扰动强度尽可能大,构造所述扰动强度满足的约束条件,得到第一损失函数,即所述第一损失函数表示为:
[0089][0090]
其中,n表示所述节点的数量。
[0091]
在一些实施例中,对于扰动方向,通过最大化初始图表示学习模型的原损失函数方向,确定所述扰动方向,使得每一个所述原样本其生成的对抗样本对于图表示学习模型都是困难的。所述扰动方向表示为:
[0092][0093]
其中,l
basic
表示所述初始图表示学习模型的原损失函数。
[0094]
在具体实现中,可以通过归一化处理所述扰动方向,即将每一个所述原样本的表示添加的扰动因子的扰动方向控制在同一尺度。
[0095]
s3、通过为所述对抗样本添加身份保持约束,将所述对抗样本保持所述原样本的样本身份信息。
[0096]
在具体实现中,具体通过构造所述身份保持约束,采用多类别分类判别器,根据所述身份保持约束,将所述原样本的表示对应一个类别;将所述对抗样本添加该身份保持约束,使对抗样本保持所述原样本的样本身份信息。
[0097]
在一些实施例中,通过负采样每一个节点,采用二分类判别器,构造所述身份保持约束,得到第二损失函数。所述第二损失函数表示为:
[0098][0099]
其中,hk为第k个节点对应的表示,i≠k;p(n)表示图上每一个节点被采样到的概率,按均匀分布负采样,图上每个节点被采样到的概率相同;k是负采样的个数。
[0100]
根据所述第二损失函数,将每一个所述原样本的表示对应一个类别,为所述对抗样本添加该身份保持约束,以使对抗样本保持所述原样本的样本身份信息。
[0101]
本实施例在生成对抗样本后,引入身份保持的正则项约束,为所述对抗样本添加身份保持约束,以使对抗样本保持所述原样本的样本身份信息,即保证生成的对抗样本与其对应的原样本表示同一个节点,从而避免引入额外的噪声,进而高质量得丰富训练数据集从而保证了对抗样本质量。
[0102]
s4、将所述对抗样本作为第一输入变量,输入至初始图表示学习模型,执行身份保持对抗训练,得到的第三损失函数l

basic

[0103]
本实施例中,将生成的保持身份的对抗样本作为所述原样本的数据增强,去训练初始图表示学习模型,从而增强了图表示学习模型对噪声的抵抗能力,缓和了身份保持对抗训练过程中的过拟合问题,提升了图表示学习模型在节点分类、异常检测、连边预测、标签推荐等各种图挖掘任务中表现效果。
[0104]
s5、更新所述初始图表示学习模型,得到目标图表示学习模型,利用所述目标图表示学习模型预测所述训练场景中所述原样本在不同图挖掘任务下的输出。
[0105]
在一些实施例中,根据上述步骤s1-s4中确定的第一损失函数l
norm
、第二损失函数l
id
、第三损失函数l

basic
、以及初始图表示学习模型的原损失函数l
basic
,确定整体损失函数,所述整体损失函数表示为:
[0106]
l=l
basic
+λ1l
basic
+λ2l
id
+λ3l
norm
[0107]
其中,λ1、λ2、λ3表示收敛因子。
[0108]
根据所述整体损失函数,利用梯度反向传播方法更新所述初始图表示学习模型,得到目标图表示学习模型;在λ1、λ2、λ3收敛后即可得到每一个原样本的表示。此时通过目标图表示学习模型可以得到图上每个节点的鲁棒表示,利用这些表示可以进行多种图分析任务,即可以用来预测不同原样本之间的关系,或者直接根据样本的表示输出它所属的类别。
[0109]
例如在商品推荐场景中,将商品信息原样本、用户信息原样本分别输入至所述初始图表示学习模型进行训练,通过图表示学习模型分别输出商品信息原样本的表示、用户信息原样本的表示,通过分析商品信息原样本的表示与用户信息原样本的表示之间的余弦相似度,预测用户对商品的喜爱度,相似度越大喜爱程度越高。在药物靶点预测场景中,将药物信息和蛋白质信息作为原样本,通过分析药物表示与蛋白质表示的相似度可预测药物与蛋白质之间是否存在靶向作用。在金融风险控制场景中,将每个借款人信息作为原样本,利用图表示学习模型得到每个借款人的表示,利用分类模型即可输出每个借款人的风险程度。
[0110]
在本发明的上述实施例中,通过对所述原样本的表示添加扰动因子,生成图表示学习模型最容易判断错的对抗样本,可以用最少的对抗样本来提升图表示学习模型的效果。并在生成对抗样本后,引入身份保持的正则项约束,为所述对抗样本添加身份保持约
束,以使对抗样本保持所述原样本的身份,即保证生成的对抗样本与其对应的原样本表示同一个节点,从而避免引入额外的噪声,进而高质量得丰富训练数据集从而保证了对抗样本质量。并将生成的保持身份的对抗样本作为所述原样本的数据增强,去训练图表示学习模型,从而增强了图表示学习模型对噪声的抵抗能力,缓和了身份保持对抗训练过程中的过拟合问题,提升了图表示学习模型在节点分类、异常检测、连边预测、标签推荐等各种图挖掘任务中表现效果。该身份保持对抗训练方法具有较好的普适性,通过分析图表示学习模型输出的原样本的表示之间的关联关系或者其所属类别,预测所述训练场景中所述原样本在不同图挖掘任务下的输出。可以针对不同场景进行目标预测,适用于商品推荐场景、药物靶点预测场景、以及金融风险控制场景等多种场景中,针对不同场景中的节点分类、异常检测、连边预测、标签推荐等各种图挖掘任务进行数据预测。
[0111]
下面在连边预测、节点分类图挖掘任务下,将本发明提供的基于图表示学习的身份保持对抗训练方法与现有的方法进行对比,以验证本发明方法的效果。
[0112]
连边预测任务指通过节点表示去预测任意两个节点之间是否存在连边,是检验节点表示质量的常见任务。表1展示了本发明的基于图表示学习的身份保持对抗训练方法以及现有方法在cora,citeseer,wiki和pubmed数据集上的连边预测结果。如表1所示,在auc评价指标下,本发明提供的基于图表示学习的身份保持对抗训练方法相比于现有的方法带来了5.40%,2.56%,6.43%,1.11%的显著提升。
[0113]
节点分类是检验节点表示质量的另一个常见任务,该任务期望利用节点表示去预测节点的某些标签。如表2所示,在cora、citeseer以及pubmed三个数据中本发明的基于图表示学习的身份保持对抗训练方法的效果一致性得好于现有的方法。连边预测和节点分类这两个任务的结果说明本发明提升了节点表示在下游任务上的有效性。
[0114]
由于本发明的基于图表示学习的身份保持对抗训练方法提升了对抗样本的质量,导致图表示学习对于图数据中噪声的抵抗能力得到增强。图2、图3展示了随着输入图中噪声边的增加,得到的节点表示在下游任务上准确率的变化。其中,图2显示了cora数据集中,节点表示对随机噪声的鲁棒性;图3显示了citeseer数据集中,节点表示对随机噪声的鲁棒性。由图2、图3可以看出,在cora和citeseer两个数据集中,本发明基于图表示学习的身份保持对抗训练方法的效果一致性的好于现有的方法,同时随着噪声边的比例增加,本发明基于图表示学习的身份保持对抗训练方法相比于现有方法的提升比例更大,分别在cora和citeseer上从2.46%提升到3.97%和从3.84%提升到11.11%。这说明本发明基于图表示学习的身份保持对抗训练方法对于图数据中的噪声信息有了更强的抵抗能力。
[0115]
表1:连边预测结果以auc为评价指标
[0116]
[0117][0118]
表2:节点分类结果以准确率为评价指标
[0119][0120]
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0121]
本发明上述实施例可以应用于具有基于图表示学习的身份保持对抗训练方法功能的终端设备中,该终端设备可以包括个人终端、以及上位机终端等,本发明实施例对此不加以限制。该终端可以支持windows、android(安卓)、ios、windowsphone等操作系统。
[0122]
参照图4,图4示出了一种基于图表示学习的身份保持对抗训练装置300,所述基于图表示学习的身份保持对抗训练方法可应用于个人终端、以及上位机终端设备中,其可实现通过如图1所示的基于图表示学习的身份保持对抗训练方法,至少包括原样本获取模块301、对抗样本生成模块302、对抗样本约束模块303、对抗训练模块304、模型更新模块305,即具体为:
[0123]
一种基于图表示学习的身份保持对抗训练装置300,包括:
[0124]
原样本获取模块301,用于获取训练场景的图数据,定义所述图数据的每一个节点为用于表征所述训练场景的一个原样本,定义所述原样本的样本身份信息;
[0125]
对抗样本生成模块302,用于生成每一个所述原样本对应的对抗样本;
[0126]
对抗样本约束模块303,用于通过为所述对抗样本添加身份保持约束,将所述对抗样本保持所述原样本的样本身份信息;
[0127]
对抗训练模块304,用于将所述对抗样本作为第一输入变量,输入至初始图表示学习模型,执行身份保持对抗训练;
[0128]
模型更新模块305,更新所述初始图表示学习模型,得到目标图表示学习模型,利用所述目标图表示学习模型预测所述训练场景中所述原样本在不同图挖掘任务下的输出。
[0129]
可选的,所述生成每一个所述原样本对应的对抗样本,包括:
[0130]
将每一个所述原样本作为第二输入变量,输入至所述初始图表示学习模型进行训练,得到每一个所述原样本的表示;
[0131]
为每一个所述原样本的表示添加扰动因子,生成每一个所述原样本对应的对抗样本。
[0132]
可选的,所述为每一个所述原样本的表示添加扰动因子,生成每一个所述原样本对应的对抗样本之前,还包括:
[0133]
生成所述扰动因子,
[0134]
所述扰动因子包括扰动强度与扰动方向,所述扰动强度用于确定所述对抗样本与所述原样本之间的距离,所述扰动方向用于确定所述对抗样本的生成方向;
[0135]
对于每一个所述原样本,生成的对抗样本的表示为:
[0136]h′i=hi+ri*di[0137]
其中,ri、di、hi分别为第i个所述原样本对应的扰动强度、扰动方向、表示。
[0138]
可选的,所述生成所述扰动因子,包括:
[0139]
确定所述扰动强度,包括:
[0140]
将每一个节点的邻居节点的表示作为输入,输入至感知机模型,通过自适应学习得到每一个所述节点对应的扰动强度;
[0141]
所述扰动强度表示为:
[0142]ri
=relu(w2*relu(w1hi))
[0143]
其中,w1、w2是可学习的参数,relu是激活函数;
[0144]
构造所述扰动强度满足的约束条件,得到第一损失函数;
[0145]
所述第一损失函数表示为:
[0146][0147]
其中,n表示所述节点的数量。
[0148]
可选的,所述生成所述扰动因子,还包括:
[0149]
确定所述扰动方向,包括:
[0150]
通过最大化所述初始图表示学习模型的原损失函数方向,确定所述扰动方向,所述扰动方向表示为:
[0151][0152]
其中,l
basic
表示所述初始图表示学习模型的原损失函数。
[0153]
可选的,所述通过为所述对抗样本添加身份保持约束,将所述对抗样本保持所述原样本的样本身份信息,包括:
[0154]
构造所述身份保持约束,包括:
[0155]
负采样每一个所述节点,构造所述身份保持约束,得到第二损失函数;
[0156]
所述第二损失函数表示为:
[0157][0158]
其中,hk为第k个所述节点的表示,i≠k;p(n)表示每一个所述节点被采样到的概率,按均匀分布负采样;k是负采样的个数;σ(h
′i,hi)表示原样本与其相对应的对抗样本之间的关系;σ(h
′i,hk)表示原样本与其不对应的对抗样本之间的关系;
[0159]
采用二分类判别器,根据所述第二损失函数,将所述原样本每一个节点的表示对应一个类别。
[0160]
可选的,更新所述初始图表示学习模型,得到目标图表示学习模型,利用所述目标图表示学习模型预测所述训练场景中所述原样本在不同图挖掘任务下的输出,包括:
[0161]
确定整体损失函数,所述整体损失函数表示为:
[0162]
l=l
basic
+λ1l
basic
+λ2l
id
+λ3l
norm
[0163]
其中,λ1、λ2、λ3表示收敛因子;l
basic
表示所述初始图表示学习模型的原损失函数,l
norm
表示第一损失函数,l
id
表示第二损失函数,l

basic
表示将所述对抗样本作为第一输入变量,输入至所述初始图表示学习模型,执行身份保持对抗训练,得到的第三损失函数;
[0164]
根据所述整体损失函数,利用梯度反向传播方法更新所述初始图表示学习模型,得到目标图表示学习模型;
[0165]
更新所述初始图表示学习模型,得到目标图表示学习模型,利用所述目标图表示学习模型预测所述训练场景中所述原样本在不同图挖掘任务下的输出。
[0166]
本发明还提供一种存储介质,用于存储用于执行如图1所述基于图表示学习的身份保持对抗训练方法的计算机程序。例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的存储介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的存储介质中。
[0167]
在此,根据本发明的一个实施例包括一个如图5所示的电子设备400,在一些实施方式中,包括用于存储计算机程序的存储介质401和用于执行计算机程序的处理器402,其中,当该计算机程序被该处理器执行时,触发该电子设备执行基于前述多个实施例中的方法和/或技术方案,该电子设备400可以电脑等终端设备。
[0168]
需要注意的是,本发明的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。根据本发明的日程提醒方法可以作为计算机实现方法在计算机上实现,用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。在一些实施方式中,计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。
[0169]
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1