一种多视角张量图向量嵌入表征获取方法与流程

文档序号:32870457发布日期:2023-01-07 03:34阅读:41来源:国知局
一种多视角张量图向量嵌入表征获取方法与流程

1.本技术涉及一种计算机数据处理技术领域,尤其涉及一种多视角张量图向量嵌入表征获取方法。


背景技术:

2.互联网的快速发展,生活与互联网的关系越来越近,尤其是许多的社交生活都发生在互联网中。与此同时也产生了许多的异常用户和异常行为,他们有的发布含指向病毒网页、钓鱼网站或恶意网站的有害链接,往往会给人们造成经济损失。有的为了达到某种有害目的,例如营销、公关等,大量发表、回复、转发一些虚假信息或散播谣言。
3.随着机器学习与深度学习的发展,许多传统方法解决不了的问题都可以通过高效的神经网络解决。现有机器学习框架大多只适用于在欧氏空间的数据,并且假设样本之间都是独立同分布的,但是随着技术的发展,有许多急需解决的问题无法在欧氏空间中表示,更多的是在非欧空间中的图结构。事实上,在众多学科中的真实数据中,如物理、生物、社会科学和信息系统,不同数据实例互相之间都会有所联系,真实世界的许多数据可以自然而然地组织成为图的形式,即由许多用户节点和边的集合构成的图结构。
4.如果在两个图结构的数据中包含相同的用户节点,但在不同的视角中用户节点之间的关系不同,有不同的图结构,这便是多视角图结构。多视角图可广泛应用于交通预测以及临床医学,例如交通数据在交通管控、风险评估以及公共安全事件中起到重要作用。在一些突发人群拥挤的地方极易发生踩踏等公共安全事件,如果在交通预测中根据过往数据对可能发生的事件进行及时预测,也就会避免大型公共安全事件的发生,挽救许多人的生命和财产损失。在互联网用户领域内,多视角图数据为用户行为建模提供了重要帮助,模型算法可以通过对用户多段的交互行为数据进行多视角图建模,基于大量用户行为的异常识别,融合了丰富的时间信息和交互信息,给模型更加准确的信息,也会使得对异常行为的识别能力有很大的提升和进步。
5.现有的多视图张量学习旨在将所有视图的信息融合起来,将融合信息嵌入到一个更低维的向量表示空间中,再将用户节点的低维嵌入表示输入分类器或聚类器中,以此来完成分类或者聚类的任务。
6.随着技术的发展,越来越多的人注意到多视角张量图能更有效发掘一系列连续图结构之间的关系和变化,因此产生了许多针对如何更好表示多视角张量图嵌入表示的研究。随着人工智能在数据挖掘方面的深入应用,更容易在多维的非结构化数据中,发现用户节点之间的内在联系。从现有算法模型体系结构深度来分,现有的多视图张量学习工作通常可以分为两种类型。一种是较浅层的算法模型,例如基于张量分解和随机游走的模型;与之相反的是深层模型,例如深度神经网络模型,该模型学习一个非线性的,将图结构信息融合入图的嵌入向量表征中。自相关研究开展以来,为了更好地解决多视角张量图中图数据的有效表征,主要方法有以下几类:
7.(1)基于张量分解的多视角图嵌入聚类(multi-viewclusteringwithgraph
embedding,mcge)异常行为分析方法
8.该种方法将数据构建为多视角张量,通过张量分解技术学习多视角图的嵌入表示,从而学习图的局部结构。之后构建了一个迭代的学习框架,多视角图聚类和多视角图嵌入互相协作,利用多视角图聚类结果精细化多视角图嵌入表示,更新后的多视角图嵌入表示进一步优化多视角图聚类效果。该方法从两个角度互相促进,最终学习到好的多视角图嵌入表示,包含图数据和不同视角之间的结构信息。通过学习到的嵌入表征,通过线性分类器对用户节点是否具有异常行为进行分类。
9.(2)基于图卷积网络的互联网用户多视角图表征学习技术(multi-viewgraphconvolutionrepresentationlearning,mgcr)
10.图卷积网络在处理非欧数据上表现出了强大的能力,因此现有图数据大部分都是通过图卷积网络来进行数据提取,该方法将多视角的图分为许多单视角的图进行表征学习,在最后再将不同视角学到的信息进行聚合,得到最终的嵌入表示。之后再将嵌入信息提供给异常行为检测分类器,进行异常行为的辨别。
11.(3)基于用户多视角图的对比表征学习(contrastivemulti-viewrepresentationlearningongraphs,cmrlg)
12.通过对比不同视角的图结构,本方法提出一种用户节点级和图结构级联合学习的自监督学习框架。该方法通过最大化在某视角中用户节点的嵌入表示和其余视角图结构表征之间的互信息(mutualinformation,mi)来学习用户节点和图结构嵌入表征。不同视角之间的图结构嵌入表征和用户节点嵌入表征通过对比学习,将多视角的图结构信息充分挖掘,最终完成多视角图的嵌入表征学习。该方法中学习到的嵌入表征,将异常用户和正常用户从高维不可分空降映射到低维线性可分的空间中,为下游任务提供了更好的支持。
13.但是现有的现有技术还存在许多未解决的问题,导致无法充分将互联网用户多视角张量图的信息更加充分地挖掘出来。在以张量分解或随机游走为代表的浅层算法模型,例如mcge方法中,只是简单地将不同视角的图拼凑成一个张量,之后通过张量分解的方法进行降维,这类方法挖掘和融合具有复杂结构的多视角张量图信息的能力有限,许多图中的关系和复杂结构无法通过这些浅层模型得到。
14.随着深度学习的发展,一些深度模型逐渐出现在人们的视野中,例如基于图神经网络(graphneuralnetworks,gnns)的深度模型,可以将深度网络强大的模型表征能力从欧氏空间扩展到图的拓扑结构空间中。但是现有大部分基于gnns模型只能处理单视角图数据,无法应用在多视角张量图表征学习中。有的方法只是将多视角图中的某一单一视图提取出来进行学习,忽略其他视图。这样做会损失多视角图之间图结构的潜在相关信息(potentialcorrelationinformation,pci)或者丢失不同视角下的图结构特征(graphstructurefeatures,gsfs)。
15.现有一些方法将原来的单视角gnns模型扩展成了多通道版本,分别处理每一个视角的图数据,之后再将每个视角的图特征进行聚合。尽管这种方法可以有效捕捉每个视角下的gsfs信息,但还是忽略了多视角间的pci信息。即使现有一些基于张量的gnns方法尝试从时空图中捕捉空间信息和时间信息,但这种方法只能特定应用于时间信息的挖掘,并不能直接应用于处理图数据之间的pci信息。
16.除此之外现有的一些方法和研究指出,在单视角内的图信息聚合时,并不是所有
的用户节点对结构和信息表达都是有价值的。聚合所有的邻居用户节点特征不仅会耗费大量的计算资源,而且会破坏中介用户节点嵌入表征的质量。为此,现有一些方法已经研究了在进行用户节点聚合时,只选取一部分的用户节点进行信息融合,剔除一些没有必要进行信息聚合的用户节点。然而这些具有邻居过滤能力的方法,并要么只是单纯地人为固定了一个过滤值,让过滤阈值作为超参数需要手动调整;要么没有关注用户节点之间边权重的不同而造成的影响。


技术实现要素:

17.为了解决或部分解决上述问题,本技术提供一种多视角张量图向量嵌入表征获取方法。
18.本技术提出一种多视角张量图向量嵌入表征获取方法,所述方法包括:提取多视角张量图中每一个视图下包含图特征结构的潜在相关信息;基于每一个视图下所述图特征结构的用户节点边的权重,将邻居的重要性进行排序,并基于排序结果确定每一个视图下最优邻居个数;基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图中的邻居信息聚合,得到所述多视角张量图的嵌入表征。
19.在本实施例的一些示例中,提取多视角张量图中每一个视图下包含图特征结构的潜在相关信息之前,所述方法还包括:将不同视角的图数据推叠成一个张量的形式,得到所述多视角张量图。
20.在本实施例的一些示例中,提取多视角张量图中每一个视图下包含图特征结构的潜在相关信息,包括:将所述多视角张量图转换为包含四种模式的特征张量对所述特征张量进行高阶奇异值分解,得到高阶奇异值分解式,基于所述高阶奇异值分解式得到每一个视图下包含所述图特征结构的潜在相关信息,如下:
[0021][0022]
u,v是高阶奇异值分解中最后两个正交模式下的因子矩阵,是对应于 f
i,j
的包含不同视角间pci信息的特征矩阵。
[0023]
在本实施例的一些示例中,基于每一个视图下图特征结构的用户节点边的权重,将邻居的重要性进行排序,并基于排序结果确定每一个视图下最优邻居个数,包括:计算两个所述用户节点间的距离,结合用户节点边的权重得到邻居的重要性,得到排序结果;基于排序结果和双臂伯努利机确定每一个视图下邻居的过滤阈值,所述过滤阈值用于表征最优邻居个数。
[0024]
在本实施例的一些示例中,基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图中的邻居信息聚合,得到所述多视角张量图的嵌入表征,包括:基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图的邻居信息聚合,得到所述多视角张量图的特征矩阵;基于所述特征矩阵得到所述多视角张量图的嵌入表征。
[0025]
在本实施例的一些示例中,基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图中的邻居信息聚合,得到所述多视角张量图的嵌入表征之后,所述方法还
包括:将所述多视角张量图的嵌入表征输入分类器,进行分类。
[0026]
与现有技术相比,本技术具有如下有益效果:
[0027]
本技术的提供的技术方案中,一种多视角张量图向量嵌入表征获取方法,所述方法包括:提取多视角张量图中每一个视图下包含图特征结构的潜在相关信息;基于每一个视图下所述图特征结构的用户节点边的权重,将邻居的重要性进行排序,并基于排序结果确定每一个视图下最优邻居个数;基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图中的邻居信息聚合,得到所述多视角张量图的嵌入表征,通过对同一个用户节点不同视角下在图中关系的抽象表达学习,最终得到该多视角张量图在单视角和跨视角下的,融合不同用户节点的有效信息的图嵌入表征。张量图的嵌入表示中包含单一视角的信息和跨视角间的丰富信息,以此达到获得良好的表征学习的目的。
附图说明
[0028]
图1是本技术实施例示出的一种多视角张量图向量嵌入表征获取方法的基本示意图。
具体实施方式
[0029]
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
[0030]
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0031]
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/ 步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0032]
还需要说明的是:在本技术中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或 b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0033]
实施例一
[0034]
请参阅图1,图1是根据一示例性实施例示出的一种多视角张量图向量嵌入表征获取方法,所述方法包括:提取多视角张量图中每一个视图下包含图特征结构的潜在相关信息;基于每一个视图下所述图特征结构的用户节点边的权重,将邻居的重要性进行排序,并基于排序结果确定每一个视图下最优邻居个数;基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图中的邻居信息聚合,得到所述多视角张量图的嵌入表征。
[0035]
在本实施例的一些示例中,提取多视角张量图中每一个视图下包含图特征结构的潜在相关信息之前,所述方法还包括:将不同视角的图数据推叠成一个张量的形式,得到所述多视角张量图。
[0036]
在本实施例的一些示例中,提取多视角张量图中每一个视图下包含图特征结构的
潜在相关信息,包括:将所述多视角张量图转换为包含四种模式的特征张量对所述特征张量进行高阶奇异值分解,得到高阶奇异值分解式,基于所述高阶奇异值分解式得到每一个视图下包含所述图特征结构的潜在相关信息,如下:
[0037][0038]
u,v是高阶奇异值分解中最后两个正交模式下的因子矩阵,是对应于 f
i,j
的包含不同视角间pci信息的特征矩阵。
[0039]
在本实施例的一些示例中,基于每一个视图下图特征结构的用户节点边的权重,将邻居的重要性进行排序,并基于排序结果确定每一个视图下最优邻居个数,包括:计算两个所述用户节点间的距离,结合用户节点边的权重得到邻居的重要性,得到排序结果;基于排序结果和双臂伯努利机确定每一个视图下邻居的过滤阈值,所述过滤阈值用于表征最优邻居个数。
[0040]
在本实施例的一些示例中,基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图中的邻居信息聚合,得到所述多视角张量图的嵌入表征,包括:基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图的邻居信息聚合,得到所述多视角张量图的特征矩阵;基于所述特征矩阵得到所述多视角张量图的嵌入表征。
[0041]
在本实施例的一些示例中,基于每一个视图中的所述图特征结构和所述最优邻居个数,将不同视图中的邻居信息聚合,得到所述多视角张量图的嵌入表征之后,所述方法还包括:将所述多视角张量图的嵌入表征输入分类器,进行分类。
[0042]
其中,基于强化学习的互联网异常用户检测多视角张量图学习技术,是为了对同一个用户节点不同视角下在图中关系的抽象表达学习,最终得到该多视角张量图在单视角和跨视角下的,融合不同用户节点的有效信息,的图嵌入表征。张量图的嵌入表示中包含单一视角的信息和跨视角间的丰富信息,以此达到获得良好的表征学习的目的。富含图中各类信息的嵌入表示更容易区分,因此再将学习到的图表征嵌入输入到分类器或聚类器中,很容易就可以将他们之间区分出来或者找出和自己属性相近的其他实例。
[0043]
因此,如何学习到张量图嵌入表示,并且其中包含了不同用户节点各种信息成为了解决下游分类或聚类的重要一步。为了有效提取多视角张量图之间的 pci信息以及合理筛选最优邻居数量进行信息聚合,本方法提出一种基于强化学习的多视角张量图学习技术,该技术主要由三个模块构成,以此来克服上述主流多视角张量图表征学习中的不足和缺陷。除此之外通过对算法的优化设计,加快了模型训练的时间复杂度,模型更方便应用在互联网用户检测这样的在线环境中。
[0044]
第一,由于不同视角的图之间的异质性无法忽视,例如在不同视角中,图的用户节点集相同,但是图的结构特征、稀疏性以及边的权重分布都会有所不同。并且由于不同视角图中用户节点处于不同的特征空间中,由于计算机中信息存储都是由数字来表示,在不同的特征空间中可能相同的数字代表不同的信息,如果强行将它们融合在一起就可能会造成一些混淆冲突。但是由于之前的一些基于gnns的方法并不能有效地,结合用户节点关系权重来挖掘不同视角图之间的pci信息。因此为了达到上述目的,本方法提出基于张量分解的
桥接模块,该模块受到张量分解可以捕捉潜在因素特征的启发。桥接模块首先将不同视角的图数据推叠成一个张量的形式,之后通过高阶奇异值分解(higher-ordersingularvaluedecomposition,hosvd)将不同视图中包含gsfs图结构特征(graphstructurefeatures,gsfs)的pci信息提取到同一特征空间下。该模块并不受视角数量的限制,并且能很好地抑制由于将不同空间的信息强行融合在一起而发生的混淆冲突。
[0045]
第二,有一些研究指出在图上进行邻居聚合时,并不是所有的邻居用户节点都对用户节点的信息表达有意义,因此过滤掉一部分无用用户节点对信息聚合来说是很有必要的,这一过滤防止了一些额外的干扰信息被融合进用户节点的嵌入表示中。但是现有技术只是单纯地通过实验来找到一个过滤阈值,以此来过滤掉一定的邻居。但在多视角图中,同一用户节点可能在不同视角下需要聚合的邻居数量也是不同的,随着视角增多,需要调整的超参数和需要做实验的次数也呈指数级增长。并且在不同数据集中,这个过滤阈值也有可能发生变化,为了提高模型的泛化性能,本方法提出结合用户节点边的权重将邻居的重要性进行排序的邻居过滤模块,该模块通过边注意机制衡量邻居用户节点的重要性,再通过强化学习(reinforcementlearning,rl)模块计算出不同视角下的最优过滤阈值。
[0046]
第三,在得到每一个视图中的gsfs信息以及他们的最优邻居个数后,将不同视角图下的不同数量邻居的信息聚合在一起。与传统的基于张量分解的方法相比,基于gnns的多视角聚合能够更好得挖掘不同视角之间的层级关系模式。本方法提出用户节点感知下的跨视角图特征信息聚合模块,将不同视角下的用户节点信息聚合在一起。在网络的最后一层,将用户节点嵌入表征融合并向量化进一个低维空间中,最终得到多视角张量图的嵌入表征。
[0047]
通过上述三个主要的模块,最终可以实现一个具有挖掘跨视角图gsfs信息的,筛选聚合信息的,多视角张量图学习模型。该方法具有较强的泛化效果和广泛的应用场景。在一些带有噪声的数据集中也能有较好的效果,因为该模型针对用户节点的邻居信息进行了一定的过滤,将无效信息、干扰信息和有害信息进行了过滤;
[0048]
为了更好的理解本发明,本实施例提供一种更为具体的示例对本发明进行说明,如图1所示,图1所示为本发明提供的多视角张量图向量嵌入表征获取方法的基本流程示意图;
[0049]
首先通过桥接模块提取多视角张量图下的pci潜在相关信息(potentialcorrelationinformation,pci);
[0050]
然后利用邻居选择器,并通过gnn(graphneuralnetwork,图神经网络)将用户节点和有价值的用户节点进行聚合,在训练gnn模型的同时利用强化学习模块(reinforcementlearning,rl)自主学习邻居选择器的过滤阈值,来为过滤无效信息、干扰信息和有害信息寻找最优的阈值;
[0051]
最后通过多视角聚合器,将中心用户节点多视角下的所有有价值的信息进行聚合,最终得到每个多视角张量图实例的嵌入向量表征。最后通过每个实例富含结构以及关系信息的嵌入表示,输入下游分类或聚类任务中完成相应的识别任务。图1是本发明技术方案的流程图。
[0052]
(1)pci信息提取桥接模块
[0053]
在多视角图间的聚合时,由于不同视角图用户节点的特征处于不同的空间中,在
跨视角图信息融合时会造成混淆冲突。桥接模块并不简单是通过线性变换来实现特征空间对齐,之后在对齐的特征空间中进行gnns的信息提取和聚合,而是另外寻找一个特征空间,在该空间中仍然完整保持着每个视角下的初始特征信息,在空间中产生的gsfs也包含了不同视角间的pci信息,这样更有助于gnns模型的部署和实施。
[0054]
首先将数据集中一个多视角图其中代表不同视角。之后将的所有特征伴随矩阵转化为一个包含四种模式的特征张量:实例、视角、用户节点以及特征,因此该特征张量可以表示为:例如:就代表在第j个视角(模式二)下的张量切片。
[0055]
随后的hosvd高阶奇异值分解(higher-order singular value decomposition, hosvd)过程可以表示为:
[0056][0057]
其中
×1,
×2,
×3和
×4代表的是模式乘积操作,u1、u2、u3和u4分别代表中每个模式下的因子矩阵(例如:主成分),c是核心张量,它的每个分量表示了不同模式分量之间的关系,tran(
·
)代表转置操作,i代表一个方阵。为了得到基于不同的视角的图特征,可以将上式进一步写为:
[0058][0059]
其中u=u3,v=u4是空间hosvd中最后两个正交模式下的因子矩阵,具体来说就是u和v被用作投影矩阵,将两个视角之间的特征空间投影到同一个特征空间下,以此来减轻不同视角图之间异质性的问题。是对应于f
i,j
的包含不同视角间pci信息的特征矩阵。
[0060]
上式确保了将不同特种空间中的向量投影到同一个特征空间中,并提取出不同视角间潜在的相关信息,缓解了混淆冲突对多视角图信息提取融合带来的危害。
[0061]
(2)强化学习邻居过滤模块
[0062]
该模块由两部分组成,分别为关系权重感知邻居重要性计算和rl指导下的多视角最优过滤阈值自动计算,本方法的每个视角过滤阈值是通过视角并行的方式进行计算的。
[0063]
为了将监督信号可以加入邻居重要性计算,使得相似性可以随着训练过程的进行越来越准确;并且为了充分利用用户节点边的权重信息,形成关系权重感知的重要性计算。本方法提出的相似性度量满足以下三个条件:1、可以通过有监督的方式进行优化训练;2、与邻居相连的边权重越大,该邻居对用户节点来说更重要;3、邻居的边距离越大(意味着更低的相似性),则代表该邻居的重要性较低。
[0064]
首先通过全连接网络(fully connected neural networks,fnns)计算两个用户节点间的距离,之后结合边的权重得到重要性表达式为:
[0065][0066]
其中dist表示两个用户节点间的距离,表达式为:
[0067][0068]
其中i代表第i个实例,j代表第j个视角,a
i,j
(k,k

)代表第i个实例第j个视角下用户节点k和他的邻居k’的权重。为了避免衡量距离的fnn在训练时对gnns 训练的影响,为fnn单独设计的第l层损失函数表示为:
[0069][0070]
由上式可知,在模型训练阶段,重要性度量由用户节点标签作为监督信号直接更新,其中x(k)代表第k个用户节点的标签值,这一公式保证了重要性度量能够快速收敛。
[0071]
在得到每个视图下的邻居用户节点重要性后,先将邻居用户节点按照重要性进行排序,之后通过基于rl模块的过滤阈值计算模块协助gnns进行邻居选择和聚合。选取代表第l层第j个视角下的过滤阈值,过滤阈值的在 0,1的一个闭区间内,闭区间代表可以把周围所有邻居都包括进来或者排除所有邻居用户节点。之后将用户节点邻居按照重要性降序排列,选取前的用户节点作为最优的聚合结果,首先将最优过滤阈值寻找的过程表示为双臂伯努利机(two-armed bandit),即{{act1,act2},rew,ter}。其中{act1,act2}表示的是动作空间,对过滤阈值的增加或减少,rew是奖励函数,ter是终止条件。
[0072]
强化学习模块的各项组成解释如下:
[0073]
动作空间:动作空间定义为阈值计算器如何对阈值进行更新,在本方法中使用的更新方式为∈贪心算法,对过滤阈值加上或减去步长为s的值。
[0074]
奖励函数:我们通过邻居用用户节点重要性的平均值来对过滤阈值进行奖惩的调整。如果最新选择的邻居平均重要性大于前一轮训练的邻居平均重要性,说明该轮动作使得更有意义的邻居用户节点加入聚合中,则对该轮动作进行奖励;反之则惩罚,可表示为:
[0075][0076]
终止条件:当连续十个训练进程的奖励函数之和小于1的时候,则可以证明已经找到最优的过滤阈值。
[0077]
(3)跨视角图特征信息聚合模块
[0078]
聚合模块包括了结点特征融合和跨视角图特征聚合两个模块,以模型第l层为例表示用户节点特征计算过程:
[0079][0080]
其中代表第l层输出的用户节点特征向量也是第l+1层的输入,l*代表第l层的中间结果即在单视角内信息聚合后的用户节点特征向量,通过过滤阈值得到增强的邻接矩阵记为:经过单视角图内的信息融合,公式可表
示为:
[0081][0082]
其中是特定层,特定视角下特征向量的转移张量,将用户节点间的信息进行融合。在单视角内将邻居用户节点信息融合后,本发明通过用户节点感知的方式完成跨视角的信息聚合。具体方式为,为了使得模型能更好得聚合信息,本方法构造一个可训练的邻接张量定义第l层多视图聚合函数agg
inter
为:
[0083][0084]
其中tran
2,3
代表将将张量第二维和第三维交换,因此代表将将张量第二维和第三维交换,因此类似于是特定层之间的转移张量。与其他的视角级别的权重聚合相比,邻接张量可以捕捉到同一用户节点不同视角下的聚合权重,即结点级别的权重聚合。在模型的最后,将最后一层的输出向量化来获得图的特征矩阵,由平均池化层来进行向量化,最终的嵌入表征表示为:
[0085][0086]
其中i表示图中第i个实例,在聚合过程结束后,我们获得每个多视角张量图的嵌入表示,这些表示中富含了不同用户节点在单视角和跨视角下的特征以及结构信息。可将获得最终嵌入表征的实例输入分类器或聚类器,本来高维不可分的实例由于不同信息的聚合,变成了低维可分的点,因此更易于下游任务的应用。
[0087]
本发明通过三个模块,从基于hosvd的pci桥接提取技术,到中心用户节点与邻居用户节点的重要性度量,再到自适应的过滤阈值选择,最后进行单视图内和跨视图间的用户节点信息聚合,运用强化学习寻找自适应的过滤阈值,最终完成用户节点的聚类和分类任务。关键点包括:
[0088]
(1)现有张量分析技术可以很好地对多视角图进行挖掘,但是目前没有将张量分解算法和gnns结合在一起的图表征学习任务上,不同于将不同特征空间下的跨视角用户节点特征进行空间对齐,考虑到tensor train(tt)和tensorring(tr)这两个方法只能对张量的两个维度进行潜在相关性信息挖掘。本发明使用tucker分解方法即hosvd,为所有视角下的特征向量寻找一个共同的嵌入空间,将不同特征空间的特征向量都转化到相同的特征空间下,减少了特征混淆的冲突。
[0089]
(2)在复杂的多视角张量图中,一个无监督的邻居重要性衡量指标通常来讲是不可靠的,不能有效和准确地表达邻居节点的重要性,往往需要领域专家参与进来,提升指标的效果。本发明中的重要性衡量指标通过监督学习,将邻居重要性指标衡量变为可学习参数,在端到端的优化阶段可以通过大量数据使得邻居节点之间的重要性衡量指标更加高效和准确。
[0090]
(3)由于现有许多任务建模为多视图关系,例如具有时序信息的任务,单一视图的
表征学习很显然难以适用于现在飞速发展的互联网用户数据中。本发明通过对多视图张量的嵌入表征学习,完成对用户节点同一视图及跨视图间的信息挖掘,适用于各种多视图张量下的分类和聚类任务。
[0091]
本发明选用国内国外互联网社交网络数据集midterm-2018,twitter-2019, caverlee和微博真实用户数据,并将这四个数据基于时间顺序处理为多视角用户数据图。本发明主要针对多视角张量图的pci信息学习以及如何选择合适数量的邻居数量进行了一定的改进,选用gcn(graph convolutional network,图卷积网络),gat(graph attention network,图注意力网络),mcge(基于张量分解的多视角图嵌入聚类异常行为分析方法),mgcr(基于图卷积网络的互联网用户多视角图表征学习技术)和cmrlg(基于用户多视角图的对比表征学习)几个现有的主流互联网异常用户检测gnn模型,验证对于gnn的改进能够有效抵御社交数据中干扰检测性能的坏数据。并使用基于贝叶斯分类器的水军检测,基于磷虾群免疫神经网络的互联网异常用户检测,基于svm的垃圾互联网异常用户检测和基于聚类的互联网异常用户检测作为互联网异常用户检测的传统机器学习代表性方法,来比较本发明对于互联网异常用户检测准确性的提高,以及对于多视角张量图信息的有效挖掘和表征。使用recall和auc (area under curve)来对模型进行衡量。
[0092]
(2)在三个数据集上通过对两个衡量指标的计算,本发明在大多数训练比例和指标下都优于其他检测方法。在针对互联网异常用户的检测效果中,本发明效果明显优于其他基于分类或基于聚类的检测方法。因为只有在基于gnn 的方法中考虑到了用户之间的交互行为,很好地将用户之间地依赖关系表达出来。在多视角张量图中,两个适用于单视角图的gcn和gat明显效果较差,这是因为多视角图中融合更多的有用信息,验证了多视角图的必要性。
[0093]
(2)随着训练的进行,关系间的距离会变得越来越大,因为gnn将用户节点嵌入投影到更大范围的空间中去,使得它们更加容易识别,并且不同视角之间的差异越来越大,当模型过滤掉无用的邻居节点之后,不同视角之间的平均距离会变得更近。之后将强化学习和其他两种不同的邻居过滤机制进行比较。综上表明,强化学习模块具有更优的速度并且能在不同视角下找到包含信息的邻居,证明了强化学习模块的切实有效性。
[0094]
此外该发明还具有以下三个优点:
[0095]
(1)自适应性:在给定任意多视角图的情况下,自适应地为每个用户结点选择聚合的最佳邻居个数;
[0096]
(2)普适性:该模型框架并不是只能应用在互联网异常用户检测中,在其他不同任务中也可自主计算出不同的自适应邻居个数;
[0097]
(3)高效性:通过对模型损失函数的优化和计算过程的优化,该发明通过计算时间和空间的优化,提高了计算效率。
[0098]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0099]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0100]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0101]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0102]
以上对本发明实施例所提供的技术方案进行了详细介绍,本专利中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的说明只适用于帮助理解本发明实施例的原理;以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1