基于图神经网络的电信诈骗检测方法、系统和存储介质

文档序号:31729863发布日期:2022-10-05 01:38阅读:851来源:国知局
基于图神经网络的电信诈骗检测方法、系统和存储介质

1.本发明涉及通讯信息安全技术领域,尤其涉及一种基于图神经网络的电信诈骗检测方法、系统和存储介质。


背景技术:

2.现实世界的数据之间存在着相互依赖性,需要更多关注图结构上的异常检测技术。利用图结构可以在用户的通话网络中挖掘出欺诈者。传统图算法中虽然有基于深度学习的异常检测方法,但其属于黑盒操作,缺乏了可解释性。于是为了克服性能和可解释性上的困难,出现了图神经网络(gnn)。近来gnn已经成为解决图结构数据问题的一种非常有效的方法,多个领域已有实际应用,比如推荐系统、金融风控和网络攻击检测,代表方法包括图卷积神经网络(gcn)、图注意力网络(gat)等。
3.但是,图结构数据所拥有的独特特性同样也带来了其他挑战。首先,数据之间的相互关联性使得从图结构中识别异常节点具有挑战性。从微观角度来讲,大部分有边相连的节点之间相较其它节点更为相似,这意味着相邻的节点更有可能拥有相似的特征和相同的标签。从图表示的角度来讲,有边相连或共同邻居较多的两个节点由于较为相似,在表示空间的距离也应当更为接近;而在图中没有边相连或没有共同邻居、距离较远的节点则认为它们共同特征较少,因此在表示空间的距离也应较远。而电信诈骗图结构中的异常检测是挖掘数据集中显著区别于其他正常模式的数据。
4.实际的场景中,异常节点若是和正常节点之间产生边,基于大部分有边相连的节点之间相较其它节点更为相似这一假设,检测结果就容易有所偏差,导致没能及时发现异常事件。其次,与传统的异常值检测相比,图结构中的异常定义差异很大。传统的非图结构异常值检测,离群点与正常节点之间是属于两个分布没有关联关系的。而在图结构中,异常节点是那些可能与正常节点存在关联却又不符合(正常类)期望行为模式的节点。
5.现有的gnn模型在图的节点之间具有高度相似性这一假设上进行卷积运算,传播节点间的相似信息。但是相关的研究表明,gnn模型在不符合上述假设的数据集上会显示出较低的准确性。异常检测场景下,异常节点的存在会破坏上述假设,gnn的卷积运算会使异常节点与正常节点间的表征差异变小,甚至可能让模型所学到的表征收敛至某一个固定值,使得gnn模型没办法很好的识别出通话网络中的异常诈骗节点。


技术实现要素:

6.为了解决现有技术的电信诈骗检测方法的模型可解释性差、检测精度较低的问题,本发明提出了一种基于图神经网络的电信诈骗检测方法、系统和存储介质,用于实现在用户通话数据网络中对诈骗用户进行精准识别。
7.本发明采用如下技术方案:
8.第一个方面,本发明提供了一种基于图神经网络的电信诈骗检测方法,包括:
9.获取通话网络中表征用户信息的节点特征矩阵,将节点特征作为节点的原始信
号;
10.通过并行的高通图滤波器和低通图滤波器对节点的原始信号进行滤波,得到滤波后的高频信号和低频信号;
11.针对每一节点,聚合其邻域中的高频信号和低频信号,得到每一节点的低频表示和高频表示,并基于注意力机制计算高频信号和低频信号的注意力分数,将高频信号和低频信号的加权结果作为节点最终表征;
12.利用分类器获得节点最终表征的分类结果,根据异常节点识别出电信诈骗用户。
13.第二个方面,本发明提供了一种基于图神经网络的电信诈骗检测系统,用于实现上述的基于图神经网络的电信诈骗检测方法。
14.第三个方面,本发明提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的基于图神经网络的电信诈骗检测方法。
15.与现有技术相比,本发明的具备的有益效果是:本发明基于用户通话数据网络和图序列建模,通过注意力机制提取多频段图信号,分析通话网络中节点类型与图中高低频信号间的关系,通过捕捉图中高低频信号,对图数据中异常节点进行精准识别。
附图说明
16.图1是根据一示例性实施例示出的基于图神经网络的图异常检测方法的示意图;
17.图2是根据一示例性实施例示出的伯恩斯坦多项式函数图像(4阶)示意图。
具体实施方式
18.下面结合附图和实施例对本发明进行进一步说明。附图仅为本发明的示意性图解,附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
19.本发明的目标,是基于用户通话数据网络和图序列建模,对特定用户人群(例如诈骗用户)进行精准识别。具体地,本发明设计端到端的图神经网络进行图节点分类(目标群体,例如诈骗用户)。本发明中,基于图神经网络的图异常检测方法是基于可通过注意力机制提取多频段图信号的谱域图神经网络的深度框架,主要包含两个部分:并行滤波器以及注意力层。
20.图1所示为本发明的总体框架,模型的输入是一个图结构,并且还包含节点的特征矩阵以及部分节点的真实标签,如异常节点标签、正常节点标签和需要待预测节点标签等。
21.本发明中,异常节点的存在会使图信号频率增大,会扰动整个图上的信号,使得图上信号的频率产生变化,但对于未知数据集来说,也无法确定哪些频段的信号对于节点识别判断有帮助。因此,基于数据集上的观察以及图信号处理技术,本发明的使用一个并行滤波器和一个注意力层来实现对图数据中异常节点的精准识别。
22.首先,从输入的节点特征(如通话网络中的用户特征)矩阵中得到,将该节点特征作为图中节点的原始信号,再使用并行滤波器将原始信号进行滤波操作。
23.本实施例中,所述的通话网络是根据用户信息以及用户之间的通话关系得到的,将每一个用户作为通话网络中的一个节点,若两个用户之间存在通话关系,则在两个用户
对应的节点之间建边,得到通话网络。本发明的最终目标是根据网络中已知用户的身份去预测未知用户的身份。
24.并行滤波器分别初始化为低通图滤波器和高通图滤波器的形式,这里的图滤波器滤波器就是频响函数,用于增大或抑制某些频段的信号强度。在后续模型不断学习的过程中通过梯度回传来并行地调整和节点的原始信号通过和滤波分别得到了低频信号以及高频信号,其本质就是,节点聚合其邻域中的低频信息和高频信息以得到低频表示和高频表示使得每个节点都得到两个关注不同频段信号的节点表示。
25.之后,再利用注意力机制自适应地确定不同频段信号表征对于节点的重要性。
26.本实施例中,注意力层设计了节点级别的注意力机制,该机制不仅考虑了节点原始信号,也考虑了滤波之后的信号,这样就可以学习对于不同节点来说不同频段信号的重要程度。比如说,异常节点可能更倾向于关注高频信号,正常节点可能更倾向于关注低频信号。因为异常节点的信号与周围正常节点信号是存在差距的,而这种差距需要将其扩大并且在之后的下游任务中强调它,所以异常节点应该更关注高频信号;而正常节点在异常检测场景中并不是需要关注的目标,所以需要减小他们之间的信号差异,将它们的图信号进行平滑操作,所以正常节点应该更关注低频信号。在注意力层中,每个节点对自己滤波之后得到的两个不同频段信号表征分别学习一个归一化的重要程度分数,得到分数后,将两个表征的线性组合作为最终的表征。
27.最后,将重新组合得到的最终表征通过一个多层感知机mlp,输出标记有待预测节点标签的节点的预测结果。
28.在本发明的一项具体实施中,为了避免拉普拉斯矩阵的特征分解,本实施例使用多项式函数对图滤波器进行近似。图滤波器的学习本质就是一个函数的学习,如果不加限制,就会是一个完全自由的学习任务,该方法显然是不可行的。所以在本实施例中,本发明基于伯恩斯坦多项式设计滤波器,只需学习这些基础多项式的系数进行组合便可以拟合任意的函数。在做函数的拟合时,本实施例选用多项式作为基函数,因为多项式易于计算、表现良好、光滑,表达能力足够。然而多项式插值存在一定问题,存在振荡现象和对插值点数的高度敏感性。为了设计更好的基函数来做插值,本实施例引入了伯恩斯坦多项式的基函数,伯恩斯坦多项式函数图像(4阶)如图2所示。
29.最终,图滤波器设计为下式:
[0030][0031]
其中,是伯恩斯坦多项式的系数向量,θi是第i项伯恩斯坦多项式的系数,bi是第i个伯恩斯坦多项式,λ是图拉普拉斯矩阵的特征值排列所得的对角矩阵,g
θ
(.)表示图滤波器的频率响应函数,k是伯恩斯坦多项式的次数。
[0032]
基于上述的图滤波器形式,我们进一步设计不同的图滤波器以获得不同频段的滤波信号。在初始化时,根据伯恩斯坦多项式的特点,对伯恩斯坦多项式的系数向量θ=(θ1,...,θk)进行赋初值以获得初始化的低通图滤波器以及高通图滤波器,后续再让两个滤波器在模型学习过程中不断更新图滤波器形式以抓取不同频段信号。
[0033]
本实施例中,将节点特征定义为x={x1,...,xn}∈rn×d,其中,d是节点特征的维
数,xi是第i个节点特征,n表示节点数量。
[0034]
将低通图滤波器记为高通图滤波器记为则滤波后的低频信号和高频信号可以表示:
[0035][0036][0037]
其中,l是图拉普拉斯矩阵,u表示对l进行特征分解后得到的矩阵,满足uλu
t
=l,上角标t表示转置,xi是第i个节点特征,k是伯恩斯坦多项式的次数,bj表示是第j个伯恩斯坦多项式,分别是低通图滤波器和高通图滤波器中的可学习的参数。如上述两式所示,模型同时并行地学习了两个关注不同频段的滤波器。
[0038]
最后,模型通过使用注意力机制计算对高频信号和低频信号的相对权重:
[0039][0040][0041]
其中,w1和w2是可学习的参数矩阵,q是可学习的注意力参数向量,上角标t表示转置,tanh表示激活函数。将相对权重进行归一化后得到最终的注意力分数:
[0042][0043][0044]
节点i的最终表征由高频信号与低频信号通过注意力分数组合而成:
[0045][0046]
注意力机制的应用有效地强调了正常和异常节点的信号之间的对比差异,从而使这种差异更容易被多层感知机mlp层捕获,获得更好的异常检测结果。将得到的节点的最终表征放入mlp中,通过mlp层即可获得分类结果,即预测每个节点是否是图中异常节点。
[0047]
综上,本发明通过给定用户之间的通话网络,通过分析图中异常节点与图高频信号间的关系,训练端到端的谱域图神经网络分类框架,捕捉图中高低频信号,能够对图数据中异常节点进行精准识别。
[0048]
基于图神经网络的电信诈骗检测方法、系统和存储介质
[0049]
在本实施例中还提供了一种基于图神经网络的电信诈骗检测系统,该系统用于实现上述实施例,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
[0050]
所述的系统包括:
[0051]
通话网络数据获取模块,其用于获取通话网络中表征用户信息的节点特征矩阵,将节点特征作为节点的原始信号;
[0052]
低通图滤波器模块,其用于对节点的原始信号进行滤波,得到滤波后的低频信号;
[0053]
高通图滤波器模块,其用于对节点的原始信号进行滤波,得到滤波后的高频信号;
[0054]
注意力模块,其用于聚合每一个节点的邻域中的高频信号和低频信号,得到每一节点的低频表示和高频表示,并计算高频信号和低频信号的注意力分数,将高频信号和低频信号的加权结果作为节点最终表征;
[0055]
分类器模块,其用于对节点最终表征进行分类,根据异常节点分类结果识别出电信诈骗用户。
[0056]
本实施例中,还包括:
[0057]
训练模块,其用于根据带有正常节点和异常节点标签的节点特征矩阵对低通图滤波器模块、高通图滤波器模块、注意力模块和分类器模块进行端到端训练。
[0058]
上述系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的利用人在回路图神经网络在通话网络中识别诈骗用户的方法。
[0059]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0060]
本实施例通过一项具体是实验来验证本发明的实施效果。
[0061]
(1)数据说明
[0062]
本实验使用的数据集由中国电信提供,应用场景主要是欺诈者通过伪造身份、编造信息通过网络、短信或者电话等方式进行钱财诈骗。该数据集由340,751个节点和1,575,498个边组成,同时还有每个通话的属性特征,包括该通电话的业务类型、通话时长、地理位置等,其中每个节点代表一个手机号(也是一个电信用户),连接两个节点的边意味着两个用户之间至少有一次通信。在此数据集中的所有用户中,有15,755个欺诈用户,对应的标签定义为1,其他用户标记为0。
[0063]
(2)对比实验。
[0064]
为了全面验证本发明模型的有效性,本次实验将其与几种不同类型的基线模型进行了比较,与本发明模型进行对比的基线模型包括:
[0065]
特征工程方法:基于对数据集以及场景的具体分析,进行特征工程处理,使用逻辑回归(logistic regression)来检测异常节点。
[0066]
图卷积网络(gcn):gcn是基于图结构数据的直推式半监督机器学习算法,是深度
神经网络算法在图上的应用,gcn从频谱图卷积的框架开始。图神经网络的主要操作就是图卷积操作,卷积的滤波器参数通常在图结构中的所有位置中共享。
[0067]
图注意力网络(gat):gat会通过计算注意力分数值为节点的邻居分配不同权重,这样也不用像基于拉普拉斯矩阵计算的方法需要知道整个网络结构,或者进行矩阵乘法运算。
[0068]
dominant[ding 2019]:dominant模型使用图卷积网络(gcn)对属性网络进行建模。通过gcn和自动编码器之间的协同作用,它可以通过从结构和属性的角度测量节点的重构错误来发现异常实例。核心思想就是异常节点重构图结构和属性产生的误差会大于正常节点重构产生的。
[0069]
测试结果如表1所示。
[0070]
表1数据集的测试结果(%)
[0071][0072]
由表1可见,本发明在电信诈骗异常检测中表现均优于其他参与比较的方法,f1分数有6%的提升。这个结果验证了本发明在通话网络上进行电信诈骗检测的有效性,同时兼顾了电信诈骗检测的召回率以及准确率,能够达到一个不错的效果。
[0073]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1