异质网络的异常目标检测方法、装置、设备及存储介质与流程

文档序号:18030378发布日期:2019-06-28 22:35阅读:152来源:国知局
异质网络的异常目标检测方法、装置、设备及存储介质与流程

本发明涉及大数据领域,尤其是涉及一种异质网络的异常目标检测方法、装置、设备及存储介质。



背景技术:

网络在现实生活中普遍存在,如生物体内的蛋白质网络,蛋白质之间具有不同的基因调控转录与代谢的相互作用,这个称之为底层细胞网络。异常的蛋白质作用会导致疯牛病之类的疾病,不管生吃还是烧过再吃都会感染到人群,形成共源疾病网络,这个我们叫中间层人类疾病网络,类似基因的人群会形成对某些疾病,比如忧郁症、焦虑症。更加敏感的子网络,位于顶层的网络如社交网络,人与人之间的链接,家庭关系,朋友关系,性病传播关系,权色交易网络,权钱交易网络;如贿赂犯罪关系网络,贿赂犯罪会对国家和人民造成巨大损失,对社会产生恶劣影响,且往往犯罪行为隐蔽,犯罪关系错综复杂,给职务犯罪办案人员带来了非常大的办案难度,导致很多案件无法快速侦破;另一方面,贿赂犯罪社会关系网络以图的形式存在,且网络中的节点和边的类型具有多样性,属于异质网络,如节点的类型可以是涉案人员、犯罪嫌疑人、相关利益公司、相关政府机构等,边的类型可以是有向边(即网络中的节点链接具有方向,如行贿人员和受贿人员就是由前者指向后者的有向边)和无向边(即网络中的节点链接不具有方向,如朋友之间,两者之间存在链接,却不存在方向)。另外,贿赂犯罪网络处于不断地动态演化状态,如嫌疑人销毁证据,虽然办案人员具有丰富的办案经验,但是由于涉案关系的错综复杂以及嫌疑人往往是政府工作人员,具有一定的反侦察能力。

现有技术中,对这种动态异质网络的学习方式一般是基于随机行走和skip-gram,以及矩阵分解的方式,随机行走和skip-gram是受自然语言处理领域的一种启发,将网络中相连的若干节点看作自然语言处理中的一句话,从而利用自然语言处理技术对网络节点进行表征。矩阵分解是通过将图的高维拉普拉斯矩阵分解成两个维度更小的矩阵乘积的形式,但是计算代价高且很难自然地处理动态网络问题。另一方面,传统方法往往利用凸优化技术对此非凸问题进行优化,容易陷到局部最优解,使其学习准确率受到极大限制。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的是提供一种异质网络的异常目标检测方法、装置、设备及存储介质。

本发明所采用的技术方案是:

第一方面,本发明提供一种异质网络的异常目标检测方法,该异常目标检测方法包括:获取异质网络的输入信息数据;根据该输入信息数据建立图神经网络模型;基于该输入信息数据和该图神经网络模型输出异常目标,该异常目标为该异质网络的节点、社团或链接。

其中,该基于该输入信息数据和该图神经网络模型输出异常目标的步骤具体包括:基于该输入信息数据和该图神经网络模型得到该异质网络的节点的低维表征向量矩阵;从该表征向量矩阵中抽取出社团、节点及链接;对该社团、该节点及该链接,采用机器学习算法输出异常目标。

其中,该对该社团采用机器学习算法输出异常目标的步骤具体包括:将该异质网络划分为k个社团,那么可以定义一个k×k的对称矩阵e,该对称矩阵的元素eij用来表示社团i和社团j之间连边的数目与整个网络所有连边数目的比值,ei为连接到社团i中所有节点的边数占整个网络所有连边数目的比值;分别计算该k个社团的异常值,每个社团的异常值根据分数维模块性计算公式计算:qi为该社团的异常值,取值为复数,n为异常类型,n=3,4,5,6,7;将异常值的绝对值偏离平均值幅度大于标准差的预定百分比的社团作为异常社团,该异常社团为该异常目标。

其中,该对该节点或该链接采用机器学习算法输出异常目标的步骤具体包括:将该节点或该链接输入到机器学习算法中,得出该节点或该链接是否为异常;如果该节点或该链接为异常,则该节点或该链接为该异常目标。

其中,该根据该输入信息数据建立图神经网络模型的步骤具体包括:从该输入信息数据的节点中确定目标节点,将该目标节点作为该图神经网络模型的第一层;选择目标节点的邻居节点,将该目标节点的邻居节点作为该图神经网络模型的第二层;再选择该邻居节点的邻居节点,将该邻居节点的邻居节点作为该图神经网络模型的第三层;以此类推,直至完成该图神经网络模型的最底层的邻居节点的选择;从该最后一层向上传播训练该图神经网络模型。

其中,该图神经网络模型的邻居节点信息聚集公式为:其中,hv代表节点v的表征,σ是非线性激活函数,w是网络中学习的权重参数,u代表节点v的邻居节点,hu代表节点u的表征,n代表节点的所有邻居节点集合,b是对于不同邻居节点分配的权重参数,t代表当前时刻,t+1代表下一时刻。

其中,采用头脑风暴算法对该图神经网络模型的权重参数进行优化。

第二方面,本发明提供一种异质网络的异常目标检测装置,该异常目标检测装置包括:数据获取模块,用于获取异质网络的输入信息数据;模型建立模块,用于根据该输入信息数据建立图神经网络模型;以及目标输出模块,用于基于该输入信息数据和该图神经网络模型输出异常目标。

第三方面,本发明提供一种异质网络的异常目标检测设备,包括:至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行如上述的方法。

第四方面,本方面提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算机执行如上述的方法。

本发明的有益效果是:

本发明将异质网络的输入信息数据建立图神经网络模型,基于该输入信息数据和该图神经网络模型输出异常目标。该方法采用图神经网络模型,该模型与实际数据逼近程度高,从而使得检测结果准确。

进一步地,本发明基于该图神经网络模型获得该异常网络的低维表征向量矩阵,从该低维表征向量矩阵中抽取出节点、社团或链接,采用机器学习算法得出该节点、该社团或该链接是否为异常目标。该计算方法相较于现有技术的随机行走、skip-gram以及矩阵分解的计算法,计算代价小,计算效率高。

进一步地,本发明的图神经网络模型通过利用邻居节点的特征信息来更新目标节点的表征,不仅充分地利用了图中的拓扑结构信息,还利用了神经网络模型数据分布的强大近似能力,对于处理图数据结构具有很好的表征效果。

进一步地,在本发明的图神经网络模型中,对于不同类型的邻居节点采用不同的权重进行聚合信息,且分配的权重同样是可以进行自适应训练的,这样可以区分同一个网络中不同类型的节点对于目标节点的影响程度。

并且,由于该图神经网络模型仅仅利用网络的局部信息(邻居节点)而不需要整个网络的全局信息,且同层之间的网络权重是共享的,即同一层中所有神经元的权重是相同的,所以图神经网络模型可以自然的对新加进来的节点直接进行前馈输出,并由反向传播进行训练权重,而不需要重新训练网络结构,这对于处理关系网络的动态特征也十分适用。

此外,对于权重参数的学习过程,不采用基于梯度的方法,而采用基于群体智能思想的头脑风暴优化算法对图神经网络的权重进行优化,可以避免优化结果陷入局部最优解而降低准确度。

本发明可广泛应用于大数据的异质网络数据处理和分析检测。

附图说明

图1是本发明异质网络的异常目标检测方法的一实施例的流程示意图;

图2是图1的一应用实施例的步骤s11的流程示意图;

图3是图1的一应用实施例的步骤s12的流程示意图;

图4是图1的步骤s13的流程示意图;

图5是本发明异质网络的异常目标检测装置的一实施例的结构示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

实施例一:

请参阅图1,图1是本发明异质网络的异常目标检测方法的一实施例的流程示意图。如图1所示,该异常目标检测方法包括如下步骤:

s11:获取异质网络的输入信息数据;

其中,异质网络可以是贿赂犯罪社会关系网络、肥胖人群关系网络、艾滋病人群关系网络等各种社交关系网络。

以贿赂犯罪社会关系网络举例,将贿赂犯罪社会关系网络划分为节点和边,其中,节点具有:人或公司两种类型,边具有:有向边(如行贿、受贿)和无向边(如朋友关系)两种类型。

此外,本步骤还具有数据存储功能,可以将异质网络的输入信息数据通过分布式存储方式进行大规模存储和调用,使其可以建立一个完备的智能数据库,方便相关人员进行调用。

具体地,如图2所示,检察人员根据被举报人现有的社会关系网络和举报人提供的线索,将被举报人的社交状况数据更新到数据库中,生成被举报人最新的贿赂犯罪社会关系的数据信息。比如,与被举报人联系最紧密的人和公司有哪些,联系最紧密的人的又与哪些公司和人联系紧密,如此类推,得到被举报人贿赂犯罪社会关系网络的最新输入数据。

s12:根据该输入信息数据建立图神经网络模型;

在步骤s12中,以贿赂犯罪社会关系网络举例。具体地,如图3所示,该输入信息数据主要为节点-人员和节点-公司构成的网络信息,▲表示网络中的人员,●表示网络中的公司,△表示网络中的新加人员,○表示网络中的新加公司。该输入数据包括节点c1、c2、c3、p1、p2、p3、p4及p5。

对上述输入数据建立图神经网络,首先,确定目标节点,如c2节点作为第一层;其次,选择目标节点的邻居节点,如p2、p3作为图神经网络的第二层;最后,再选择p2、p3节点的邻居c1、c3,将c1、c3作为图神经网络的第三层。以此类推,可以根据需要不断利用节点的邻居增加图神经网络的层数,再从最后一层向上传播进行训练图神经网络。

其中,该图神经网络模型的邻居节点信息聚集公式为:其中,hv代表节点v的表征,σ是非线性激活函数,w是网络中学习的权重参数,u代表节点v的邻居节点,hu代表节点u的表征,n代表节点的所有邻居节点集合,b是对于不同邻居节点分配的权重参数,t代表当前时刻,t+1代表下一时刻。

其中,该图神经网络模型的权重参数矩阵w和b中元素的取值范围均为(0,1)之间的实数。

其中,采用头脑风暴算法对该图神经网络模型的权重参数w和b进行优化。具体地,可采用如下步骤进行:

(1)对该图神经网络中的权重参数w和b进行随机初始化,得到权重参数矩阵;

(2)采用聚类算法对该权重参数矩阵进行聚类,得到多类权重矩阵,每类的中心为对应的权重矩阵的第一行;

(3)生成第一随机数与预先设置的第一超参数进行比较,如果该第一随机数大于等于该第一超参数,则随机选择一类权重矩阵的中心,并在该一类权重矩阵中随机选择一个元素以一个随机数代替该元素,生成一类新向量;反之,

(4)生成第二随机数与预先设置的第二超参数进行比较,如果该第二随机数大于等于该第二超参数,则随机选择一类权重矩阵的中心,并在该一类权重矩阵中随机选择一个元素以一个随机数代替所述元素,生成一类新向量;反之,

(5)随机选择两类权重矩阵的中心,并利用交叉重组操作得到两个新向量;

(6)判断是否达到终止条件,如果达到终止条件,则输出优化权重参数矩阵;反之,则返回到步骤(2),进行下一轮优化。

s13:基于该输入信息数据和图神经网络模型输出异常目标。

其中,该异常目标可以是异质网络的节点、社团或链接,社团为多个节点组成的组合,链接为节点和节点之间的关系。对应到实际贿赂犯罪社会关系网络中,异常目标为嫌疑人或嫌疑公司、或两个及两个以上的嫌疑人和嫌疑公司组成的基团或由两个节点链接构成的嫌疑边。

如图4所示,步骤s13具体包括如下步骤:

s131:基于该输入信息数据和该图神经网络模型得到异质网络的节点的低维表征向量矩阵;

在步骤s131中,基于该输入信息数据和该图神经网络模型得到网络中节点的低维表征向量矩阵h:

其中,h是一个由n行m列构成的矩阵,n行代表着网络中一共有n个节点,m列代表每个节点表征之后的维度。

s132:从该表征向量矩阵中抽取出社团、节点及链接;

在步骤s132中,从节点低维表征矩阵h中抽取出社团、节点、链接的表达形式如下:

n=[n11…n1m],

e=f(ni,nj),

其中c代表着网络中的社团矩阵,c中的元素由h中的若干行组成;

其中n代表着网络中的节点向量,n中的元素由h中的每行组成;

其中e代表着网络中的链接向量,e中的元素由对两个节点向量的某种操作组成,如两个节点相减。

s133:对该社团、该节点及该链接,采用机器学习算法输出异常目标。

在步骤133中,对节点或链接的异常检测是一个二分类问题,如果该节点或该链接为异常,则该节点或该链接为异常目标。采用分数维模块性评价社团的结构异常,该异常社团为异常目标。

可以利用各种机器学习算法对异常目标进行检测,例如可采用向量机、决策树、逻辑回归等常用的机器学习算法。以逻辑回归算法进行举例说明:

其中p(y=0|x)代表着逻辑回归输出为正常的概率,p(y=1|x)代表着逻辑回归输出为异常的概率,x可以是c、n、e,分别代表了对社团、节点及链接的异常检测。

采用分数维模块性评价社团的异常。将该异质网络划分为k个社团,那么可以定义一个k×k的对称矩阵e,该对称矩阵的元素eij用来表示社团i和社团j之间连边的数目与整个网络所有连边数目的比值,ei为连接到社团i中所有节点的边数占整个网络所有连边数目的比值。

分别计算该k个社团的异常值,每个社团的异常值根据分数维模块性计算公式计算:n=3,4,5,6,7,qi为该社团的异常值,取值为复数,n为异常类型。

将异常值的绝对值偏离平均值幅度大于标准差的预定百分比的社团作为异常社团,该异常社团为该异常目标。

以下具体分析本实施例相较于现有技术的改进点:

首先,在本实施例中,本发明将异质网络的输入信息数据建立图神经网络模型,基于该输入信息数据和该图神经网络模型输出异常目标。该方法采用图神经网络模型,模型与实际逼近程度高,从而使得检测结果准确。

进一步地,本实施例基于该图神经网络模型获得该异常网络的低维表征向量矩阵,从该低维表征向量矩阵中抽取出节点、社团或链接,采用机器学习算法得出该节点、该社团或该链接是否为异常目标。该计算方法相较于现有技术的随机行走、skip-gram以及矩阵分解的计算法,计算代价小,计算效率高。

进一步地,本发明的图神经网络模型通过利用邻居节点的特征信息来更新目标节点的表征,不仅充分地利用了图中的拓扑结构信息,还利用了神经网络模型数据分布的强大近似能力,对于处理图数据结构具有很好的表征效果。

进一步地,在本发明的图神经网络模型中,对于不同类型的邻居节点采用不同的权重进行聚合信息,且分配的权重同样是可以进行自适应训练的,这样可以区分同一个网络中不同类型的节点对于目标节点的影响程度。

并且,由于该图神经网络模型仅仅利用网络的局部信息(邻居节点)而不需要整个网络的全局信息,且同层之间的网络权重是共享的,即同一层中所有神经元的权重是相同的,所以图神经网络模型可以自然的对新加进来的节点直接进行前馈输出,并由反向传播进行训练权重,而不需要重新训练网络结构,这对于处理关系网络的动态特征也十分适用。

此外,对于权重参数的学习过程,不采用基于梯度的方法,而采用基于群体智能思想的头脑风暴优化算法对图神经网络的权重进行优化,可以避免优化结果陷入局部最优解而降低准确度。

本实施例的实施方法可采用hadoop框架实现。hadoop是一个分布式文件存储和运算系统框架,具有高可靠性、高扩展性以及高效性,此外,基于它的开源特性还带来了低成本的优势。

实施例二:

请参阅图5,图5是本发明异质网络的异常目标检测装置的一实施例的结构示意图。如图5所示,该异常目标检测装置包括数据获取模块51、模型建立模块52及目标输出模块53,目标输出模块53包括节点结果输出单元531、节点信息分析单元532及异常目标生产单元533。

其中,数据获取模块51用于获取异质网络的输入信息数据;模型建立模块52用于根据该输入信息数据建立图神经网络模型;目标输出模块53用于基于该输入信息数据和该图神经网络模型输出异常目标。

其中,节点结果输出单元531用于基于该输入信息数据和该图神经网络模型得到该异质网络的节点的低维表征向量矩阵;节点信息分析单元532用于从表征向量矩阵中抽取出社团、节点及链接;异常目标生成单元533用于对该社团、该节点及该链接,采用机器学习算法输出异常目标。

其中,该图神经网络模型的邻居节点信息聚集公式为:其中,hv代表节点v的表征,σ是非线性激活函数,w是网络中学习的权重参数,u代表节点v的邻居节点,hu代表节点u的表征,n代表节点的所有邻居节点集合,b是对于不同邻居节点分配的权重参数,t代表当前时刻,t+1代表下一时刻。

其中,模型建立模块52采用头脑风暴算法对该图神经网络模型的权重参数进行优化。

此外,数据获取模块51还具有数据存储功能,可以将异质网络的输入信息数据通过分布式存储方式进行大规模存储和调用,使其可以建立一个完备的智能数据库,方便相关人员进行调用。

在本实施例中,数据获取模块51、模型建立模块52及目标输出模块53的具体工作流程和步骤同实施例一的方法的工作流程和步骤,在此不作赘述。

实施例三:

本发明提供一种异质网络的异常目标检测设备,包括:至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行如实施例一的方法。

实施例四:

本发明提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算机执行如实施例一的方法。

以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1