基于动态图的群体识别方法和系统与流程

文档序号:30581834发布日期:2022-06-29 12:41阅读:129来源:国知局
基于动态图的群体识别方法和系统与流程

1.本公开涉及金融风险控制技术领域,具体涉及基于动态图的群体识别方法和系统。


背景技术:

2.现有技术的群体发现方法和系统通常基于静态图,针对所构建的静态图执行louvain等团体发现算法以识别目标群体。这种方案取得了一定效果,但对于体系内突发的群体识别能力有限。
3.针对现有技术中基于静态图的群体识别方法的不足,期望提供一种改进的基于动态图的群体识别方法。


技术实现要素:

4.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是以简化形式给出一个或多个方面的一些概念以作为稍后给出的更详细描述之序言。
5.本公开提出了一种基于动态图的群体识别方法,包括:获取预定时间段内的事务数据集;基于该时间段和该事务数据集来构建动态图,其中该动态图中的每个节点映射成低维向量;基于该动态图中每个节点的低维向量来确定与事务数据在该动态图中的流向和流速相关的流转信息;基于该事务数据的流转信息来捕捉该动态图中具有异常流转模式的事务数据流;基于所捕捉的事务数据流来识别目标对象;以及基于该目标对象与其他对象的事务相关关系来识别目标群体。
6.在本公开的一实施例中,基于该时间段和该事务数据集来构建动态图进一步包括:基于该时间段和该事务数据集获得与每个对象相关联的对象特征和事务特征,其中该对象特征包括对象的历史标签、一阶特征、二阶特征,该事务特征包括对象执行的每一事务的事务发生时间和事务相关数额;基于该对象特征和该事务特征来构建该动态图。
7.在本公开的一实施例中,具有异常流转模式的事务数据流包括满足以下一项或多项的事务数据流:同一对象执行的全部事务的事务相关数额的均值大于第一阈值;同一对象执行的相邻事务的事务发生时间的间隔小于第二阈值;以及同一对象执行的事务的流转链路大于预设跳数。
8.在本公开的一实施例中,基于动态图中每个节点的低维向量来确定与事务数据在该动态图中的流向和流速相关的流转信息以及基于该事务数据的流转信息来捕捉该动态图中具有异常流转模式的事务数据流是通过对该动态图执行动态图表征算法来实现的。
9.在本公开的一实施例中,动态图表征算法包括tgat算法、gat算法、或graphsage算法。
10.在本公开的一实施例中,基于该目标对象与其他对象的事务相关关系来识别目标
群体进一步包括:基于该目标对象与其他对象的事务相关关系来构建数据流向图,其中该数据流向图中的根节点表示该目标对象,非根节点表示与该目标对象有事务相关关系的其他对象;基于该数据流向图中节点的数据流入占比来识别该目标群体。
11.在本公开的一实施例中,基于该数据流向图中节点的数据流入占比来识别该目标群体进一步包括:对该数据流向图中的根节点的流出数据以及非根节点的流入数据和流出数据进行标记;计算该数据流向图中所有非根节点的数据流入占比,其中每一非根节点的数据流入占比表示该非根节点的流入数据与该根节点的流出数据的比率;确定数据流入占比超过预设阈值的非根节点;将该目标对象以及所确定的非根节点所表示的对象识别为该目标群体。
12.本公开还提出了一种基于动态图的群体识别系统,包括:数据获取模块,获取预定时间段内的事务数据集;动态图构建模块,基于该时间段和该事务数据集来构建动态图,其中该动态图中的每个节点映射成低维向量;对象识别模块,其被配置成:基于该动态图中每个节点的低维向量来确定与事务数据在该动态图中的流向和流速相关的流转信息;基于该事务数据的流转信息来捕捉该动态图中具有异常流转模式的事务数据流;基于所捕捉的事务数据流来识别目标对象;以及群体识别模块,基于该目标对象与其他对象的事务相关关系来识别目标群体。
13.在本公开的一实施例中,动态图构建模块进一步:基于该时间段和该事务数据集获得与每个对象相关联的对象特征和事务特征,其中该对象特征包括对象的历史标签、一阶特征、二阶特征,该事务特征包括对象执行的每一事务的事务发生时间和事务相关数额;基于该对象特征和该事务特征来构建该动态图。
14.在本公开的一实施例中,具有异常流转模式的事务数据流包括满足以下一项或多项的事务数据流:同一对象执行的全部事务的事务相关数额的均值大于第一阈值;同一对象执行的相邻事务的事务发生时间的间隔小于第二阈值;以及同一对象执行的事务的流转链路大于预设跳数。
15.在本公开的一实施例中,对象识别模块进一步:通过对该动态图执行动态图表征算法来实现基于该动态图中每个节点的低维向量来确定与事务数据在该动态图中的流向和流速相关的流转信息以及基于该事务数据的流转信息来捕捉该动态图中具有异常流转模式的事务数据流。
16.在本公开的一实施例中,动态图表征算法包括tgat算法、gat算法、或graphsage算法。
17.在本公开的一实施例中,群体识别模块进一步:基于该目标对象与其他对象的事务相关关系来构建数据流向图,其中该数据流向图中的根节点表示该目标对象,非根节点表示与该目标对象有事务相关关系的其他对象;基于该数据流向图中节点的数据流入占比来识别该目标群体。
18.在本公开的一实施例中,群体识别模块进一步:对该数据流向图中的根节点的流出数据以及非根节点的流入数据和流出数据进行标记;计算该数据流向图中所有非根节点的数据流入占比,其中每一非根节点的数据流入占比表示该非根节点的流入数据与该根节点的流出数据的比率;确定数据流入占比超过预设阈值的非根节点;将该目标对象以及所确定的非根节点所表示的对象识别为该目标群体。
19.本公开还提出了一种计算机可读存储介质,其存储计算机程序,该计算机程序能被处理器执行以执行前述基于动态图的群体识别方法。
20.本公开的技术方案构建包含时间信息的动态图,通过捕捉动态图中的异常流转模式来识别目标对象,并基于目标对象与其他对象的事务相关关系(例如,交易资金关系)识别目标群体。该方法得到的群体成员准确率高达90%以上,且具有较高的时效性和可解释性,能够加强非法金融活动防控的能力,提升运营审理上报的时效,具有重大的业务价值。
附图说明
21.结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显。在附图中,相同附图标记始终作相应标识。要注意,所描述的附图只是示意性的并且是非限制性的。在附图中,一些部件的尺寸可放大并且出于解说性的目的不按比例绘制。
22.图1示出了本公开一实施例的基于动态图的群体识别架构。
23.图2示出了本公开一实施例的基于动态图的群体识别方法的示例性流程图。
24.图3示出了tgat算法中的自注意力机制的示意图。
25.图4示出了本公开一实施例的基于目标对象与其他对象的事务相关关系来识别目标群体的示例性过程。
26.图5示出了本公开一实施例的基于目标对象与其他对象的事务相关关系来识别目标群体的拓扑结构图。
27.图6示出了本公开一实施例的基于动态图的群体识别系统的框图。
28.图7示出了本公开一实施例的包括基于动态图的群体识别系统的设备框图。
具体实施方式
29.为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图对本公开进一步详细说明。在以下详细描述中,阐述了许多具体细节以提供对所描述的示例性实施例的透彻理解。然而,对于本领域技术人员显而易见的是,可以在没有这些具体细节中的一些或全部的情况下实践所描述的实施例。在其它示例性实施例中,没有详细描述公知的结构,以避免不必要地模糊本公开的概念。应当理解,本文所描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。同时,在不冲突的情况下,实施例所描述的各个方面可以任意组合。
30.当前的团体发现主要采取关系扩展的方法:即针对某个成员,按照资金、媒介关系等扩展出与之有关的所有成员,逐个分析各个成员的交易行为判断是否为团体成员。之后针对扩展的成员再次扩展,依此类推,直至扩展得到合适规模的团体。这种团体发现方法主观性较强,需要耗费较多的人力进行审理,不具备自动化审理能力。
31.另外一种常规方式是通过团体发现算法进行团体生成:即用全量风险客户的关系媒介进行构图,然后用lpa、louvain算法进行团体发现,根据生成团体的风险浓度判断该团体是否是非法金融活动团体。这种方法基于所构建的静态图,且在构图前没有对客户进行建模,得到的团体精准率较低,审理效率不高,不满足业务场景的要求。
32.基于非法金融活动防控给出的审理经验,发现非法金融活动所涉及的交易大都存在着以下特点:(1)流转金额高:单个客户的平均每笔交易金额较大,并且在相对较短的时
间内流入流出金额接近;(2)流转速度快:因资金具有时间成本,多数的非法金融活动交易的流入流出时间间隔在3小时以内,资金停留在账户的时间很短;(3)流转链路异常:非法金融活动交易的资金链路大多在两跳以上,且为多个客户之间的资金交互。由此可见,在实际非法金融活动中,交易往往包含时间信息,且客户之间的交易是随时间动态变化的。因此,基于静态图的团体发现算法无法准确体现交易的动态变化信息,从而影响团体发现的精准率。
33.有鉴于此,本公开提出了一种基于动态图的近线团体识别方案。首先,按天提取全量交易数据,在交易层面构建动态图;针对动态图执行动态图表征算法以捕捉资金的异常流转模式,对天级别的可疑账户进行识别;基于所识别的可疑账户及其交易构建资金流向图,进而找出目标团体。该方法得到的团体成员准确率高达90%以上,且具有较高的时效性和可解释性,能够加强非法金融活动防控的能力,提升运营审理上报的时效,具有重大的业务价值。
34.图1示出了本公开一实施例的基于动态图的群体识别架构100。
35.如图1所示,本公开的基于动态图的群体识别架构100主要包括三层:特征清洗层、对象识别层、以及群体发现层。
36.在特征清洗层,提取特定时间段内的事务数据集(例如,按天提取全量交易数据)。通过特征清洗从事务数据集中获取与每个对象(例如,执行交易的客户)相关联的对象特征和事务特征。对象特征可以包括对象的历史标签(例如,历史审理标签)、一阶特征、二阶特征。事务特征可以包括对象执行的每一事务的事务发生时间和事务相关数额,例如,该对象执行的每笔交易的交易时间和交易金额。
37.对象的历史标签可以包括非法金融活动防控的审理机构对该对象的历史审理结论,该审理结论可以作为标签用于模型训练。
38.在对象识别层,基于该时间段和事务数据集来构建动态图。例如,可以基于与每个对象相关联的对象特征和事务特征来构建该动态图,以将事务的时间变化信息纳入动态图中。随后,可以对该动态图执行动态图表征算法,以捕捉动态图中的异常事务数据流(例如,具有异常流转模式的事务数据流)。基于该异常事务数据流,可以识别目标对象(例如,可疑账户)。
39.在群体发现层,基于在对象识别层所识别的目标对象与其他对象的事务相关关系(例如,交易关系)来构建数据流向图。通过计算图中各节点的数据交互关系,可以确定目标节点(即,与目标对象属于同一群体的其他对象)。最后,可以将目标对象以及所确定的其他对象识别为目标群体。可以将所识别的目标群体报告给非法金融活动防控的审理机构进行审理。
40.应注意,虽然本公开的各方面在大部分描述中是结合非法金融活动防控场景来进行解说的,但本公开的技术可以应用于各种其他场景中的目标群体识别。举例而言,在电子商务场景中,可以使用本公开的技术来识别恶意评价群体。
41.图2示出了本公开一实施例的基于动态图的群体识别方法200的示例性流程图。
42.方法200开始于步骤202。在步骤202,获取预定时间段内的事务数据集。
43.举例而言,在非法金融活动防控场景中,可以获取预定时间段内交易的交易数据。非法金融活动团体发现按照时间窗口的长短可分为“在线-近线-离线”。近线团体发现只产
出当天的团体。在本公开的一实施例中,为了识别近线团体,可以按天获取全量交易数据。
44.在电子商务场景中,为了识别恶意评价群体,可以获取特定时间段内的所有交易评价数据。
45.在步骤204,基于该时间段和该事务数据集来构建动态图,其中该动态图中的每个节点映射成低维向量。
46.真实的图(网络)往往在高维空间中。在原始的高维空间中含有冗余信息以及噪音信息,在实际应用中会造成误差,降低准确率。为此,采用图表征(graph embedding)算法来对原始图形数据进行降维。通过降维,可以减少冗余信息所造成的误差。此外,还可以通过降维算法来寻找数据内部的本质结构特征。
47.在实际实现中,首先根据实际问题构造一个d维空间(即,原始高维空间)中的图,然后将图中的节点嵌入(映射)到d(d《《d)维向量空间中的低维向量。在节点嵌入后,节点在低维空间中的表征(低维向量)保留原始高维空间中的拓扑结构信息和节点信息。在本公开的实施例中,低维向量包括节点的图结构信息(例如,节点与其他节点的连接关系)以及该节点和邻居节点的特征信息,并且图结构信息和节点的特征信息均随时间变化。
48.在本公开的一实施例中,基于该时间段和该事务数据集来构建动态图进一步包括:基于该时间段和该事务数据集获得与每个对象相关联的对象特征和事务特征,其中对象特征包括对象的历史标签、一阶特征、二阶特征,事务特征包括对象执行的每一事务的事务发生时间和事务相关数额;基于对象特征和事务特征来构建动态图。在优选实施例中,对象特征和事务特征是通过特征清洗获得的。
49.在本公开的一实施例中,动态图中的每个节点可以表示一个对象,与该对象相关联的对象特征可以包含在节点的属性中。动态图中相邻节点之间的边可以表示对应的对象之间具有事务相关关系(例如,交易关系),与对象相关联的事务特征可以包含在边的属性中。由于对象执行的事务具有随时间变化的特性,因此所构建动态图中的节点、每个节点的邻居节点、以及节点之间的边都是随时间不断变化的。也就是说,在不同时间,动态图中的节点数量、每个节点的邻居节点数量、动态图中的边的数量都可能不同。由此,通过基于对象特征和事务特征来构建动态图,可以很好地体现对象执行的事务的时间信息、以及不同对象之间随时间变化的事务相关关系,从而精准地体现随时间变化的事务数据流。
50.在步骤206,基于该动态图中每个节点的低维向量来确定与事务数据在该动态图中的流向和流速相关的流转信息。
51.在本公开的一实施例中,非法金融活动防控场景中的流转信息可以包括执行相关事务的对象(例如,执行交易的客户)、事务数据的相关数额(例如,交易金额)、事务数据在动态图中的流转路径(例如,交易资金的流动路径)、事务数据在动态图中的流转速度(例如,交易资金在不同对象之间流转的时间间隔)等等。
52.在本公开的一实施例中,电子商务场景中的流转信息可以包括执行相关事务的对象(例如,对商品进行评价的用户)、事务数据的相关数额(例如,被评价商品的价格)、事务发生时间(例如,用户评价商品的时间)、事务数据的层级(例如,用户a对商品的初次评价、用户a对用户b的商品评价(初次评价)的二次评价等等)、事务数据在动态图中的流转路径(例如,商品评价和商品信息在不同用户之间的转发/分享)等等。
53.在步骤208,基于该事务数据的流转信息来捕捉该动态图中具有异常流转模式的
事务数据流。
54.在本公开的一实施例中,具有异常流转模式的事务数据流包括满足以下一项或多项的事务数据流:同一对象执行的全部事务的事务相关数额的均值大于第一阈值;同一对象执行的相邻事务的事务发生时间的间隔小于第二阈值;以及同一对象执行的事务的流转链路大于预设跳数。
55.对于非法金融活动,如上文所讨论的,交易大都存在着以下特点:(1)流转金额高;(2)流转速度快;(3)流转链路异常。因此,当同一对象在预定时间段内(例如,一天内)执行的平均交易金额较大(例如,大于第一阈值)时,可以认为资金流转金额过高。当同一对象执行的相邻交易的时间间隔较小时(例如,小于第二阈值时),可以认为资金流转速度过快。此外,当同一对象执行的交易的资金链路大于预设跳数时,可以认为资金流转链路异常。当满足以上至少一个条件时,可以认为该交易数据流具有异常流转模式。以此方式,可以精准地捕捉异常的交易数据流。在具体实现中,第一阈值、第二阈值、预设跳数可以根据经验设定、通过训练或实验过程设定、或通过理论计算来设定。
56.应注意,上述异常流转模式仅是示例性的而非限制性的。在不同的应用场景中,可以定义不同的异常流转模式。例如,在电子商务场景中,如果同一对象在预定时间段内给出的差评总数/平均数较大(例如,大于第一阈值);同一对象针对不同商品给出差评的时间间隔较小(例如,小于第二阈值);不同对象对同一商品的差评内容相似度过高(例如,高于第三阈值);或者同一对象对商品差评的分享/转发次数过多,则可以认为该评价数据流具有异常流转模式。
57.在本公开的一实施例中,基于动态图中每个节点的低维向量来确定与事务数据在动态图中的流向和流速相关的流转信息以及基于事务数据的流转信息来捕捉动态图中具有异常流转模式的事务数据流是通过对动态图执行动态图表征算法来实现的。
58.在本公开的一实施例中,动态图表征算法可以包括tgat(temperal graph attention)算法、gat(graph attention network)算法、或graphsage(graph sample aggregate)算法。上述算法都是针对动态图的算法,这些算法可以很好地表征随时间动态变化的特征,进而实现节点分类和链路预测等任务。在本公开中,可以通过上述算法实现节点分类,识别出异常节点(例如,可疑账户)和非异常节点。优选地,可以采用tgat算法。
59.具体而言,tgat是一种可以在时序图上结合邻居节点特征及相应时间信息,对节点进行表征迭代的算法。tgat基于bochner定理开发了一套时间编码函数,可以刻画时间差信息。同时结合gat中的自注意力机制,构建了时序图上节点表征的迭代规则,在多个公开数据集上达到sota(state-of-the-art)。tgat算法可以很好地建模随时间变化的图。通过对可见节点进行训练,可以很好地执行节点分类和链路预测任务。在本公开的实施例中,可以通过tgat算法对动态图中的节点进行分类,以将动态图中的节点分为异常节点和非异常节点,其中异常节点可以包括事务数据流异常的节点。通过对动态图执行tgat算法,可以准确地找出目标对象。
60.应注意,除了tgat算法之外,也可以采用其他动态图表征算法,诸如gat算法、或graphsage算法。在实际实现中,本领域技术人员可以根据实际需要采用合适的动态图表征算法来捕捉具有异常流转模式的事务数据流。
61.在步骤210,基于所捕捉的事务数据流来识别目标对象。
62.通过所捕捉的具有异常流转模式的事务数据流,可以识别出执行异常事务的目标对象。
63.在步骤212,基于该目标对象与其他对象的事务相关关系(例如,交易关系)来识别目标群体。步骤212的详细过程将在图4中进一步解说。
64.图2的方法200对每天的全量交易构建动态图,基于动态图算法来识别目标对象,并基于目标对象的事务相关关系来识别目标群体。以此方式构建的动态图可以精确地刻画事务的时间信息,具有较高的准确率和较强的可解释性,能够节省运营审理人力,对于非法金融活动防控的智审提效具有重大意义。
65.图3示出了tgat算法中的自注意力机制的示意图300。
66.如图3的上部所示,对于输入的序列来说,自注意力机制能够对进行并行计算,极大提高了对进行特征提取(即获得)的速度。结合自注意力机制的并行计算原理如下:通过嵌入层(可任选)对输入的序列进行初步嵌入,得到作为自注意力层的输入i。将输入i分别乘以矩阵,得到三个矩阵。之后通过下式1得到注意力矩阵,进而得到输出。
67.在tgat算法中,优选地采用多头(multi-head)自注意力机制。多头自注意力机制将注意力计算的结果映射到多个子空间,相当于重复进行上述自注意力计算,但每次都随机初始化,因此最终结果相当于映射到多个子空间。
68.图3的下部示出了多头自注意力机制的示意结构。如图所示,q、k、v首先经过线性变换,然后计算自注意力(例如,放缩点积注意力)。注意,此处的线性变换和自注意力计算要进行h次,也就是所谓的多头,并且每次q、k、v进行线性变换的参数是不同的。之后将h次的自注意力结果进行拼接(concat),再进行一次线性变换得到的值作为多头自注意力的结果。具体而言,对于特定的,需要通过下式2与多组(例如,h组)相乘,从而得到多组;随后通过下式3得到注意力矩阵,进而经由式4得到输出:
69.因此,多头自注意力机制极大地提高了特征提取的速度,而且能够捕获不同子空间上的相关信息。
70.关于tgat算法以及自注意力机制的具体实现方式在机器学习领域是公知的,在此不再赘述。
71.图4示出了本公开一实施例的基于目标对象与其他对象的事务相关关系来识别目标群体的示例性过程400。
72.为清晰起见,与图5的拓扑结构图500相结合地解说图4。
73.在图4和图5中,基于目标对象与其他对象的事务相关关系来构建资金流向图,并基于策略查找的方式来找出目标群体。
74.过程400开始于步骤402。在步骤402,基于目标对象与其他对象的事务相关关系来构建数据流向图,其中该数据流向图中的根节点表示目标对象,非根节点表示与目标对象有事务相关关系的其他对象。例如,在非法金融活动防控场景中,数据流向图可以是对象之间的资金流向图。资金流向图中的根节点表示目标对象,资金流向图中的非根节点表示与目标对象有交易关系的其他对象。
75.结合图5,拓扑结构图500的根节点n0表示目标对象。以该目标对象为起点对象,构建资金流向图。如图5所示,根节点(第0层节点)n0为起点对象,非根节点为与该起点对象有交易关系的其他对象。
76.具体而言,第一层节点n
11
、n
12
和n
13
与根节点n0有交易关系,第二层节点n
21
、n
22
、n
23
、n
24
与第一层节点n
11
、n
12
和n
13
有交易关系,依此类推。
77.在图5中,节点之间的箭头表示对应对象之间有交易关系,并且箭头方向表示资金流向。例如,资金首先从根节点n0流向第一层节点n
11
、n
12
和n
13
。之后,资金从第一层节点n
11
流向第二层节点n
21
、n
22
,从第一层节点n
12
流向第二层节点n
23
,从第一层节点n
13
流向第二层节点n
24
,依此类推,直至资金流入第四层(最后一层)节点,至此资金流动结束。
78.应注意,虽然图5的拓扑结构示出了特定层数的节点以及各层节点之间的特定交易关系,但应理解,图5的拓扑结构仅是示例性的而非限制性的。在具体实现中,可以根据起点对象的实际资金流动情况构建不同层数的节点以及各层节点之间不同的交易关系。
79.在步骤404,对数据流向图中的根节点的流出数据以及非根节点的流入数据和流出数据进行标记。以非法金融活动防控场景为例,可以对资金流向图中的根节点的流出资金以及非根节点的流入资金和流出资金进行标记。
80.在图5中,计算从根节点n0流向第一层各个节点(n
11
、n
12
和n
13
)的资金。随后,依次
计算第一层、第二层和第三层中各节点的流入资金和流出资金,以及第四层(最后一层)中各节点的流入资金。之后对计算出的每个节点的流入和/或流出资金进行标记。
81.在步骤406,计算数据流向图中所有非根节点的数据流入占比,其中每一非根节点的数据流入占比表示该非根节点的流入数据与根节点的流出数据的比率。在非法金融活动防控场景中,可以计算资金流向图中所有非根节点的资金流入占比,其中每一非根节点的资金流入占比表示该非根节点的流入资金与根节点的流出资金的比率。
82.在图5中,首先计算第一层各节点的流入资金与根节点n0流出的总资金的比率,随后计算第二层各节点的流入资金与根节点n0流出的总资金的比率,依此类推,直至计算出图中所有非根节点的资金流入占比。
83.为清晰起见,图5中用不同阴影图案表示资金流入占比处于不同范围的节点。具体而言,带横线阴影的节点(n
46
)表示资金流入占比在70%

100%之间的节点;带叉线阴影的节点(n
11
、n
12
、n
23
、n
31
、n
32
)表示资金流入占比在30%

70%之间的节点;不带阴影的节点表示资金流入占比在0%

30%之间的节点。应注意,图5中的范围划分仅是示例性的而非限制性的。在具体实现中,可以设置不同的范围划分。例如,在一不同实施例中,可以将资金流入占比划分为四个范围:0%

25%,25%

50%,50%

75%,75%

100%。
84.在步骤408,确定数据流入占比超过预设阈值的非根节点。
85.在本公开的一实施例中,可以预先设定某一阈值(诸如10%、20%、30%等)。如果非根节点的数据流入占比超过该阈值,则认为该节点所表示的对象与起点对象属于同一目标群体。在具体实现中,该预设阈值可以根据经验设定、通过训练或实验过程设定、或通过理论计算来设定。
86.在步骤410,将目标对象以及所确定的非根节点所表示的对象识别为目标群体。
87.在图5中,可以保留资金流入占比大于阈值的非根节点及其交易,这些非根节点所表示的对象连同根节点所表示的对象共同构成目标群体。
88.以30%的预设阈值为例,图5中资金流入占比大于30%的非根节点包括n
11
、n
12
、n
23
、n
31
、n
32
、n
46
。这些非根节点对应的对象连同根节点n0的起点对象共同构成目标群体。
89.在识别出目标群体之后,可以将目标群体上报给非法金融活动防控的审理机构进行审理。
90.应注意,图4和图5中所示出的基于目标对象与其他对象的事务相关关系来识别目标群体的过程和拓扑结构图是示例性的而非限制性的。在实际实现中,除了上述策略查找方式之外,还可以采用其他类型的团体发现算法,诸如louvain、lpa等。本领技术人员能够基于实际需要而采用不同的方式来发现目标团体/目标群体。另外,虽然图4和图5的目标群体发现过程是结合非法金融活动防控场景来描述的,但类似的过程也可以扩展到其他场景,诸如电子商务场景等。
91.图6示出了本公开一实施例的基于动态图的群体识别系统600的框图。
92.参见图6,系统600可以包括数据获取模块602、动态图构建模块604、对象识别模块606、以及群体识别模块608。这些模块中的每一者可在一条或多条总线610上直接或间接地彼此连接或通信。
93.数据获取模块602可以获取预定时间段内的事务数据集。
94.在非法金融活动防控的实施例中,为了识别近线团体,数据获取模块602可以获取
一天内的全量交易数据。
95.动态图构建模块604可以基于该时间段和该事务数据集来构建动态图,其中该动态图中的每个节点映射成低维向量。
96.在本公开的一实施例中,动态图构建模块604可以基于该时间段和该事务数据集获得与每个对象相关联的对象特征和事务特征,其中该对象特征包括对象的历史标签、一阶特征、二阶特征,该事务特征包括对象执行的每一事务的事务发生时间和事务相关数额;基于该对象特征和该事务特征来构建该动态图。
97.对象识别模块606可以基于动态图中每个节点的低维向量来确定与事务数据在该动态图中的流向和流速相关的流转信息;基于事务数据的流转信息来捕捉该动态图中具有异常流转模式的事务数据流;基于所捕捉的事务数据流来识别目标对象。
98.在本公开的一实施例中,具有异常流转模式的事务数据流包括满足以下一项或多项的事务数据流:同一对象执行的全部事务的事务相关数额的均值大于第一阈值;同一对象执行的相邻事务的事务发生时间的间隔小于第二阈值;以及同一对象执行的事务的流转链路大于预设跳数。
99.在本公开的一实施例中,对象识别模块606进一步通过对动态图执行动态图表征算法来实现基于动态图中每个节点的低维向量来确定与事务数据在该动态图中的流向和流速相关的流转信息以及基于该事务数据的流转信息来捕捉该动态图中具有异常流转模式的事务数据流。
100.在本公开的一实施例中,动态图表征算法可以包括tgat算法、gat算法、或graphsage算法。
101.群体识别模块608可以基于目标对象与其他对象的事务相关关系来识别目标群体。
102.在本公开的一实施例中,群体识别模块608可以进一步:基于目标对象与其他对象的事务相关关系来构建数据流向图,其中数据流向图中的根节点表示目标对象,非根节点表示与目标对象有事务相关关系的其他对象;基于数据流向图中节点的数据流入占比来识别目标群体。
103.在本公开的一实施例中,群体识别模块608可以进一步:对数据流向图中的根节点的流出数据以及非根节点的流入数据和流出数据进行标记;计算数据流向图中所有非根节点的数据流入占比,其中每一非根节点的数据流入占比表示该非根节点的流入数据与根节点的流出数据的比率;确定数据流入占比超过预设阈值的非根节点;将目标对象以及所确定的非根节点所表示的对象识别为目标群体。
104.虽然图6中示出了系统600的特定模块,但应理解,这些模块仅是示例性的而非限制性的。在不同的实现中,可以组合、拆分、移除这些模块中的一个或多个模块,或者添加另外的模块。例如,在一些实现中,对象识别模块606和群体识别模块608可以被合并成单个模块。在一些实现中,系统600还可以包括附加的模块,诸如用于将所识别的目标群体上报给审理机构的上报模块(图中未示出)。
105.图7示出了本公开一实施例的包括基于动态图的群体识别系统的设备700的框图。
106.该设备示出了一般硬件环境,可在其中根据本公开的示例性实施例应用本公开。
107.现在将参照图7描述设备700,其是可以应用于本公开的各方面的硬件设备的示例
性实施例。设备700可以是被配置为执行处理和/或计算的任何机器,可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理(pda)、智能电话、或其任何组合。上述系统可以全部或至少部分地由设备700或类似设备或系统实现。
108.设备700可包括可以经由一个或多个接口与总线712连接或与总线712通信的组件。例如,设备700可包括总线712、处理器702、存储器704、输入设备708、以及输出设备710等等。
109.处理器702可以是任何类型的处理器,并且可包括但不限于通用处理器和/或专用处理器(例如特殊处理芯片)、智能硬件设备(例如,通用处理器、dsp、cpu、微控制器、asic、fpga、可编程逻辑器件、分立的门或晶体管逻辑组件、分立的硬件组件、或其任何组合)。在一些情形中,处理器702可被配置成使用存储器控制器来操作存储器阵列。在其它情形中,存储器控制器(未示出)可被集成到处理器702中。处理器702可以负责管理总线和一般性处理,包括执行存储在存储器上的软件。处理器702还可以被配置成执行本文中所描述的与基于动态图的群体识别相关的各种功能。例如,处理器702可被配置成:获取预定时间段内的事务数据集;基于该时间段和该事务数据集来构建动态图,其中该动态图中的每个节点映射成低维向量;基于该动态图中每个节点的低维向量来确定与事务数据在该动态图中的流向和流速相关的流转信息;基于该事务数据的流转信息来捕捉该动态图中具有异常流转模式的事务数据流;基于所捕捉的事务数据流来识别目标对象;以及基于该目标对象与其他对象的事务相关关系来识别目标群体。
110.存储器704可以是可实现数据存储的任何存储设备。存储器704可包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光学介质、rom(只读存储器)、ram(随机存取存储器)、高速缓冲存储器和/或任何其它存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。存储器704可存储包括计算机可读指令的计算机可执行软件706,这些指令在被执行时使得处理器执行本文中所描述的与基于动态图的群体识别相关的各种功能。
111.输入设备708可以是可以用于输入信息的任何类型的设备。
112.输出设备710可以是用于输出信息的任何类型的设备。在一种情形中,输出设备710可以是可显示信息的任何类型的输出设备。
113.以上结合附图阐述的详细说明描述了示例而不代表可被实现或者落在权利要求的范围内的所有示例。术语“示例”和“示例性”在本说明书中使用时意指“用作示例、实例或解说”,并不意指“优于或胜过其它示例”。
114.贯穿本说明书引述的“一个实施例”或“一实施例”意指结合该实施例描述的特定特征、结构或特性是包含在本公开的至少一个实施例中的。因此,这些短语的使用可以不仅仅指代一个实施例。此外,所描述的特征,结构或特性可以在一个或多个实施例中以任何合适的方式组合。
115.提供之前的描述是为了使本领域任何技术人员均能够实践本文中所描述的各种方面。对这些方面的各种修改将容易为本领域技术人员所明白,并且在本文中所定义的普适原理可被应用于其它方面。因此,权利要求并非旨在被限定于本文中所示的方面,而是应被授予与语言上的权利要求相一致的全部范围,其中对要素的单数形式的引述除非特别声明,否则并非旨在表示“有且仅有一个”,而是“一个或多个”。除非特别另外声明,否则术语“一些”指的是一个或多个。本公开通篇描述的各个方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此,且旨在被权利要求所涵盖。
116.还应注意,这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程,但是这些操作中有许多操作能够并行或并发地执行。另外,这些操作的次序可被重新安排。
117.虽然已经说明和描述了各种实施例,但是应该理解,实施例不限于上述精确配置和组件。可以在本文公开的设备的布置、操作和细节上作出对本领域技术人员显而易见的各种修改、替换和改进而不脱离权利要求的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1