欺诈识别的方法和装置与流程

文档序号:25358282发布日期:2021-06-08 15:14阅读:123来源:国知局
欺诈识别的方法和装置与流程

1.本说明书一个或多个实施例涉及计算机技术,尤其涉及欺诈识别的方法和装置。


背景技术:

2.在互联网金融日益发展的今天,出现了各种各样的欺诈形式,例如金融理财诈骗、虚假兼职诈骗、网络交友诈骗等等。往往很多欺诈用户是有组织、有预谋的团伙,潜伏在众多用户中,通过论坛和群聊等方式使受害人上钩。因此针对此类欺诈的识别和打击刻不容缓,但目前却没有准确的欺诈识别方式。


技术实现要素:

3.本说明书一个或多个实施例公开了一种欺诈识别的方法和装置,用以更为准确地识别欺诈用户。
4.根据第一方面,提供了一种欺诈团伙识别的方法,包括:
5.利用用户的网络行为数据构建异构网络图,所述异构网络图包括受害用户节点和候选欺诈用户节点,节点之间的边依据用户之间的网络行为关系确定;
6.根据所述异构网络图中的各节点及其边关系,对所述异构网络图进行社区划分,得到各社区网络;
7.利用预先训练得到的欺诈识别模型分别对所述各社区网络进行识别;
8.根据所述识别的结果,确定欺诈用户集。
9.在一个实施例中,所述利用用户的网络行为数据构建异构网络图包括:
10.获取受害用户的网络行为数据,将受害用户作为异构网络图的受害用户节点,所述受害用户的网络行为数据包括资金交易行为;
11.依据所述资金交易行为,将与所述受害用户存在资金交易关系的用户确定为一阶候选欺诈用户;
12.依据一阶候选欺诈用户的资金交易行为,将与一阶候选欺诈用户使用相同网络环境的用户确定为二阶候选欺诈用户;其中,所述一阶候选欺诈用户和二阶候选欺诈用户作为所述异构网络图的候选欺诈用户节点。
13.在另一个实施例中,所述依据一阶候选欺诈用户的资金交易行为,将与一阶候选欺诈用户使用相同网络环境的用户确定为二阶候选欺诈用户包括:
14.将在资金交易时与一阶候选欺诈用户使用相同设备标识、网络标识、位置信息、账户信息和用户身份信息中至少一种的用户确定为二阶候选欺诈用户。
15.在一个实施例中,在根据所述异构网络图中的各节点及其边关系对所述异构网络图进行社区划分之前,还包括:
16.将所述异构网络图中受害用户节点的标签标记为指示受害用户的第一身份标签;
17.依据欺诈投诉数据和/或预设的风险策略,将候选欺诈用户节点的标签标记为指示欺诈用户的第二身份标签或指示疑似欺诈用户的第三身份标签。
18.在另一个实施例中,所述根据所述异构网络图中的各节点及其边关系对所述异构网络图进行社区划分,包括:利用社区发现算法,对所述异构网络图进行社区划分。
19.在一个实施例中,社区发现算法包括slpa;
20.所述利用社区发现算法对所述异构网络图进行社区划分,得到各社区网络包括:
21.遍历异构网络中的各节点,将当前遍历到的节点作为接收节点,该接收节点的邻居节点作为发送节点,执行:将发送节点存储的标签中数量最多的标签发送给该接收节点,将该接收节点接收到的数量占比最多的标签添加至该接收节点存储的标签中;
22.若遍历次数达到预设的最大遍历次数,统计各节点存储的标签,将标签出现次数满足预设次数要求的标签作为该节点的社区标签;
23.将社区标签相同的节点构成同一个社区网络。
24.在另一个实施例中,所述利用预先训练得到的欺诈识别模型分别对所述各社区网络进行识别包括:
25.依据社区网络中各节点的身份标签信息,确定该社区网络的欺诈标签浓度指标;
26.将该社区网络的欺诈标签浓度指标输入预先训练得到的第一欺诈识别模型,获取所述第一欺诈识别模型对该社区网络是否为欺诈社区的识别结果。
27.在一个实施例中,所述欺诈标签浓度指标包括以下至少一种:
28.第二身份标签数量与所有身份标签数量的比值,
29.第二身份标签与第二身份标签和第三身份标签之和的比值,
30.第二身份标签和第三身份标签之和与所有身份标签数量的比值。
31.在另一个实施例中,所述利用预先训练得到的欺诈识别模型分别对所述各社区网络进行识别包括:
32.将社区网络的图结构特征和节点特征输入预先训练得到的第二欺诈识别模型,获取所述第二欺诈识别模型对该社区网络是否为欺诈社区的识别结果。
33.在一个实施例中,所述图结构特征包括社区网络所包含各节点的度中心性、中介中心性、紧密中心性、特征向量中心性和pagerank值中的至少一种;
34.所述节点特征包括在预设时长内的交易次数、在预设时长内的交易金额总数和交易金额平均值中的至少一种。
35.在另一个实施例中,在所述利用预先训练得到的欺诈识别模型分别对所述各社区网络进行识别之前,还包括:
36.对社区网络进行子图分割,得到两个以上的第一子图;
37.对各第一子图分别进行剪枝处理;
38.对所述剪枝处理得到的各第二子图进行去重,得到去重后的社区网络。
39.在一个实施例中,所述对社区网络进行子图分割,得到两个以上的第一子图包括:
40.将社区网络中的各节点分别作为种子节点执行:
41.确定与种子节点之间跳数小于或等于预设跳数值的节点,将确定出的节点和该种子节点构成第一子图。
42.在另一个实施例中,所述对各第一子图分别进行剪枝处理包括:
43.将第一子图中节点度数小于预设度数节点去除,得到第二子图。
44.根据第二方面,本公开提供了一种欺诈识别的装置,包括:
45.网络图构建单元,被配置为利用用户的网络行为数据构建异构网络图,所述异构网络图包括受害用户节点和候选欺诈用户节点,节点之间的边依据用户之间的网络行为关系确定;
46.社区划分单元,被配置为根据所述异构网络图中的各节点及其边关系对所述异构网络图进行社区划分,得到各社区网络;
47.社区识别单元,被配置为利用预先训练得到的欺诈识别模型分别对所述各社区网络进行识别;
48.结果确定单元,被配置为根据所述识别的结果,确定欺诈用户集。
49.在一个实施例中,所述网络图构建单元,具体被配置为:
50.获取受害用户的网络行为数据,将受害用户作为异构网络图的受害用户节点,所述受害用户的网络行为数据包括资金交易行为;
51.依据所述资金交易行为,将与所述受害用户存在资金交易关系的用户确定为一阶候选欺诈用户;
52.依据一阶候选欺诈用户的资金交易行为,将与一阶候选欺诈用户使用相同网络环境的用户确定为二阶候选欺诈用户;其中,所述一阶候选欺诈用户和二阶候选欺诈用户作为所述异构网络图的候选欺诈用户节点。
53.在另一个实施例中,所述网络图构建单元,具体被配置为:将在资金交易时与一阶候选欺诈用户使用相同设备标识、网络标识、位置信息、账户信息和用户身份信息中至少一种的用户确定为二阶候选欺诈用户。
54.在一个实施例中,还包括:
55.标签设置单元,被配置为将所述异构网络图中受害用户节点标记为指示受害用户的第一身份标签;依据欺诈投诉数据和/或预设的风险策略,将候选欺诈用户节点标记为指示欺诈用户的第二身份标签或指示疑似欺诈用户的第三身份标签。
56.在另一个实施例中,所述社区划分单元被配置为利用社区发现算法对所述异构网络图进行社区划分。
57.在一个实施例中,所述社区发现算法包括:slpa;
58.所述社区划分单元,具体被配置为:
59.遍历异构网络中的各节点,将当前遍历到的节点作为接收节点,该接收节点的邻居节点作为发送节点,执行:将发送节点存储的标签中数量最多的标签发送给该接收节点,将该接收节点接收到的数量占比最多的标签添加至该接收节点存储的标签中;
60.若遍历次数达到预设的最大遍历次数,统计各节点存储的标签,将标签出现次数满足预设次数要求的标签作为该节点的社区标签;
61.将社区标签相同的节点构成同一个社区网络。
62.在另一个实施例中,所述社区识别单元,具体被配置为:依据社区网络中各节点的身份标签信息,确定该社区网络的欺诈标签浓度指标;将该社区网络的欺诈标签浓度指标输入预先训练得到的第一欺诈识别模型,获取所述第一欺诈识别模型对该社区网络是否为欺诈社区的识别结果。
63.在一个实施例中,所述欺诈标签浓度指标包括以下至少一种:
64.第二身份标签数量与所有身份标签数量的比值,
65.第二身份标签与第二身份标签和第三身份标签之和的比值,
66.第二身份标签和第三身份标签之和与所有身份标签数量的比值。
67.在另一个实施例中,所述社区识别单元,具体被配置为:将社区网络的图结构特征和节点特征输入预先训练得到的第二欺诈识别模型,获取所述第二欺诈识别模型对该社区网络是否为欺诈社区的识别结果。
68.在一个实施例中,所述图结构特征包括社区网络所包含各节点的度中心性、中介中心性、紧密中心性、特征向量中心性和pagerank值中的至少一种;
69.所述节点特征包括在预设时长内的交易次数、在预设时长内的交易金额总数和交易金额平均值中的至少一种。
70.在一个实施例中,还包括:
71.社区去重单元,被配置为对社区网络进行子图分割,得到两个以上的第一子图;对各第一子图分别进行剪枝处理;对所述剪枝处理得到的各第二子图进行去重,得到去重后的社区网络;
72.所述社区识别单元具体被配置为对所述去重后的社区网络进行识别。
73.在一个实施例中,所述社区去重单元,具体被配置为将社区网络中的各节点分别作为种子节点执行:确定与种子节点之间跳数小于或等于预设跳数值的节点,将确定出的节点和该种子节点构成第一子图。
74.在另一个实施例中,所述社区去重单元,具体被配置为将第一子图中节点度数小于预设度数节点去除,得到第二子图。
75.根据第三方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行如上所述的方法。
76.根据第四方面,本公开提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如上所述的方法。
77.由以上技术方案可以看出,本公开基于用户的网络行为数据构建异构网络图后,发现异构网络图中的社区网络,并进一步对社区网络进行欺诈识别确定社区网络是否为欺诈用户集(即欺诈团伙),以此能够准确地实现欺诈团伙的识别。
附图说明
78.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
79.图1示出根据本公开一个实施例的欺诈识别方法流程图;
80.图2示出根据本公开一个实施例的构建异构网络的流程图;
81.图3示出根据本公开一个实施例的异构网络图的示例;
82.图4示出根据本公开一个实施例的社区划分的流程图;
83.图5示出根据本公开一个实施例的社区网络去重的流程图;
84.图6示出根据本公开一个实施例的欺诈识别装置的结构图。
具体实施方式
85.下面结合附图,对本说明书提供的方案进行描述。
86.经过对互联网上发生的欺诈行为分析以及对欺诈团伙的深入观察和研究后发现,互联网上的欺诈行为往往是欺诈者以有组织、有预谋的团伙形式存在,且在论坛和群聊中以正常用户的身份潜伏,等待受害者上钩。由于欺诈团伙的伪装性较强,受害用户可能多次受骗,且主动性较强。基于这种特点,采用传统的识别方式较难对欺诈团伙进行有效识别。本说明书中提供了一种基于社区发现的全新构思,下面描述本说明书所提供构思的具体实现方式。
87.图1示出根据本公开一个实施例的欺诈识别方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图1,该方法包括:
88.步骤101:利用用户的网络行为数据构建异构网络图,异构网络图包括受害用户节点和候选欺诈用户节点,节点之间的边依据用户之间的网络行为关系确定。
89.步骤103:根据所述异构网络图中的各节点及其边关系,对异构网络图进行社区划分,得到各社区网络。
90.步骤105:利用预先训练得到的欺诈识别模型分别对所述各社区网络进行识别。
91.步骤107:根据识别的结果,确定欺诈用户集。
92.由以上实施例提供的技术内容可以看出,本公开基于用户的网络行为数据构建异构网络图后,发现异构网络图中的社区网络,并进一步对社区网络进行欺诈识别确定社区网络是否为欺诈用户集(即欺诈团伙),这种全新的思路能够更为准确地实现欺诈团伙的识别。
93.下面对图1所示的各个步骤进行说明。
94.首先结合实施例对上述步骤101即“利用用户的网络行为数据构建异构网络图”进行详细描述。
95.在本步骤中涉及的网络行为数据主要包括用户的资金交易行为数据、资金交易行为所体现出的网络环境信息等。
96.所谓异构网络图指的是网络中节点的类型多于一种,或者节点之间边关系的类型多于一种。本公开中形成的异构网络图中包括受害用户节点和候选欺诈用户节点,节点之间的边依据用户之间的网络行为关系确定。
97.图2示出根据本公开一个实施例的构建异构网络的流程图,如图2中所示,该流程包括以下步骤:
98.步骤201:获取受害用户的网络行为数据,将受害用户作为异构网络图的受害用户节点。
99.本公开中在构建异构网络图时,由受害用户作为出发点。受害用户往往是确定的,在确定受害用户时,可以从欺诈投诉数据中获取受害用户的信息。例如,获取到受害用户的欺诈投诉后,往往会将与该受害用户相关的欺诈投诉数据进行存储和维护。其中欺诈投诉数据可以包括受害用户的标识、用户账号、身份信息、资金账户信息等等。除了欺诈投诉数据之外,也可以通过其他类型的数据来确定受害用户,例如从欺诈报警数据等等。
100.受害用户的网络行为数据可以从服务器端维护的行为日志中获取,因为本公开主要涉及欺诈,欺诈往往伴随着资金交易,因此使用的受害用户的网络行为数据主要包括资
金交易行为。
101.步骤203:依据资金交易行为,将与受害用户存在资金交易关系的用户确定为一阶候选欺诈用户。
102.在确定出受害用户后,如果能够明确受害用户受欺诈涉及的资金交易关系,则将该资金交易关系对应的用户确定为一阶候选欺诈用户,该候选欺诈用户往往是比较明确的欺诈用户。
103.但如果不能够明确受害用户受欺诈涉及的资金交易关系,例如受害用户仅知道受欺诈了,但不知道具体哪笔交易是受欺诈的资金交易。再例如受害用户知道受欺诈的资金交易,但该资金交易对应的用户可能是合法用户,而欺诈用户进一步通过该合法用户的账户进一步进行资金交易来获取欺诈资金。在这些情况下,与受害用户存在资金交易关系的用户均确定为一阶候选欺诈用户,该一阶候选欺诈用户并不一定是真正的欺诈用户。
104.一阶候选欺诈用户在异构网络图中作为候选欺诈用户节点。可见,在异构网络图中,受害用户节点和一阶候选欺诈用户所在的节点之间的边体现的是资金交易关系。
105.步骤205:依据一阶候选欺诈用户的资金交易行为,将与一阶候选欺诈用户使用相同网络环境的用户确定为二阶候选欺诈用户。
106.通常一阶候选欺诈用户可能会与其他真正的欺诈用户产生关系,例如一阶候选欺诈用户与真正的欺诈用户存在资金交易,再例如,一阶候选欺诈用户如果是欺诈团伙中的一员,那么其在交易行为上所体现出的网络环境往往是相同的。基于此,本步骤依据一阶候选欺诈用户的资金交易行为,将与一阶候选欺诈用户使用相同网络环境的用户确定为二阶候选欺诈用户。二阶候选欺诈用户也作为异构网络图的候选欺诈用户节点。
107.其中,将在资金交易时与一阶候选欺诈用户使用相同设备标识、网络标识、位置信息、账户信息和用户身份信息中至少一种的用户确定为二阶候选欺诈用户。其中账户信息可以是资金账户、用户账户等等。用户身份信息可以是身份证件信息、诸如指纹、虹膜等生物特征信息等。
108.至此,就能够产生诸如图3中所示的异构网络图。
109.更进一步地,在异构网络图中将各节点打上标签。具体地,由于受害用户是明确的,因此可以将异构网络图中受害用户节点的标签标记为第一身份标签,该第一身份标签指示受害用户。
110.在针对候选欺诈用户标记身份标签时,对于可以明确为欺诈用户的,将其标签标记为第二身份标签,对于不能明确是否为欺诈用户的,将其标签标记为第三用户身份标签。其中第二身份标签指示欺诈用户,第三身份标签指示疑似欺诈用户。
111.作为其中一种实现方式,可以依据欺诈投诉数据,将候选欺诈用户节点标记为第二身份标签或第三身份标签。例如,若从欺诈投诉数据中获取到某候选欺诈用户被受害用户投诉过,那么将该候选欺诈用户标记为第二身份标签。
112.作为另一种实现方式,可以依据预设的风险策略,将候选欺诈用户节点标记为第二身份标签或第三身份标签。其中涉及的风险策略可以是现有任意的识别欺诈用户的策略,例如如果某候选欺诈用户使用的账号命中了风险账号列表,则将该候选欺诈用户节点标记为第二身份标签。再例如,如果某候选欺诈用户使用的设备标识命中了风险设备列表,则将该候选欺诈用户节点标记为第二身份标签。
113.下面结合实施例对上述步骤103即“根据异构网络图中的各节点及其边关系,对异构网络图进行社区划分,得到各社区网络”进行详细描述。
114.在得到异构网络图之后,本步骤旨在将具有相同身份属性的节点划分到同一社区。本步骤中,根据异构网络图中的每一个节点的属性是受害用户节点还是候选欺诈用户节点,以及各节点在异构网络图中的边关系,可以对异构网络图进行社区划分,将具有相同身份属性的节点划分到同一社区。
115.在本说明书的一个实施例中,可以采用社区发现算法诸如lpa(label propagation algorithm,标签传播算法)、slpa(speaker

listener label propagation algorithm,提供方

接收方标签传播算法)等,来对异构网络图进行社区划分。社区发现的目的是在复杂网络结构中发现连接紧密的节点簇,这些节点簇构成的网络就是社区网络。由于欺诈团伙的特点更贴近重叠社区,因此本步骤中优选采用slpa的方式,下面通过一个实施例对采用slpa对异构网络图进行社区划分的流程进行详细描述。
116.图4示出根据本公开一个实施例的社区划分的流程图,如图4中所示,该流程包括以下步骤:
117.步骤401:遍历异构网络中的各节点。
118.步骤403:将当前遍历到的节点作为接收节点,该接收节点的邻居节点作为发送节点,执行:将发送节点存储的标签中数量最多的标签发送给该接收节点,将该接收节点接收到的数量占比最多的标签添加至该接收节点存储的标签中。
119.slpa算法模仿了人类的交流模式,对于一个链接中的两个节点,一个作为speaker(接收节点),另一个节点作为listener(发送节点)。并且每个节点具有记忆功能,即会存储标签。在本实施例中,各节点初始时仅存储有自身的标签。每个节点依次作为接收节点,其邻居节点作为发送节点。每一个发送节点都将自身存储的标签中数量最多的标签发送给接收节点。接收节点会统计接收到的标签,将接收到数量占比最多的标签进行存储,即添加至自身存储的标签中(如果自身已经存储有该标签,则增加存储的该标签的次数,例如将该标签的次数加1)。然后再遍历下一个节点,将下一个节点作为接收节点,重复执行403。直至遍历完异构网络中的所有节点,即执行步骤405。
120.步骤405:判断本轮遍历中是否还存在未遍历到的节点,如果是,遍历下一个节点,转至执行步骤403;否则,执行407。
121.本公开中将对异构网络中所有节点的遍历作为一轮遍历。
122.步骤407:判断对异构网络的遍历次数是否达到预设的最大遍历次数,如果是,执行步骤409;否则,转至步骤401。
123.在完成对异构网络的一轮遍历后,进行下一轮的遍历,直至达到预设的最大遍历次数。
124.步骤409:统计各节点存储的标签,将标签出现次数满足预设次数要求的标签作为该节点的社区标签。
125.遍历结束后,各节点将自身存储的标签中出现次数超过预设次数阈值的标签作为该节点的社区标签,或者,将自身存储的标签中出现次数排在前设定数量的标签作为该节点的社区标签,等等。
126.步骤411:将社区标签相同的节点构成同一个社区网络。
127.通过上述流程,异构网络中的一个节点可能属于一个以上的社区网络,最终得到的各社区网络可能是重叠社区,这更加符合欺诈团伙所产生欺诈的实际场景的特点。
128.作为一种优选的实施方式,在图1所示实施例中步骤103和步骤105之间,还可以包括一个对社区网络进行排噪的处理,即去除社区网络中重复的结构。
129.该部分的实现方式可以如图5中所示,包括以下步骤:
130.步骤501:对社区网络进行子图分割,得到两个以上的第一子图。
131.在进行子图分割时,可以将社区网络中的各节点分别作为种子节点执行:确定与种子节点之间跳数小于或等于预设跳数值的节点,将确定出的节点和该种子节点构成第一子图。例如,可以将距离种子节点一跳和二跳的节点与种子节点一起构成第一子图。采用这种方式,可以将社区网络划分为多个第一子图。
132.步骤503:对各第一子图分别进行剪枝处理。
133.在本步骤中,可以将第一子图中节点度数小于预设度数的节点去除,得到第二子图。其中,节点度数指的是和该节点相关联的边的条数,又称为关联度。这种剪枝处理方式相当于将各第一子图中与其他节点的关联度较低的节点去除。除了这种剪枝方式之外,也可以采用其他剪枝方式。
134.步骤505:对剪枝处理得到的各第二子图进行去重,得到去重后的社区网络。
135.至此,对各社区网络进行的排噪处理完毕。
136.下面结合实施例对上述步骤105即“利用预先训练得到的欺诈识别模型分别对所述各社区网络进行识别”进行详细描述。
137.在本步骤中可以采用但不限于以下两种欺诈识别模型的实现方式:
138.第一种方式:依据社区网络中各节点的身份标签信息,确定该社区网络的欺诈标签浓度指标;将该社区网络的欺诈标签浓度指标输入预先训练得到的第一欺诈识别模型,获取第一欺诈识别模型对该社区网络是否为欺诈社区的识别结果。
139.由于社区网络中各节点具备第一身份标签、第二身份标签和第三身份标签中的一种,因此,可以依据社区网络中各节点的身份标签信息来识别该社区网络是否为欺诈社区。
140.上述欺诈标签浓度指标可以包括以下至少一种:
141.第二身份标签数量与所有身份标签数量的比值a,即其中,n
b
为社区网络中第二身份标签的数量,n
w
为社区网络中第一身份标签的数量,n
g
为社区网络中第三身份标签的数量。
142.第二身份标签与第二身份标签和第三身份标签之和的比值b,即
143.第二身份标签和第三身份标签之和与所有身份标签数量的比值c,即第二身份标签和第三身份标签之和与所有身份标签数量的比值c,即
144.上述的第一欺诈识别模型通过将社区网络的上述欺诈标签浓度指标与设置的指标阈值相比较来识别社区网络是否为欺诈社区。例如,若社区网络的a≥α,b≥β且c≥γ,则识别该社区网络为欺诈社区。
145.上述第一欺诈识别模型可以看做是一个二分类模型。在训练上述第一欺诈识别模型时,实际上是训练得到上述指标阈值α、β和γ的过程。可以预先构造一些已知是欺诈社区和非欺诈社区的社区网络作为训练样本和测试样本。从训练样本中提取各训练样本的上述欺诈浓度指标后作为第一欺诈识别模型的输入,将对样本标注的欺诈社区或非欺诈社区作为目标输出,以训练得到第一欺诈识别模型所使用的指标阈值α、β和γ。然后可以利用训练得到的第一欺诈识别模型在测试样本中进行测试,以判断第一欺诈识别模型的优劣,以调整上述指标阈值。
146.第二种方式:将社区网络的图结构特征和节点特征输入预先训练得到的第二欺诈识别模型,获取第二欺诈识别模型对该社区网络是否为欺诈社区的识别结果。
147.其中,图结构特征可以包括社区网络所包含各节点的度中心性、中介中心性、紧密中心性、特征向量中心性和pagerank(网页排名)值中的至少一种。
148.节点的度中心性衡量社区网络中一个节点与所有其他节点相联系的程度,一个节点的度越大就意味着这个节点的度中心性越高,在网络中越重要。
149.中介中心性(between centrality)是以经过一个节点的最短路径数目来刻画节点重要性的指标。紧密中心性(closeness centrality)反映网络中一个节点与其他节点之间的接近程度,将一个节点到所有其他节点的最短路径距离的和的倒数表示紧密中心性。特征向量中心性(eigenvector centrality)认为一个节点的重要性取决于其邻居节点的数量以及每个邻居节点的重要性,一个节点的特征向量中心性由该节点的所有邻居节点的重要性特征的加权之和得到。一个节点的pagerank由所有链向它的节点的重要性经过递归算法得到。上述各特征均是目前已有的特征且具有成熟的技术方法,在此不做详述。
150.所包含节点的节点特征可以包括在预设时长内的交易次数、在预设时长内的交易金额总数和交易金额平均值中的至少一种。
151.社区网络的图结构特征和节点特征可以构成一个向量表示后输入第二欺诈识别模型,由第二欺诈识别模型基于该向量表示对社区网络进行识别。
152.上述第二欺诈识别模型也是二分类模型,该二分类模型可以是gbdt(gradient boosting decison tree,梯度提升树),也可以采用诸如逻辑回归等其他二分类模型。
153.在训练第二欺诈识别模型时,可以预先构造一些已知是欺诈社区和非欺诈社区的社区网络作为训练样本和测试样本。从训练样本中提取各训练样本的图结构特征和节点特征后作为第二欺诈识别模型的输入,将对样本标注的欺诈社区或非欺诈社区作为目标输出,以训练第二欺诈识别模型。训练过程中可以构造损失函数,然后依据每一轮迭代得到的损失函数的取值更新第二欺诈识别模型的参数,直至达到预设的迭代停止条件。其中迭代停止条件可以是诸如损失函数的取值收敛、迭代次数达到最大迭代次数,等等。
154.然后可以利用训练得到的第二欺诈识别模型在测试样本中进行测试,以判断第二欺诈识别模型的优劣,以调整模型参数。
155.作为一种优选的实施方式,在训练第二欺诈识别模型时,可以在构造训练样本的过程中采用第一欺诈识别模型对训练样本中的各社区网络进行识别,利用第一欺诈识别模型的识别结果标注训练样本中各社区网络是欺诈社区或非欺诈社区。在训练得到第二欺诈识别模型后,可以利用测试集判断第二欺诈识别模型的优劣,并调整第一欺诈识别模型的阈值后,再构造训练样本来训练第二欺诈识别模型。依次不断调整使得第二欺诈识别模型
达到最优。这种方式实现了对社区网络的自动化标注和自学习。
156.在图1所示实施例的步骤107中,确定识别结果中的欺诈社区,可以将欺诈社区所包含各节点的用户确定为欺诈用户集,即欺诈团伙。
157.以上是对本公开所提供方法进行的详细描述,下面对本公开所提供的装置进行详细描述。
158.图6示出根据本公开一个实施例的欺诈识别装置的结构图,如图6所示,该装置600可以包括:网络图构建单元601、社区划分单元602、社区识别单元603和结果确定单元604。还可以进一步包括标签设置单元605和社区去重单元606。其中各组成单元的主要功能如下:
159.网络图构建单元601,被配置为利用用户的网络行为数据构建异构网络图,异构网络图包括受害用户节点和候选欺诈用户节点,节点之间的边依据用户之间的网络行为关系确定。
160.作为一种优选的实施方式,网络图构建单元601可以具体被配置为:获取受害用户的网络行为数据,将受害用户作为异构网络图的受害用户节点,受害用户的网络行为数据包括资金交易行为;依据资金交易行为,将与受害用户存在资金交易关系的用户确定为一阶候选欺诈用户;依据一阶候选欺诈用户的资金交易行为,将与一阶候选欺诈用户使用相同网络环境的用户确定为二阶候选欺诈用户;其中,一阶候选欺诈用户和二阶候选欺诈用户作为异构网络图的候选欺诈用户节点。
161.其中,网络图构建单元601在依据一阶候选欺诈用户的资金交易行为,将与一阶候选欺诈用户使用相同网络环境的用户确定为二阶候选欺诈用户时,具体被配置为:将在资金交易时与一阶候选欺诈用户使用相同设备标识、网络标识、位置信息、账户信息和用户身份信息中至少一种的用户确定为二阶候选欺诈用户。
162.社区划分单元602,被配置为根据所述异构网络图中的各节点及其边关系,对异构网络图进行社区划分,得到各社区网络。
163.作为一种优选的实施方式,社区划分单元602利用社区发现算法诸如slpa或者lpa等,对异构网络图进行社区划分,得到各社区网络。
164.社区识别单元603,被配置为利用预先训练得到的欺诈识别模型分别对各社区网络进行识别。
165.结果确定单元604,被配置为根据识别的结果,确定欺诈用户集。
166.标签设置单元605,被配置为将异构网络图中受害用户节点标记为指示受害用户的第一身份标签;依据欺诈投诉数据和/或预设的风险策略,将候选欺诈用户节点标记为指示欺诈用户的第二身份标签或指示疑似欺诈用户的第三身份标签。
167.基于此,社区划分单元602可以具体被配置为:遍历异构网络中的各节点,将当前遍历到的节点作为接收节点,该接收节点的邻居节点作为发送节点,执行:将发送节点存储的标签中数量最多的标签发送给该接收节点,将该接收节点接收到的数量占比最多的标签添加至该接收节点存储的标签中;若遍历次数达到预设的最大遍历次数,统计各节点存储的标签,将标签出现次数满足预设次数要求的标签作为该节点的社区标签;将社区标签相同的节点构成同一个社区网络。
168.作为其中一种实现方式,社区识别单元603可以具体被配置为:依据社区网络中各
节点的身份标签信息,确定该社区网络的欺诈标签浓度指标;将该社区网络的欺诈标签浓度指标输入预先训练得到的第一欺诈识别模型,获取第一欺诈识别模型对该社区网络是否为欺诈社区的识别结果。
169.其中,欺诈标签浓度指标包括以下至少一种:
170.第二身份标签数量与所有身份标签数量的比值,
171.第二身份标签与第二身份标签和第三身份标签之和的比值,
172.第二身份标签和第三身份标签之和与所有身份标签数量的比值。
173.作为另一种实现方式,社区识别单元603可以具体被配置为:将社区网络的图结构特征和节点特征输入预先训练得到的第二欺诈识别模型,获取第二欺诈识别模型对该社区网络是否为欺诈社区的识别结果。
174.其中,图结构特征包括社区网络所包含各节点的度中心性、中介中心性、紧密中心性、特征向量中心性和pagerank值中的至少一种;
175.节点特征包括在预设时长内的交易次数、在预设时长内的交易金额总数和交易金额平均值中的至少一种。
176.社区去重单元606,被配置为对社区网络进行子图分割,得到两个以上的第一子图;对各第一子图分别进行剪枝处理;对剪枝处理得到的各第二子图进行去重,得到去重后的社区网络。社区识别单元603对去重后的社区网络进行识别。
177.作为其中一种可实现的方式,社区去重单元606在对社区网络进行子图分割时,可以将社区网络中的各节点分别作为种子节点执行:确定与种子节点之间跳数小于或等于预设跳数值的节点,将确定出的节点和该种子节点构成第一子图。
178.作为其中一种可实现的方式,社区去重单元606在对各第一子图分别进行剪枝处理,可以将第一子图中节点度数小于预设度数节点去除,得到第二子图。
179.在本说明书的一个实施例中,上述欺诈团伙识别的装置可以被集成在用于人脸识别的终端设备中,或者也可以被集成在一个与用于人脸识别的终端设备相连的独立的设备或服务器中。
180.根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行本说明书任一实施例中所描述的方法。
181.根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现本说明书任一实施例中所描述的方法。
182.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
183.本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
184.以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本
发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1