本公开涉及大数据、信息安全,具体涉及一种异常账户的分类方法、装置、电子设备及存储介质。
背景技术:
1、在异常账户识别场景中,现有技术一般通过半监督学习训练分类模型,之后,利用训练好的分类模型实现异常账户的识别。
2、在实现上述发明构思的过程中,发明人发现至少存在以下技术问题:相关技术没有对账户之间的具体交易关联关系进行分析,导致分类模型的准确率较低。
技术实现思路
1、鉴于上述问题,本公开提供了一种异常账户的分类方法、装置、电子设备及存储介质。
2、根据本公开的第一个方面,提供了一种异常账户的分类方法,包括:
3、获取待分类的m个第一账户的账户数据,其中,账户数据包括交易数据和关联账户数据,交易数据用于表征第一账户的交易特征,关联账户数据用于表征与第一账户之间存在关联的第二账户的账户数据,m≥1;
4、根据关联账户数据,计算第一账户的相对度数据,其中,相对度数据用于表征第一账户的关联账户数目与第二账户的关联账户数目之间的相对差异;以及
5、将m个交易数据和m个相对度数据输入训练好的目标分类模型,输出m个分类结果,其中,分类结果用于表征第一账户数据是否异常,目标分类模型是利用半监督学习方法训练得到的。
6、根据本公开的实施例,其中,根据关联账户数据,计算第一账户的相对度数据,包括:
7、确定第一账户的第一数量数据,其中,第一数量数据表征与第一账户之间存在交易行为的n个第二账户,n≥1;
8、根据关联账户数据,确定n个第二账户各自的第二数量数据,其中,第二数量数据表征与第二账户之间存在交易行为的其他账户的数量;以及
9、根据第一数量数据和n个第二数量数据,计算第一账户的相对度数据。
10、根据本公开的实施例,其中,根据第一数量数据和n个第二数量数据,计算第一账户的相对度数据,包括:
11、计算第一数量数据与每个第二数量数据的比值,得到n个数量比值;以及
12、将n个数量比值之和除以第一数量数据,得到第一账户的相对度数据。
13、根据本公开的实施例,其中,训练得到目标分类模型包括:
14、获取训练样本集,其中,训练样本集包括p个有标签样本和q个无标签样本各自的训练账户数据,训练账户数据包括训练交易数据和训练关联账户数据,有标签样本表征已经标记异常的账户样本,无标签样本表征未标记异常的账户样本,q≥p≥1;
15、根据训练账户数据,计算p个有标签样本各自的第一训练相对度数据、q个无标签样本各自的第二训练相对度数据;
16、利用(p+q)个训练交易数据、p个第一训练相对度数据、q个第二训练相对度数据,训练待训练的分类模型,直至损失函数满足预定条件,得到训练好的目标分类模型。
17、根据本公开的实施例,其中,损失函数包括有标签相对度损失项、无标签相对度损失项、有标签经验损失项;确定损失函数包括:
18、根据p个有标签样本的交叉熵损失和第一训练相对度数据,确定有标签相对度损失项;
19、根据q个无标签样本的交叉熵损失和第二训练相对度数据,确定无标签相对度损失项;
20、根据p个有标签样本的标准标签和分类模型的预测结果,确定有标签经验损失项;以及
21、根据有标签经验损失项、无标签相对度损失项与第一权重参数的乘积、有标签相对度损失项与第二权重参数的乘积,确定损失函数。
22、根据本公开的实施例,其中,根据p个有标签样本的交叉熵损失和第一训练相对度数据,确定有标签相对度损失项包括:
23、针对每个有标签样本,根据有标签样本的标准标签和分类模型的预测结果,确定每个有标签样本的第一交叉熵损失;
24、针对每个有标签样本,将第一训练相对度数据与第一交叉熵损失相乘,得到针对每个有标签样本的第一乘积;
25、根据p个第一乘积之和,确定有标签相对度损失项。
26、根据本公开的实施例,其中,根据q个无标签样本的交叉熵损失和第二训练相对度数据,确定无标签相对度损失项,包括:
27、根据第二训练相对度数据与采样阈值之间的比较关系,确定q个无标签样本各自的相对度采样值,其中,相对度采样值用于筛选无标签样本;
28、针对每个无标签样本,根据无标签样本的软标签和分类模型的预测结果,确定每个无标签样本的第二交叉熵损失;
29、针对每个无标签样本,将相对度采样值与第二交叉熵损失相乘,得到针对每个无标签样本的第二乘积;
30、根据q个第二乘积之和,确定无标签相对度损失项。
31、根据本公开的实施例,其中,根据第二训练相对度数据与采样阈值之间的比较关系,确定q个无标签样本各自的相对度采样值,包括:
32、在确定第q个第二训练相对度数据大于采样阈值的情况下,将相对度采样值确定为1;
33、在确定第q个第二训练相对度数据小于或等于采样阈值的情况下,将相对度采样值确定为0,q≥q≥1。
34、根据本公开的实施例,该方法还包括:
35、利用k近邻算法,根据p个有标签样本的标准标签,确定q个无标签样本各自的软标签。
36、本公开的第二方面提供了一种异常账户的分类装置,包括:
37、获取模块,用于获取待分类的m个第一账户的账户数据,其中,账户数据包括交易数据和关联账户数据,交易数据用于表征第一账户的交易特征,关联账户数据用于表征与目标账户之间存在交易行为的第二账户的账户数据,m≥1;
38、计算模块,用于根据关联账户数据,计算第一账户的相对度数据,其中,相对度数据用于表征第一账户的关联账户数目与第二账户的关联账户数目之间的相对差异;以及
39、分类模块,用于将m个交易数据和m个相对度信息数据输入训练好的目标分类模型,输出与m个分类结果,其中,分类结果用于表征第一账户数据是否异常,目标分类模型是利用半监督学习方法训练得到的。
40、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述异常账户的分类方法。
41、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述异常账户的分类方法。
42、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述异常账户的分类方法。
43、在本公开的实施例中,通过获取待分类的账户数据,其中,账户数据包括交易数据和关联账户数据,根据关联账户数据计算账户的相对度数据,将交易数据和相对度数据输入至训练好的目标分类模型,输出的分类结果用于表征账户数据是否异常,能够实现异常账户的分类。本公开的实施例在获取待分类的账户数据的过程中,利用了新增的关联账户数据计算待检测账户的相对度数据。由于相对度数据能够通过第一账户与第二账户之间的数量差异区分异常账户和非异常账户,因此,利用上述相对度数据和交易数据的目标分类模型能够提高异常账户分类的准确率。