数据处理方法、装置、设备、存储介质及程序产品与流程

文档序号:37217158发布日期:2024-03-05 15:08阅读:12来源:国知局
数据处理方法、装置、设备、存储介质及程序产品与流程

本技术实施例涉及数据处理,尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。


背景技术:

1、识别信用卡正常交易和异常交易(比如,欺诈交易)本质上是对交易样本进行分类,而分类的基本原则是找出不同类别之间的界限。由于银行信用卡交易中欺诈交易是稀疏的,欺诈交易样本数量远远少于正常交易样本数量,所以缺少数据特征来确定边界,若直接将此类不平衡数据集(是指欺诈交易样本数量远远少于正常交易样本数量的数据集)用于分类模型训练,会导致分类错误,使分类模型分类结果准确度较低。

2、目前,处理数据不平衡问题的方法,针对数据层面,可以通过对多数类样本欠采样,但是该方法可能导致重要数据丢失,进而导致最终分类结果不准确;针对算法层面,在数据分布不平衡条件下,分类间隔面向少数类样本移动,导致重叠数据中少数类样本被错误分类。

3、因此,现有技术无法准确、有效地处理数据不平衡问题,进而无法准确地识别欺诈交易。


技术实现思路

1、本技术实施例提供一种数据处理方法、装置、设备、存储介质及程序产品,以克服现有技术无法准确、有效地处理数据不平衡问题,进而无法准确地识别欺诈交易的问题。

2、第一方面,本技术实施例提供一种数据处理方法,所述方法包括:

3、获取交易数据集,所述交易数据集中包括多个正常交易样本、多个异常交易样本以及各样本对应的类标签,其中,所述交易数据集中的数据为真数据,所述正常交易样本的数据量大于所述异常交易样本的数据量,所述异常交易样本为稀疏数据;

4、根据随机噪声和所述异常交易样本对应的类标签,训练条件生成对抗网络模型中的生成器,生成合成样本,所述合成样本为伪数据;

5、根据所述伪数据和所述真数据,训练所述条件生成对抗网络模型中的鉴别器,确定判别结果,所述判别结果包括所述伪数据的预测分类标签,所述判别结果用于为更新所述生成器的参数提供依据;

6、其中,训练好的条件生成对抗网络模型用于生成异常交易样本以及对应的类标签,以提供给分类模型进行训练和对交易数据的分类。

7、在一种可能的设计中,所述根据随机噪声和所述异常交易样本对应的类标签,训练条件生成对抗网络模型中的生成器,生成合成样本,包括:

8、针对所述生成器的第一轮训练,将所述随机噪声和所述异常交易样本对应的类标签输入到所述生成器中,输出合成样本,并将所述合成样本作为所述鉴别器的输入量;

9、针对所述生成器的第二轮或第二轮之后的训练,固定所述鉴别器的参数,将所述随机噪声和所述异常交易样本对应的类标签输入到所述生成器中,通过所述生成器的损失函数和针对所述鉴别器的上一轮训练中输出的鉴别结果,调整当前轮次所述生成器的参数,并将当前轮次所述生成器生成的合成样本作为针对所述鉴别器的下一轮训练中的输入量,直至到达训练停止的条件;

10、其中,所述生成器的损失函数是融合wasserstein距离后的损失函数。

11、在一种可能的设计中,所述根据所述伪数据和所述真数据,训练所述条件生成对抗网络模型中的鉴别器,确定判别结果,包括:

12、针对所述鉴别器的第一轮训练,将针对所述生成器第一轮训练输出的伪数据和所述真数据输入到所述鉴别器中,确定当前轮次的鉴别结果,并将所述鉴别结果发送至所述生成器,以使所述生成器在下一轮训练中调整所述生成器的参数;

13、针对所述鉴别器的第二轮或第二轮之后的训练,固定所述生成器的参数,将当前轮次所述生成器生成的伪数据和所述真数据输入到所述鉴别器中,通过所述鉴别器的损失函数,调整当前轮次所述鉴别器的参数,并将当前轮次所述鉴别器确定的鉴别结果发送至所述生成器,以使所述生成器在下一轮训练中调整所述生成器的参数,直至到达训练停止的条件;

14、其中,所述鉴别器的损失函数是融合wasserstein距离后的损失函数。

15、在一种可能的设计中,针对条件生成对抗网络模型,训练停止的条件包括但不限于:所述生成器的损失函数或所述鉴别器的损失函数达到预设阈值、所述条件生成对抗网络模型的目标函数满足预设条件;所述方法还包括:

16、根据随机噪声,通过训练好的条件生成对抗网络模型,确定多个目标异常交易样本以及对应的预测分类标签;

17、根据所述多个目标异常交易样本以及对应的预测分类标签,更新所述交易数据集;

18、根据更新后的交易数据集,训练分类模型;

19、其中,训练好的分类模型用于对待处理的交易数据进行分类。

20、在一种可能的设计中,所述方法还包括:

21、获取待处理的目标交易数据;所述目标交易数据为信用卡的交易数据;

22、将所述目标交易数据输入到所述训练好的分类模型中,确定所述目标交易数据是否为正常交易数据。

23、在一种可能的设计中,所述方法还包括:

24、若确定所述目标交易数据为异常交易数据,则对所述目标交易数据和/或与所述目标交易数据存在关联的相关数据进行分析,确定是否存在信用卡欺诈风险;

25、若确定存在信用卡欺诈风险,则确定信用卡欺诈风险等级;

26、将所述信用卡欺诈风险等级发送至相关终端,以使所述相关终端的作业人员进行维护和管理。

27、第二方面,本技术实施例提供一种数据处理装置,所述装置包括:

28、获取模块,用于获取交易数据集,所述交易数据集中包括多个正常交易样本、多个异常交易样本以及各样本对应的类标签,其中,所述交易数据集中的数据为真数据,所述正常交易样本的数据量大于所述异常交易样本的数据量,所述异常交易样本为稀疏数据;

29、训练模块,用于根据随机噪声和所述异常交易样本对应的类标签,训练条件生成对抗网络模型中的生成器,生成合成样本,所述合成样本为伪数据;

30、训练模块,还用于根据所述伪数据和所述真数据,训练所述条件生成对抗网络模型中的鉴别器,确定判别结果,所述判别结果包括所述伪数据的预测分类标签,所述判别结果用于为更新所述生成器的参数提供依据;

31、其中,训练好的条件生成对抗网络模型用于生成异常交易样本以及对应的类标签,以提供给分类模型进行训练和对交易数据的分类。

32、第三方面,本技术实施例提供一种电子设备,包括:至少一个处理器和存储器;

33、所述存储器存储计算机执行指令;

34、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的数据处理方法。

35、第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的数据处理方法。

36、第五方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的数据处理方法。

37、本实施例提供的数据处理方法、装置、设备、存储介质及程序产品,首先获取交易数据集,所述交易数据集中包括多个正常交易样本、多个异常交易样本以及各样本对应的类标签,其中,所述交易数据集中的数据为真数据,所述正常交易样本的数据量大于所述异常交易样本的数据量,所述异常交易样本为稀疏数据;然后根据随机噪声和所述异常交易样本对应的类标签,训练条件生成对抗网络模型中的生成器,生成合成样本,所述合成样本为伪数据;再根据所述伪数据和所述真数据,训练所述条件生成对抗网络模型中的鉴别器,确定判别结果,所述判别结果包括所述伪数据的预测分类标签,所述判别结果用于为更新所述生成器的参数提供依据;其中,训练好的条件生成对抗网络模型用于生成异常交易样本以及对应的类标签,以提供给分类模型进行训练和对交易数据的分类。因此,通过获取到的含有稀疏数据的交易数据集,训练条件生成对抗网络模型,实现对该交易数据集中的稀疏数据进行过采样,生成与真实数据逼近的较多数量的异常交易样本,解决了数据集不平衡的问题,使得交易数据集中的交易样本是均匀或平衡的,以减小后续训练分类模型对欺诈交易识别的影响,进而提高分类模型输出结果的准确度,能够准确地识别欺诈交易。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1