本说明书涉及计算机,尤其涉及一种模型训练方法、装置、存储介质及电子设备。
背景技术:
1、随着互联网技术以及人工智能技术的发展,各个企业对用户的个人隐私数据的安全性也越来越重视。
2、通常情况下,各业务平台可以通过预先训练的风控模型,对用户的各项业务进行风控,以保障用户的个人隐私数据的安全。而由于在实际应用过程中,输入到风控模型中的数据的格式、种类较为繁杂,这就对风控模型的鲁棒性有着较高的要求。
3、所以,如何提升风控模型的鲁棒性,则是一个亟待解决的问题。
技术实现思路
1、本说明书提供一种模型训练方法、装置、存储介质及电子设备,以部分的解决现有技术存在的风控模型的鲁棒性较低的问题。
2、本说明书采用下述技术方案:
3、本说明书提供了一种模型训练方法,包括:
4、获取样本数据;
5、针对所述样本数据中包含的每个维度的特征值,确定该维度的特征值与目标模型在预训练过程中针对所述样本数据所得到的偏差之间的关联度,作为该维度对应的关联度,其中,所述偏差为所述目标模型在预训练过程中针对所述样本数据的输出结果与所述样本数据对应的实际结果之间的偏差,若所述关联度越大,则该维度的特征值的变化对所述目标模型的输出结果的影响程度越大;
6、根据每个维度对应的关联度,对所述样本数据包含的至少部分维度的特征值进行调整,得到补充样本数据;
7、通过所述补充样本数据,对所述目标模型进行训练,得到训练后目标模型,以通过训练后目标模型执行目标业务。
8、可选地,针对所述样本数据中包含的每个维度的特征值,确定该维度的特征值与目标模型在预训练过程中针对所述样本数据所得到的偏差之间的关联度,具体包括:
9、针对所述样本数据中包含的每个维度的特征值,判断该维度的特征值的类型是否为连续特征;
10、若是,则根据目标模型在预训练过程中针对所述样本数据所得到的偏差对该维度的特征值的偏导数结果,确定该维度的特征值与所述偏差之间的关联度。
11、可选地,针对所述样本数据中包含的每个维度的特征值,确定该维度的特征值与目标模型在预训练过程中针对所述样本数据所得到的偏差之间的关联度,具体包括:
12、针对所述样本数据中包含的每个维度的特征值,判断该维度的特征值的类型是否为离散特征;
13、若是,则根据目标模型在预训练过程中针对所述样本数据所得到的偏差在该维度的特征值下的差分结果,确定该维度的特征值与所述偏差之间的关联度。
14、可选地,根据每个维度对应的关联度,对所述样本数据包含的至少部分维度的特征值进行调整,得到补充样本数据,具体包括:
15、针对所述样本数据包含的每个维度的特征值,根据该维度的特征值对应的关联度,确定该维度的特征值对应的变化步长,作为该维度对应的变化步长,其中,若该维度的特征值对应的关联度越大,则该维度的特征值对应的变化步长越小;
16、从所述样本数据包含的各维度中选取至少部分维度作为目标维度,并根据每个目标维度对应的变化步长,对每个目标维度的特征值进行调整,得到补充样本数据。
17、可选地,根据每个目标维度对应的变化步长,对每个目标维度的特征值进行调整,得到补充样本数据,具体包括:
18、根据每个目标维度对应的变化步长,对每个目标维度的特征值进行调整,得到基础补充数据;
19、根据每个目标维度对应的变化步长,确定所述基础补充数据对应的实际结果相比于所述样本数据对应的实际结果出现更改的概率;
20、根据所述概率,确定所述基础补充数据对应的实际结果相比于所述样本数据对应的实际结果是否出现更改;
21、若是,则重新确定所述基础补充数据对应的实际结果,作为补充实际结果,并根据所述基础补充数据以及所述补充实际结果,构建补充样本数据,否则,根据所述基础补充数据以及所述样本数据对应的实际结果,构建补充样本数据。
22、可选地,所述样本数据包括:风控业务中所使用的业务数据,所述业务数据包括:用户属性数据、用户行为数据、用户账号状态数据、用户历史数据中的至少一种,所述目标业务包括:风控业务。
23、本说明书提供了一种模型训练装置,包括:
24、获取模块,用于获取样本数据;
25、确定模块,用于针对所述样本数据中包含的每个维度的特征值,确定该维度的特征值与目标模型在预训练过程中针对所述样本数据所得到的偏差之间的关联度,作为该维度对应的关联度,其中,所述偏差为所述目标模型在预训练过程中针对所述样本数据的输出结果与所述样本数据对应的实际结果之间的偏差,若所述关联度越大,则该维度的特征值的变化对所述目标模型的输出结果的影响程度越大;
26、调整模块,用于根据每个维度对应的关联度,对所述样本数据包含的至少部分维度的特征值进行调整,得到补充样本数据;
27、训练模块,用于通过所述补充样本数据,对所述目标模型进行训练,得到训练后目标模型,以通过训练后目标模型执行目标业务。
28、可选地,所述确定模块具体用于,针对所述样本数据中包含的每个维度的特征值,判断该维度的特征值的类型是否为连续特征;若是,则根据目标模型在预训练过程中针对所述样本数据所得到的偏差对该维度的特征值的偏导数结果,确定该维度的特征值与所述偏差之间的关联度。
29、可选地,所述确定模块具体用于,针对所述样本数据中包含的每个维度的特征值,判断该维度的特征值的类型是否为离散特征;若是,则根据目标模型在预训练过程中针对所述样本数据所得到的偏差在该维度的特征值下的差分结果,确定该维度的特征值与所述偏差之间的关联度。
30、可选地,所述调整模块具体用于,针对所述样本数据包含的每个维度的特征值,根据该维度的特征值对应的关联度,确定该维度的特征值对应的变化步长,作为该维度对应的变化步长,其中,若该维度的特征值对应的关联度越大,则该维度的特征值对应的变化步长越小;从所述样本数据包含的各维度中选取至少部分维度作为目标维度,并根据每个目标维度对应的变化步长,对每个目标维度的特征值进行调整,得到补充样本数据。
31、可选地,所述调整模块具体用于,根据每个目标维度对应的变化步长,对每个目标维度的特征值进行调整,得到基础补充数据;根据每个目标维度对应的变化步长,确定所述基础补充数据对应的实际结果相比于所述样本数据对应的实际结果出现更改的概率;根据所述概率,确定所述基础补充数据对应的实际结果相比于所述样本数据对应的实际结果是否出现更改;若是,则重新确定所述基础补充数据对应的实际结果,作为补充实际结果,并根据所述基础补充数据以及所述补充实际结果,构建补充样本数据,否则,根据所述基础补充数据以及所述样本数据对应的实际结果,构建补充样本数据。
32、可选地,所述样本数据包括:风控业务中所使用的业务数据,所述业务数据包括:用户属性数据、用户行为数据、用户账号状态数据、用户历史数据中的至少一种,所述目标业务包括:风控业务。
33、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法。
34、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练方法。
35、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
36、在本说明书提供的模型训练方法,首先获取目标模型以及用于训练目标模型的样本数据,针对样本数据中包含的每个维度的特征值,确定该维度的特征值与目标模型的输出结果与样本数据对应的实际结果之间偏差的关联度,其中,若关联度越大,则该维度的特征值的变化对目标模型的输出结果与样本数据对应的实际结果之间偏差大小的影响程度越大,进而根据关联度,对样本数据包含的至少部分维度的特征值进行调整,得到补充样本数据,通过补充样本数据,对目标模型进行训练,得到训练后目标模型。
37、从上述方法中可以看出,可以基于确定出的输入到目标模型的不同维度的特征的改变对目标模型的输出结果的影响程度,来生成补充样本数据,从而可以基于补充样本数据对目标模型进行训练,进而可以提升训练后的目标模型的鲁棒性。