本申请涉及数据分类处理,尤其涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、近年来,随着互联网技术的发展,人们在使用互联网时会源源不断的产生大量数据,研究这些数据可以使智能服务得到更好的发展。然而在实际研究过程中,获取数据的方式越来越便利,但是数据的质量却不一定有保证,例如数据集类别不平衡问题,会给后续的分析带来困难,如分析准确性不高,因此在边界获取训练数据的同时,提高数据质量是尤为重要的。
技术实现思路
1、本申请实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质,提高了训练数据的质量。
2、第一方面,本申请实施例提供了一种数据处理方法,包括:
3、对样本集进行分类处理,得到第一样本集和第二样本集,所述第一样本集中的样本数量多于所述第二样本集中的样本数量;
4、对所述第二样本集进行过滤处理,得到安全样本集和边界样本集;
5、对所述边界样本集进行数据增强,得到增强后的边界样本集;
6、将所述第一样本集、所述安全样本集、所述边界样本集以及增强后的所述边界样本集进行汇总得到训练样本集。
7、第二方面,本申请实施例提供了一种数据处理装置,包括:
8、分类模块,用于对样本集进行分类处理,得到第一样本集和第二样本集,所述第一样本集中的样本数量多于所述第二样本集中的样本数量;
9、过滤模块,用于对所述第二样本集进行过滤处理,得到安全样本集和边界样本集;
10、增强模块,用于对所述边界样本集进行数据增强,得到增强后的边界样本集;
11、训练模块,用于将所述第一样本集、所述安全样本集、所述边界样本集以及增强后的所述边界样本集进行汇总得到训练样本集。
12、第三方面,本申请实施例提供了一种电子设备,电子设备包括处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,存储器执行计算机程序时实现上述数据处理方法中的步骤。
13、第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述数据处理方法中的步骤。
14、本申请实施例提供了一种数据处理方法、装置、电子设备及计算机可读存储介质,在进行分类模型的训练时,通过对所得到的样本集进行相应的处理,增强少数样本的数量,进而进行模型的训练,具体地,首先对样本集进行分类处理,得到多数类样本集和少数类样本集,然后对少数类样本集进行数据扩充,包括先对少数类样本进行过滤处理,将少数类样本中的噪声样本剔除,以得到安全样本集和边界样本集,接着对边界样本集进行数据的增强处理,得到增强后的边界样本集,实现样本数据的扩充,最后将多数类样本集、安全样本集、边界样本集和增强后的边界样本集进行汇总,得到用于进行模型训练的训练样本,以根据汇总得到的训练样本进行模型训练。实现了在模型训练过程中,通过对少数类样本集中的边界样本进行数据增强,包括弱增强和强增强,对少数类样本进行扩充,找到最优的对抗样本,进而进行模型训练,提高了模型的鲁棒性和分类准确性。
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对样本集进行分类处理,得到第一样本集和第二样本集,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述第二样本集进行过滤处理,得到安全样本集和边界样本集,包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述样本集中每一样本进行向量化处理,得到所述样本集中每一样本对应的句向量,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于所述句向量在所述样本集中进行匹配,得到所述第二样本集中每一样本对应的子样本集,包括:
6.根据权利要求3所述的方法,其特征在于,所述根据所述子样本集所包含的样本,确定所述子样本集对应的样本的划分标签,包括:
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述将所述第一样本集、所述安全样本集、所述边界样本集以及增强后的所述边界样本集进行汇总得到训练样本集之后,还包括:
8.一种数据处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的数据处理方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法中的步骤。