本发明涉及数据处理,特别涉及一种模型去偏的数据集增强方法。
背景技术:
1、相关技术中,受限于数据集收集方法、标注人员经验等影响,构建的训练数据集存在分布偏置问题;模型会利用数据集中的偏置作为预测的捷径,导致模型没有学会真正的理解和推理能力,使得模型的泛化性和鲁棒性很差;为此,需要人工事先对数据集进行分析,设定可能的偏置特征,之后再从生成的伪样本中剔除掉包含偏置特征的数据;这种人工分析限制了模型的泛化性,并增加了人工资源耗费。
技术实现思路
1、本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种模型去偏的数据集增强方法,通过迭代式的数据增强方式改善数据集的数据分布,达到缓解数据偏置的目的,避免了人工资源耗费。
2、本发明的第二个目的在于提出一种计算机可读存储介质。
3、本发明的第三个目的在于提出一种计算机设备。
4、为达到上述目的,本发明第一方面实施例提出了一种模型去偏的数据集增强方法,包括以下步骤:
5、s1,获取数据集;
6、s2,构建偏置模型,并采用所述数据集中的部分数据对所述偏置模型进行训练,以得到训练好的偏置模型;
7、s3,将数据集输入到训练好的偏置模型,以便得到所述数据集中的每个样本对应的偏置程度;
8、s4,根据所述偏置程度对所述数据集中的每个样本进行排列,并将排序好的每个样本等分为多个组,每个组对应拼接一个偏置指示器,以得到具有偏差指标的数据集;
9、s5,构建生成器,并采用所述具有偏差指标的数据集对所述生成器进行训练,以便通过训练好的生成器生成偏置程度低的伪样本;
10、s6,采用所述偏置程度低的伪样本对所述原始数据集进行扩增,以得到扩增后的数据集;
11、将所述扩增后的数据集作为新的数据集重复执行步骤s3-s6,直至到达最大迭代次数,以便得到最终的数据集。
12、根据本发明实施例的模型去偏的数据集增强方法,首先,获取数据集;然后,构建偏置模型,并采用数据集中的部分数据对偏置模型进行训练,以便采用训练好的偏置模型得到数据集中的每个样本对应的偏置程度;接着,根据偏置程度对数据集中的每个样本进行排列,并将排序好的每个样本等分为多个组,每个组对应拼接一个偏置指示器,以得到具有偏差指标的数据集;再接着,构建生成器,并采用具有偏差指标的数据集对生成器进行训练,以便通过训练好的生成器生成偏置程度低的伪样本;;最后,采用偏置程度低的伪样本对原始数据集进行扩增,以得到扩增后的数据集;迭代进行伪样本生成,从而得到最终的数据集;由此,通过迭代式的数据增强方式改善数据集的数据分布,达到缓解数据偏置的目的,避免了人工资源耗费。
13、另外,根据本发明上述实施例提出的模型去偏的数据集增强方法还可以具有如下附加的技术特征:
14、可选地,所述数据集中的每个样本包括样本信息和对应的真实标签,所述训练好的偏置模型根据样本信息在对应的真实标签上的概率作为评估样本偏置程度的依据,如果概率越趋近于1,则样本越有可能为偏置样本。
15、可选地,采用所述具有偏差指标的数据集对所述生成器进行训练,以便通过训练好的生成器生成偏置程度低的伪样本,包括:将具有偏差指标的数据集输入到生成器,所述生成器逐渐学习到偏置指示器和样本之间的关联,以便得到训练好的生成器;将偏置程度较低的偏置指示器和一批随机的真实标签输入到所述训练好的生成器,以便得到对应的偏置程度低的伪样本。
16、可选地,采用以下损失函数优化所述生成器:
17、
18、其中,s表示数据集;x(i)表示第i个样本信息;b(i)表示第i个偏置指示器;y(i)表示第i个真实标签;θg表示生成器。
19、为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有模型去偏的数据集增强程序,该模型去偏的数据集增强程序被处理器执行时实现如上述的模型去偏的数据集增强方法。
20、根据本发明实施例的计算机可读存储介质,通过存储模型去偏的数据集增强程序,这样模型去偏的数据集增强程序在被处理器执行时实现如上述的模型去偏的数据集增强方法,由此,通过迭代式的数据增强方式改善数据集的数据分布,达到缓解数据偏置的目的,避免了人工资源耗费。
21、为达到上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的模型去偏的数据集增强方法。
22、根据本发明实施例的计算机设备,通过处理器执行上述模型去偏的数据集增强程序,由此,通过迭代式的数据增强方式改善数据集的数据分布,达到缓解数据偏置的目的,避免了人工资源耗费。
1.一种模型去偏的数据集增强方法,其特征在于,包括以下步骤:
2.如权利要求1所述的模型去偏的数据集增强方法,其特征在于,所述数据集中的每个样本包括样本信息和对应的真实标签,所述训练好的偏置模型根据样本信息在对应的真实标签上的概率作为评估样本偏置程度的依据,如果概率越趋近于1,则样本越有可能为偏置样本。
3.如权利要求2所述的模型去偏的数据集增强方法,其特征在于,采用所述具有偏差指标的数据集对所述生成器进行训练,以便通过训练好的生成器生成偏置程度低的伪样本,包括:
4.如权利要求1所述的模型去偏的数据集增强方法,其特征在于,采用以下损失函数优化所述生成器:
5.一种计算机可读存储介质,其特征在于,其上存储有模型去偏的数据集增强程序,该模型去偏的数据集增强程序被处理器执行时实现如权利要求1-4中任一项所述的模型去偏的数据集增强方法。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1-4中任一项所述的模型去偏的数据集增强方法。