一种面向深度学习的数据去偏方法及装置

文档序号：32213622发布日期：2022-11-16 06:50阅读：56来源：国知局

1.本发明涉及去偏领域，尤其涉及一种面向深度学习的数据去偏方法及装置。

背景技术：

2.深度学习在许多行业的应用引起了许多伦理和法律问题，包括预测的公平性和偏见。由于人们相信系统可以帮助或决定贷款批准、刑事判决甚至医疗保健，因此深度学习不会产生不公平的决策至关重要。深度学习利用数据来构建能够评估新数据的标签和属性的模型。但是，可用的训练数据经常包含关于研究人员不愿用于决策的东西的偏差。深度学习建立了依赖于训练数据的模型，并可能导致这些决策偏见永久化。
[0003] 研究表明，数据集本身带有的偏见是导致深度学习决策偏见的一个重要原因，当分类模型在不平衡数据上训练时，训练后的模型显示出对特定人群的偏见。现有数据去偏方法大多通过修改数据集标签来达到去偏效果，会导致数据集某些信息丢失，模型预测精度会大幅下降。因此，本发明设计一种面向深度学习的数据去偏方法及装置，在去除偏见的同时确保预测精度。

技术实现要素：

[0004]
本发明的目的是针对现有技术不足，提供一种面向深度学习的数据去偏方法及装置。通过对数据集中的敏感样本进行再平衡，进而对模型进行训练，达到去偏效果。
[0005]
本发明实现上述发明目的所采用的技术方案如下：本发明实施例的第一方面提供了一种面向深度学习的数据去偏方法，具体包括以下子步骤：
[0006]
(1)选取原始数据集，提取原始数据集中的类别标签以及敏感属性标签；
[0007]
(2)构造判别模型m1，将原始数据集中的所有样本输入判别模型m1中寻找敏感样本，筛选去除敏感样本，利用shap解释器扩充数据集，得到无偏数据集；
[0008]
将原始数据集中的所有样本输入判别模型m1中寻找敏感样本的过程具体为：从原始数据集中任意取出一个样本x，构造其对应的敏感属性检测样本x
′
，该两个样本x和x
′
满足敏感属性不同s
x
≠s
x
′
，而其他属性相同z
x
＝z
x
′
，那么判别模型m1不应该对x和x
′
的判别结果存在差异，若存在差异就认为x为敏感样本；
[0009]
(3)构造预测模型m2，将步骤(3)得到的无偏数据集输入预测模型m2进行训练；
[0010]
(4)对步骤(3)训练得到的预测模型m2进行测试，若满足公平性评估指标机会平等时，则认为预测模型m2经训练后达到公平，完成去偏；若不满足公平性评估指标，则重复步骤(3) 直至达到公平性评估指标。
[0011]
进一步地，所述原始数据集为compas数据集。
[0012]
进一步地，利用shap解释器扩充数据集的过程具体为：
[0013]
使用shap测量每个特征向量对模型预测结果的重要性；假设第i个样本为xi，第i个样本的第j个特征为x
i_j
，判别模型m1对该样本的预测值为yi，整个判别模型m1的基线为y_base，那么shap值服从以下等式：
[0014]
yi＝y
base
+f(x
i1
)+f(x
i2
)+
…
+f(x
ik
)
[0015]
其中f(xi)为xi的shap值；f(x
i1
)是第i个样本中第1个特征对最终预测值yi的贡献值，当f(x
i1
)》0，说明该特征提升了预测值；反之，说明该特征使得预测值降低；
[0016]
对f(x
ik
)进行排序，自定义设置排名阈值，然后选取大于排名阈值的特征扩充样本，将去除敏感样本后的数据集扩充为原始数据集大小，得到无偏数据集。
[0017]
进一步地，所述判别模型m1由全连接神经网络构成；所述预测模型m2由6层全连接神经网络构成，每层的神经元个数分别为64、32、16、8、4、2。
[0018]
进一步地，所述步骤(3)中的模型m2的训练过程具体为：全连接层使用softmax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数，优化器使用adam 进行优化；所述损失函数公式如下所示：
[0019]
l1＝-[y
·
log(p)+(1-y)
·
log(1-p)]
[0020]
其中，y表示样本的标签；p表示预测结果为1的概率。
[0021]
进一步地，所述步骤(4)中的公平性评估指标的公式如下：
[0022][0023]
其中，表示模型预测，s为敏感属性。
[0024]
本发明实施例的第二方面提供了一种面向深度学习的数据去偏装置，包括一个或多个处理器，用于实现上述的面向深度学习的数据去偏方法。
[0025]
本发明实施例的第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的面向深度学习的数据去偏方法。
[0026]
本发明的有益效果为：本发明公开了一种面向深度学习的数据去偏方法及装置，通过筛选去除敏感样本，得到无偏数据集；利用无偏数据集对预测模型进行训练，使得预测模型满足公平性评估指标，达到去偏的效果。
附图说明
[0027]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。
[0028]
图1是本发明的实施例中模型的结构图；
[0029]
图2是本发明实施例提供的一种面向再犯预测的去偏方法的流程示意图；
[0030]
图3是本发明实施例提供的一种面向再犯预测的去偏装置的示意图。
具体实施方式
[0031]
这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0032]
在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数
形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0033]
应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0034]
下面结合说明书附图对本发明的具体实施方式作进一步详细描述。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。
[0035]
参照图1～图2，本发明提出了一种面向再犯预测的去偏方法，步骤如下：
[0036]
(1)选取原始数据集，提取原始数据集中的类别标签以及敏感属性标签
[0037]
本发明实施例中选取compas数据集、adult数据集或bank数据集作为原始数据集。本发明实施例中以5：1的比例划分训练集和测试集。
[0038]
对训练集提取类别标签以及敏感属性标签的过程具体为：compas数据集中每个样本有 18个类别属性，在这些属性中有年龄、性别等多个潜在的敏感属性。特别地，对训练集中的非二分类的数据类别需进行one-hot编码，获取其对应的类别标签。
[0039]
(2)构造判别模型m1，将原始数据集中的所有样本输入判别模型m1中寻找敏感样本，筛选去除敏感样本，利用shap解释器扩充数据集，得到无偏数据集；
[0040]
(2.1)构造判别模型m1具体为：本发明实施例中所述判别模型m1由全连接神经网络构成。
[0041]
(2.2)将原始数据集中的所有样本输入判别模型m1中寻找敏感样本的过程具体为：从原始数据集中任意取出一个样本x，构造其对应的敏感属性检测样本x
′
，该两个样本x和x
′
满足敏感属性不同s
x
≠s
x
′
，而其他属性相同z
x
＝z
x
′
，那么判别模型m1不应该对x和x
′
的判别结果存在差异，若存在差异就认为x为敏感样本。
[0042]
从训练集中随机选取一些样本数据，例如选取的样本数据为 x＝[1,0,1,0,0,0,1,0,0,0,1,0,1,1,0,0,0,0]，其中第9个属性为敏感属性“性别”，此样本的敏感属性性别为0，说明它代表的种族为“女”，将第9个属性进行翻转，使性别敏感属性为1，此时得到样本x
′
＝[1,0,1,0,0,0,1,0,1,0,1,0,1,1,0,0,0,0]。
[0043]
(2.3)筛选去除敏感样本
[0044]
若x为敏感样本，将x从训练集中进行删除；若x不是敏感样本，保留x。重复以上操作，遍历compas数据集中的所有样本，得到一个不含敏感样本的数据集x1。
[0045]
(2.4)利用shap解释器扩充数据集，具体地：
[0046]
经过步骤(2.2)中所述的方法筛选数据集后，虽然保留下来的数据集x1不含有敏感样本，是公平的数据集，但是数据集丢失了大量的样本，这些样本含有的信息可能对预测任务贡献度很大，由数据集x1训练得到的模型分类精度会很低，因此需要对数据集进行扩充。
[0047]
首先使用shap测量每个特征向量对模型预测结果的重要性。假设第i个样本为xi，第i 个样本的第j个特征为x
i_j
，判别模型m1对该样本的预测值为yi，整个判别模型m1的基线(通常是所有样本的目标变量的均值)为y_base，那么shap值服从以下等式：
[0048]
yi＝y
base
+f(x
i1
)+f(x
i2
)+
…
+f(x
ik
)
[0049]
其中f(xi)为xi的shap值。直观上看，f(x
i1
)就是第i个样本中第1个特征对最终预测值 yi的贡献值，当f(x
i1
)》0，说明该特征提升了预测值，也正向作用；反之，说明该特征使得预测值降低，有反作用。
[0050]
通过shap找到对模型预测结果贡献大的特征，对f(x
ik
)进行排序，然后基于排名靠前特征扩充样本，本发明实施例中选取排名前30％的特征以扩充样本，将步骤(2.3)去除敏感样本后的数据集扩充为原始数据集大小，此时数据集为无偏数据集x
′
。
[0051]
(3)构造预测模型m2，将步骤(3)得到的无偏数据集输入预测模型m2进行训练；
[0052]
预测模型m2由6层全连接神经网络构成，每层的神经元个数分别为64、32、16、8、4、 2。全连接层使用softmax为激活函数对数据进行分类识别，训练过程的损失函数均使用交叉熵损失函数，优化器使用adam。将步骤(2)合成好的无偏数据集x
′
输入到预测模型m2中，本发明实施例中训练批次的大小定为100，在训练阶段采用预热学习率策略，优化器采用 adam进行优化。损失函数采用交叉熵的形式，公式如下所示：
[0053]
l1＝-[y
·
log(p)+(1-y)
·
log(1-p)]
[0054]
其中y表示样本的lable。p表示预测结果为1的概率。
[0055]
(4)对步骤(3)训练得到的预测模型m2进行测试，若满足公平性评估指标机会平等时，则认为模型经训练后达到公平，完成去偏；若不满足公平性评估指标，则重复步骤(3)直至达到公平性评估指标。
[0056]
将步骤(1.2)中划分的测试集输入到训练好的预测模型m2中进行测试，当测试集的测试结果满足公平性评估指标机会平等时，则认为预测模型m2经过训练后达到了公平。
[0057]
机会平等的公式为：
[0058][0059]
其中表示模型预测，s为敏感属性，当上式的左右两边的结果相等或相近时则认为模型达到了去偏效果。
[0060]
实施例1
[0061]
(1)选取compas数据集为原始数据集，提取原始数据集中的类别标签以及敏感属性标签。
[0062]
在本发明实施例1中，将样本的“性别”作为敏感属性，属性为“男性”或者“女性”，并对其进行二值化处理，将“男性”编码为1，“女性”编码为0。
[0063]
(2)构造判别模型m1，将原始数据集中的所有样本输入判别模型m1中寻找敏感样本，筛选去除敏感样本，利用shap解释器扩充数据集，得到无偏数据集。
[0064]
(2.1)构造判别模型m1具体为：本发明实施例中所述判别模型m1由全连接神经网络构成。
[0065]
(2.2)将原始数据集中的所有样本输入判别模型m1中寻找敏感样本的过程具体为：从原始数据集中任意取出一个样本x，构造其对应的敏感属性检测样本x
′
，该两个样本x和x
′
满足敏感属性不同s
x
≠s
x
′
，而其他属性相同z
x
＝z
x
′
，那么判别模型m1不应该对x和x
′
的判别结果存在差异，若存在差异就认为x为敏感样本。
[0066]
(2.3)筛选去除敏感样本
[0067]
若x为敏感样本，将x从训练集中进行删除；若x不是敏感样本，保留x。重复以上操
作，遍历compas数据集中的所有样本，得到一个不含敏感样本的数据集x1。
[0068]
(2.4)利用shap解释器扩充数据集
[0069]
通过shap找到对模型预测结果贡献大的特征，对f(x
ik
)进行排序，然后基于排名靠前特征扩充样本，本发明实施例中选取排名前30％的特征以扩充样本，将步骤(2.3)去除敏感样本后的数据集扩充为原始数据集大小，此时数据集为无偏数据集x
′
。
[0070]
(3)构造预测模型m2，将步骤(3)得到的无偏数据集输入预测模型m2进行训练。
[0071]
(4)对步骤(3)训练得到的预测模型m2进行测试，若满足公平性评估指标机会平等时，则认为模型经训练后达到公平，完成去偏；若不满足公平性评估指标，则重复步骤(3)直至达到公平性评估指标。
[0072]
将步骤(1.2)中划分的测试集输入到训练好的预测模型m2中进行测试，预测个体是否会再次犯罪，其输出结果只有0或1，0代表不会再次犯罪，1代表会再次犯罪。通过计算计算公平性评估指标，当测试集的测试结果满足公平性评估指标机会平等时，则认为预测模型 m2经过训练后达到了公平。
[0073]
实施例2
[0074]
(1)选取adult数据集为原始数据集，提取原始数据集中的类别标签以及敏感属性标签。
[0075]
在本发明实施例2中，将样本的“性别”作为敏感属性，属性为“男性”或者“女性”，并对其进行二值化处理，将“男性”编码为1，“女性”编码为0。
[0076]
(2)构造判别模型m1，将原始数据集中的所有样本输入判别模型m1中寻找敏感样本，筛选去除敏感样本，利用shap解释器扩充数据集，得到无偏数据集。
[0077]
(2.1)构造判别模型m1具体为：本发明实施例中所述判别模型m1由全连接神经网络构成。
[0078]
(2.2)将原始数据集中的所有样本输入判别模型m1中寻找敏感样本的过程具体为：从原始数据集中任意取出一个样本x，构造其对应的敏感属性检测样本x
′
，该两个样本x和x
′
满足敏感属性不同s
x
≠s
x
′
，而其他属性相同z
x
＝z
x
′
，那么判别模型m1不应该对x和x
′
的判别结果存在差异，若存在差异就认为x为敏感样本。
[0079]
(2.3)筛选去除敏感样本
[0080]
若x为敏感样本，将x从训练集中进行删除；若x不是敏感样本，保留x。重复以上操作，遍历compas数据集中的所有样本，得到一个不含敏感样本的数据集x1。
[0081]
(2.4)利用shap解释器扩充数据集
[0082]
通过shap找到对模型预测结果贡献大的特征，对f(x
ik
)进行排序，然后基于排名靠前特征扩充样本，本发明实施例中选取排名前30％的特征以扩充样本，将步骤(2.3)去除敏感样本后的数据集扩充为原始数据集大小，此时数据集为无偏数据集x
′
。
[0083]
(3)构造预测模型m2，将步骤(3)得到的无偏数据集输入预测模型m2进行训练。
[0084]
(4)对步骤(3)训练得到的预测模型m2进行测试，若满足公平性评估指标机会平等时，则认为模型经训练后达到公平，完成去偏；若不满足公平性评估指标，则重复步骤(3)直至达到公平性评估指标。
[0085]
将步骤(1.2)中划分的测试集输入到训练好的预测模型m2中进行测试，当测试集的测试结果满足公平性评估指标机会平等时，则认为预测模型m2经过训练后达到了公平。
[0086]
构造的预测模型m
fair
输出的预测值是一个二进制变量，在本发明实施例2中预测模型 m
fair
用于预测个体的年收入，其输出结果只有0或1，0代表年收入小于50k，1代表年收入大于50k。
[0087]
公平性评估指标机会平等的公式为：
[0088][0089]
其中表示模型预测结果，s为敏感属性，当上式的左右两边的结果相等或相近时则认为模型达到了去偏效果。
[0090]
与前述面向深度学习的数据去偏方法的实施例相对应，本发明还提供了面向深度学习的数据去偏装置的实施例。
[0091]
参见图3，本发明实施例提供的一种面向深度学习的数据去偏装置，包括一个或多个处理器，用于实现上述实施例中的面向深度学习的数据去偏方法。
[0092]
本发明面向深度学习的数据去偏装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明面向深度学习的数据去偏装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。
[0093]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。
[0094]
对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0095]
本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的面向深度学习的数据去偏方法。
[0096]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(smart media card，smc)、sd 卡、闪存卡(flash card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。
[0097]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术
人员根据本发明构思所能够想到的等同技术手段。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈晋音陈奕芃郑海斌赵云波
技术所有人：浙江工业大学
我是此专利的发明人

上一篇：一种防倒伏的辣椒固定装置的制作方法
上一篇：用于声阻抗匹配和改进的触摸感测和指纹成像的几何结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。