一种在二分类中同时实现差分隐私和机器学习公平的方法

文档序号：31524866发布日期：2022-09-14 13:50阅读：来源：国知局

技术特征：
1.一种在二分类中同时实现差分隐私和机器学习公平的方法，其特征在于：该方法包括以下步骤：步骤s1，数据预处理；包括以下步骤：步骤s1-1，首先对数据集执行one-hot编码，然后将数据集的多值属性拆解成多个二值属性，得到新的特征x1，x2...x
d
；步骤s1-2，对新的数据集执行标准化操作；让数据集的均值为0；假设数据集中包含n条数据，均值x＝x-u；步骤s1-3，让数据集的方差为1，x＝x/σ；步骤s2，设置相关参数；包括以下步骤：步骤s2-1，根据隐私保护需求设置相应的隐私保护强度∈；步骤s2-2，根据精度及公平需求设置平衡超参数α；步骤s3，生成新的目标函数；包括以下步骤：步骤s3-1，生成公平约束；假设t
i
表示数据集中的一条记录，原目标函数为f(ω，t
i
)，预测结果为y
′
，实际结果为y；敏感属性为s；s＝0表示非代表性属性，s＝1表示代表性属性；则反事实公平约束con表示为：con＝((y
′
|s＝0)-0.5)*((y
′
|s＝1)-0.5)步骤s3-2，将公平性约束加权到目标函数上；用超参数α调节精度与公平性约束之间的平衡；当g小于0时，表示在现实世界和反事实世界中的预测结果一致；则新的目标函数为步骤s4，验证连续可微分性；验证目标函数的连续可微分性，如果满足连续可微，执行步骤5，否则结束；步骤s5，展开目标函数；根据stone-weierstrass定理，任何连续可微分的函数f(x)由一个多项式ax
n
+bx
n-1...+kx1+bx0来表示；函数f(x)在x＝x0处的泰勒展开式表示为：将新的目标函数在x＝0处进行展开，得到的多项式目标函数步骤s6，计算目标函数的全局敏感度δf，包括以下步骤：步骤s7，噪声加入；向多项式目标函数的系数中加入高斯噪声；设则扰动后的多项式系数为：步骤s8，对目标函数执行梯度下降操作；根据得到的噪声多项式函数计算梯度，执行梯度下降操作；重复此步骤，直到函数收敛；得到满足差分隐私和机器学习公平的权重；步骤s9，模型发布；不断调节超参数α，平衡模型精度与安全性之间的关系，当同时达到要求精度和安全需求后，发布模型。
2.根据权利要求1一种在二分类中同时实现差分隐私和机器学习公平的方法，其特征在于：所述s6具体包括：步骤s6-1，分别计算相邻数据集d和d
′
上的目标函数；φ表示权重中各个分量的运算结果，φ
j
为幂为j的φ对应的集合，λ为多项式系数；对于数据集d，它的多项式目标函数表示为对于数据集d
′
，它的多项式目标函数为步骤s6-2，计算多项式系数上的全局敏感度δf；将s6-1得到的多项式目标函数作差，得到3.基于权利要求1或2中所述方法的在二分类中同时实现差分隐私和机器学习公平的系统，其特征在于：该系统包括以下模块，数据预处理模块，用于对收集到的数据进行预处理和规约；该模块包括以下子单元；第一单元，将多值属性x
(i)
转化为多个二值属性x
(i1)
，x
(i2)
...x
(ik)
；第二单元，令数据集各个特征的均值为0；对具有n条记录的数据集，计算其均值用每条属性的值减去均值x＝x-u；第三单元，令数据集的方差为1；计算包含n条记录数据集的方差再用每条记录除以方差σ，有x＝x/σ；目标函数生成模块；根据原目标函数和公平性约束，生成新的目标函数；包括以下子模块；第一单元，超参数设置；根据需求设置模型的隐私保护强度∈以及用于平衡公平与精度之间的超参数α；第二单元，生成公平性约束项；依照反事实公平规则，对反事实世界与现实世界预测结果不一致的情况进行惩罚；二分类使用sigmoid函数刻画，当预测结果大于0.5时，分类为1；当预测结果小于0.5，预测结果为0；设预测结果为y
′
，敏感属性s∈(0，1)，则约束项con＝((y
′
|s＝0)-0.5)*((y
′
|s＝1)-0.5)；当约束con小于0时，表示反事实世界与现实世界预测结果不一致，反之亦然；第三单元，将公平性约束加权到目标函数上；对约束项取反；使用超参数α来调节精度和公平性约束之间的关系，新的目标函数目标函数展开模块，用于生成一个近似的多项式来渐进目标函数；包括以下子单元；第一单元，检测目标函数的连续可微分性；若目标函数在定义域内满足连续可微分性，执行后续单元，否则结束；第二单元，多项式生成；根据stone-weierstrass定理，任何连续可微分的函数f(x)由一个多项式函数表示；使用泰勒展开公式将目标函数在0处展开，多项式目标函数
多目标函数g(ω)展开项数越高，时间复杂度越高，且根据多项式系数计算出的全局敏感度δf也越高，就会导致注入过量的噪声；用2-3阶的泰勒展开式去近似多项式目标函数：敏感度计算模块，用于计算多项式目标函数系数上的全局敏感度，包括以下子单元；第一单元，求解兄弟数据集的近似目标函数；对于兄弟数据集d和d
′
；φ表示权重中各个分量的运算结果，φ
j
表示幂为j的φ对应的集合，λ为多项式系数；数据集d的近似多项式目标函数表示为数据集d
′
的近似多项式目标函数为第二单元，计算全局敏感度δf；对兄弟数据集d和d
′
的近似多项式目标函数作差，令扰动模块，用于向目标函数的多项式系数中加入高斯噪声，包括以下子单元：第一单元，基于得到的隐私保护强度∈和敏感度计算模块得到的全局敏感度δf，生成高斯分布噪声；设δ＝1*10-5
，高斯噪声的标准差生成噪声gauss(0，σ2)；第二单元，将生成的高斯噪声加入到目标函数的多项式系数中；扰动后的多项式系数发布模块，用于发布满足隐私和公平需求的权重；包括以下子单元：第一单元，求解梯度；在扰动后的目标函数上执行梯度下降，直至函数收敛，得到权重不断调节超参数α，重复实验，得到多组权重；第二单元，发布模型；从第一单元中得到的一系列权重中选择最优的权重发布。

技术总结
本发明涉及一种在二分类中同时实现差分隐私和机器学习公平的方法，属于机器学习领域。将隐私和公平需求转化为一个多目标优化问题。首先，根据安全需求设置隐私保护强度及相关超参数；随后通过加权将反事实公平加入到目标函数中；接着将得到的新目标函数用泰勒公式展开，计算全局敏感度；然后根据得到的全局敏感度和隐私保护强度生成符合要求的高斯噪声；最后，使用得到的噪声扰动目标函数的多项式系数并执行梯度下降，计算最优权重。解决了在二分类中没有同时实现隐私和机器学习公平的问题。题。题。

技术研发人员：王豪许加炜雷建军张清华夏英张旭
受保护的技术使用者：重庆邮电大学
技术研发日：2022.06.10
技术公布日：2022/9/13

完整全部详细技术资料下载

当前第2页1 2