一种梯度扰动的机器学习公平性方法及系统

文档序号：34265172发布日期：2023-05-25 06:30阅读：39来源：国知局

本发明属于机器学习领域，具体地说是一种梯度扰动的机器学习公平性方法及系统，用于在分类算法中同时实现机器学习的公平性。

背景技术：

1、随着信息技术的不断发展，人工智能已经被广泛应用于金融、医疗、法律、教育等领域，给我们的生活带来了极大的便利。人工智能的广泛应用扩大了相关技术的影响力，但也引发了一系列问题，其中最引人注目的便是模型引发的隐私和公平问题。首先，人工智能技术需要大量的数据来训练模型，但这些数据中通常会包含个人信息，如果这些数据被泄露，可能会对个人隐私造成严重影响。其次，由于历史遗留，数据不平衡，模型设计不合理等原因，人工智能可能对不同群体提供不同质量的服务。因此，解决如何在保证较高精度的情况下最大限度地实现隐私和公平的问题，是目前的重要课题。

2、针对上述的隐私保护问题，cynthia dwork提出了差分隐私技术。差分隐私的思想是，在收集和分析数据时，通过在数据中添加噪声来防止数据被准确地还原。近年来，差分隐私在机器学习领域被广泛使用，因为它可以在保护个人隐私的同时，允许对数据进行有意义的分析。

3、机器学习公平则是一个广泛的话题，它涵盖了很多不同的方面，包括数据集偏差、模型偏差和决策偏差等。针对数据集偏差，widrow使用噪声数据来扩大数据集，从而使模型更具泛化能力；针对决策偏差，wainwright和duchi在训练机器学习模型时使用平衡分类器。除此之外，机器学习系统公平的保障需要借助公平性规则，公平性规则用于确保机器学习系统的决策不会因为用户的特定属性而受到歧视。

4、大多数机器学习研究普遍关注于单一的隐私或公平问题，而较少关注将隐私保护和机器学习公平结合起来的研究。因此，如何在保证差分隐私的同时实现机器学习公平性仍是一个有待解决的挑战。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种梯度扰动的机器学习公平性方法及系统，用于在分类算法中实现机器学习的公平性。

2、为达到上述目的，本发明提供如下技术方案：

3、方案一、一种梯度扰动的机器学习公平行方法，该方法包括以下步骤：

4、s1、获取数据集，分为训练集和测试集，并进行预处理，所述预处理包括计算样本不平衡比率、数据转换以及改善数据集的平衡性；

5、s2、进行参数设置，所述参数包括隐私保护强度和梯度裁剪阈值；

6、s3、确定公平性规则，具体包括确定群体、设置公平性度量方法以及设置公平性约束；

7、s4、选择模型类别，定义模型结构和初始化参数，并训练模型；

8、s5、进行模型评估并调整优化模型。

9、进一步，在步骤s1中，通过计算训练集中正类和负类样本的数量来计算得到样本不平衡比率；

10、数据转换具体为：将过采样后的数据集转化成均值为0和标准差为1的分布，对于一个包含n条记录的数据集，其均值为根据均值将数据集中的每条记录更改为xi＝xi-u；计算数据集的方差为再将每条记录更改为xi＝xi/σ；

11、改善数据集的平衡性具体为：选择少数类别中的一个样本xi，再在少数类别中选择另一个样本xj，计算xi与xj之间的距离di,j；随后生成取值范围在[0,1]之间的随机数β，基于随机数β生成新样本xnew＝xi+α×di,j，并将新样本加入数据集中。重复这一过程直至样本均衡。

12、进一步，在步骤s2中，通过隐私保护强度和数据规模共同确定隐私预算ε的大小；同时，由于噪声的加入会深刻的影响梯度的范围，因此将预处理数据中所有数据列中的范数最大值设置为裁剪阈值c。

13、进一步，在步骤s3中，确定群体具体为确定模型中需要保持公平的组别，例如性别、种族、群体等；

14、设置公平性度量方法具体为：不同群体使用差分隐私后，精度下降的比率一致，并且用a＝0表示非代表性属性，a＝1表示代表性属性，则有：

15、

16、设置公平性约束具体为：

17、

18、进一步，在步骤s4中，训练模型的过程如下：

19、s41、定义模型的损失函数和优化器；

20、s42、模型优化器在随机梯度下降的基础上进行变种，在计算梯度时动态地向不同群体中加入噪声；

21、s43、训练一个非公平非隐私模型，该模型会在公平性度量中使用到；

22、s44、每一轮训练完成时，在每一个样本的梯度上加入高斯噪声：

23、

24、随后对扰动的梯度进行裁剪：若梯度大于裁剪阈值c，则对梯度进行裁剪：gi＝min(gi,c)；根据节点数据量大小以及对模型精度的需求，选择进入步骤s45或者s46；

25、s45、若节点数据量小并且对模型精度的需求高，则根据敏感属性将训练集划分为不同的群体，计算群体中每个个体在训练集上的损失函数，并根据计算结果计算出本轮的梯度g_i；随后计算每个群体的平均梯度：

26、gi＝σgi(i∈a)/count(a)；

27、根据平均梯度调整不同群体间的裁剪阈值：

28、

29、不断迭代直至达到公平性需求；

30、s46、若节点数据量大并且对模型精度的需求低，则将精度约束和公平性约束同时设置为训练的终止条件，如果模型不满足公平性约束，则减小噪声在代表性不足群体中的注入量：γ＝γ*0.9；不断训练模型直至收敛。

31、进一步，步骤s5包括以下步骤：

32、s51、采用欠采样的方式对代表性足的群体进行丢弃，使得测试集中每个类别的样本数量是均衡的；

33、s52、使用精度加公平性约束的方式评估模型，具体如下：

34、

35、式中，α表示平衡超参数，用于在精度和公平性之间做出平衡；

36、s53、根据模型评估的结果判断隐私模型造成的精度下降比例是否一致，以及判断加入的噪声是否超出隐私预算；通过调节噪声尺度和平衡超参数α来选择最优模型。

37、方案二、一种梯度扰动的机器学习公平性系统，该系统包括数据预处理模块、特征工程模块、数据分析模块、参数设置模块、模型训练模块和模型评估模块。

38、其中，数据预处理模块用于对原始数据进行清洗、转换、规范化以及消除数据集的不平衡；特征工程模块用于对预处理后的数据进行特征提取和特征工程，实现降低数据维度、降噪以及特征选择；数据分析模块用于对数据进行数据分析和建模，以对数据进行预测；参数设置模块用于对训练环境的参数进行设置和配置，并确定公平性规则；模型训练模块用于对数据进行训练，使模型在梯度上实现差分隐私的同时保证公平性；模型评估模块用于验证模型的优劣以筛选出最优的模型。

39、数据预处理模块包括以下子单元：

40、第一单元：数据去重并处理缺失值；

41、第二单元：数据转换以满足输入需求。首先对数据进行数据类型转换，以便后续的分析和处理。例如将日期类型转化为时间戳，文本类型转换为数值类型。然后，进行标准化，使其均值为将数据集中的每条记录更改为xi＝xi-u。然后计算数据集的方差为将每条记录更改为xi＝xi/σ；

42、第三单元，改善数据集平衡性。根据敏感属性将数据集划分为不同的群体，然后根据数据量选择过采样或欠采样的方式改善数据集的平衡性，使得数据集中各个群体的样本量一致。

43、特征工程模块包括以下子单元：

44、第一单元，特征提取，用于从原始数据中提取新的特征，如从时间数据中提取时间特征；

45、第二单元，特征降维，通过主成分分析(pca)、独立成分分析(ica)等方法进行降维处理；

46、第三单元，特征选择，该单元用于选择与分析目标相关的特征，通过ruc曲线，方差分析等方法选择最具代表的特征。

47、数据分析模块包括以下子单元：

48、第一单元，描述性分析，用于对数据进行描述性分析，例如群体间的分布，各群体间的方差等等；

49、第二单元，建模分析，用于建立模型并对数据进行预测。

50、参数设置模块包括以下子单元：

51、第一单元，参数设置，根据隐私保护需求和数据规模两个因素共同确定隐私保护强度ε的大小，然后将所有数据列中的范数最大值设置为裁剪阈值c。

52、第二单元，公平性规则选取，根据群体设置公平性规则，以确保不同的群体在隐私保护下的精度下降比例一致；设置公平性约束，以保证群体间的公平性差异在可接受范围内。

53、模型训练模块包括以下子单元；

54、第一单元，定义损失函数和优化器，根据数据分析模块选择的模型，选择合适的损失函数和优化器；

55、第二单元，训练非公平非隐私模型，这个模型作为公平性度量设置模块的对照；

56、第三单元，训练隐私模型，使用模型对数据进行训练。

57、模型评估模块包括以下子单元：

58、第一单元，训练多组隐私模型，通过网格搜索法设置多组参数，然后基于这些参数训练多组隐私模型；

59、第二单元，生成均衡的测试集，采用欠采样的方式对代表性足的群体进行丢弃，使得测试集中每个类别的样本数量是均衡的；

60、第三单元，评估模型，模型的评估指标使用精度加公平性约束的方式，具体是：

61、其中α用于在精度和公平性之间做出平衡。基于这个评估指标评估结果的优劣。

62、第三单元，调整发布。选择最合适的模型，经过处理后发布到实际的生产环境中。

63、本发明的有益效果在于：

64、(1)基于梯度的方法相较于已有的基于目标函数方法，适用的模型种类更广，且不需要目标函数是连续可微分的。

65、(2)可以根据每个节点的数据量以及精度要求来选择在训练阶段使用自适应裁剪算法还是自适应噪声算法，进而提高模型的适用性。

66、(3)本发明的实施过程和步骤简单易操作，只需要证明目标函数的连续性就能应用在实际问题中。

67、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许加炜王豪雷建军张清华夏英张旭
技术所有人：重庆邮电大学
我是此专利的发明人

上一篇：一种微波介质陶瓷及其制备方法与流程
上一篇：一种可折叠车的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。