一种基于突变算法的数据维度敏感性排序方法

文档序号：34324061发布日期：2023-06-01 02:36阅读：55来源：国知局

本发明属于机器学习领域，尤其涉及一种基于突变算法的数据维度敏感性排序方法。

背景技术：

1、随着人工智能的发展，机器学习在人们生活中起到了越来越重要的作用，在各个领域都发挥了重要的作用，如信用评级系统，犯罪判断系统，学生质量评估等，而机器学习的公平性研究旨在减少深度学习模型对于某些维度数据过于重视的情况，而那些存在上述技术问题的算法就被记作不公平算法。

2、模型的公平性是保证算法实用性的重要一环，缺少了公平性，模型就有可能在使用中出现结果可信度不高现象，因此对于模型的偏见去除对于提高数据结果泛用性与可信度都有着重要的意义。并且偏见去除对于模型研究也有着重要的意义，去除模型的偏见对于我们认识模型也有关键性的作用，我们根据算法的公平性能够获得模型对于每一个维度的敏感程度，从而了解到模型构建过程中出现的问题。

3、解决算法模型中不公平的方法就称之为去偏操作，目前主流的去偏算法分为先验去偏，模型去偏，后验去偏三类，先验去偏主要集中与对于已有数据的预处理操作，如对于已有数据进行整合或者突变。而三种去偏操作使用较多的是模型去偏和后验去偏两种方式，他们的具体步骤是通过某种技术手段对于模型各个维度的敏感度进行检测排序，敏感度高的维度存在偏见的可能性较大，随后通过代价函数等方式对于模型的偏见进行去除，如后验去偏中就需要对于模型进行局部解释或者全局解释从而完成对于模型偏见的捕获操作，再用代价函数进行去偏操作。由此可见模型数据维度敏感度排序就是去偏操作中的至关重要的一环，只有通过一个有效快捷的方式对于模型偏见进行检测，才能节约整个模型构建的时间，但是同时也要保证排序的有效程度，否则极有可能对于模型有了错误认知，反而有可能会加大模型的偏见程度。

4、为了提供一种对于模型维度可能存在的偏见检测方法，从而能够让对模型的去偏操作有一个更加明确的目标，本发明提供了一种对于模型数据维度敏感度的排序方法，使用了一种方法来直观简便的呈现出模型对于数据维度的敏感度，从而展现数据偏见可能存在的维度，从而让使用者通过本方法可以迅速获得模型的敏感度的准确信息。

技术实现思路

1、针对现有技术的不足，本发明提供一种一种基于突变算法的数据维度敏感性排序方法，由于模型对于数据维度的敏感程度不同，因此获得对于模型对于数据维度的敏感度对于模型公平性调整起到至关重要的作用。本发明是通过以下技术方案来实现的：一种基于突变算法的数据维度敏感性排序方法。

2、本发明是通过以下技术方案来实现的：

3、一种基于突变算法的数据维度敏感性排序方法，该方法包括以下步骤：

4、(1)收集数据以及数据突变：收集实验对象的所需的信息，建立为数据集s，接下来对于数据集s中样本进行突变；具体包括以下子步骤：

5、(1.1)通过调查信息建立的数据集s，其中数据集s包含n个样本数据，每个样本数据包含k个特征值；

6、(1.2)创建空集合b1，b2，b3，.....，bk。

7、(1.3)读取数据集s中第x个样本的第i维的数据值sx,i，其中x∈(1,n)，i∈(1,k)，若集合bi中没有数据与sx,i相同，则将sx,i存入bi中，即表示为

8、若则bi＝bi+sx,i (1)

9、(1.4)重复n*k次(1.3)步骤，其中n表示数据集s中的样本数据，k表示样本数据的特征值，即可获得样本集s中所有存在的数据值，将bi中数据值的数量保存为ai；

10、(1.5)创建空样本集sc。

11、(1.6)将数据集s的第x个样本中的第i维数据值sx,i突变为bi,y的值，bi,y代表bi中的第y个数据值，y∈(1，ai)，第x个样本中的其他数据值不变，突变的表达式为：

12、sx,i→bi,y

13、(1.7)将突变后的样本保存到样本集sc中，重复次1.6)的步骤，获得ntotal个样本；

14、(2.1)将样本集sc内的样本全部输入到已有分类模型m中，模型m的输出结果为一个1*c的概率向量，此向量中第i个数据值代表着输入结果对应的输出为第i类的概率，记为pi，i∈(1,c)；利用输出概率向量计算获得基尼系数；

15、(2.2)创建样本集sm，令sm＝null，根据εa进行对sc中样本进行降序排序，从sc中取得基尼系数最大的前100个样本，存入样本集sm。

16、(2.3)创建ai维向量ci，用于记录sm中的样本中数据值的出现次数，其中i∈(1,k)，并且将向量中所有值初始化为0，读取前100个样本的第i维数据，若qx,i＝bi,j，则ci,j的值加一，即表示为

17、若qx,i＝bi,j，则ci,j＝ci,j+1

18、其中qx,i表示样本集sm中的第x样本中第i维度数据值，x∈(1,n)，bi,j表示bi中的第j个值，ci,j为ci中的第j个值，j∈(1,ai)；

19、(2.4)对于ci中的数据进行降序排序；

20、(2.5)将(2.3)以及(2.4)过程重复k次，由于样本的基尼系数大代表着此样本为模型容易判断失误的样本，ci记录了基尼系数最大的100个样本中的数据值出现次数，出现次数越多代表着此数据值越可能导致模型输出结果出现错误，因此获得ci的排序即获得了模型对于各个数据值的敏感程度排序；

21、(3)数据维度敏感度排序：根据模型对于各个数据值的敏感程度对模型的数据维度敏感性进行排序，具体步骤如下：

22、(3.1)创建样本集sl，令sl＝null；

23、(3.2)随机选取样本集s中一个样本，将此样本中的第i维数据使用突变的表达式的方法突变为ci,1对应的值，突变结果为一个新的样本，将这个新样本保存到样本集sl中；

24、(3.3)将(3.2)步骤重复k次，sl中就获得了k个突变样本，这k个样本代表着在其他维度的数据值不变的情况下，使原样本在第i维获得最大敏感程度的样本；

25、(3.4)将sl数据集中的样本输入模型m中，并用基尼系数计算公式计算获得sl中每个样本所对应的基尼系数；

26、(3.5)根据样本对应的基尼系数对sl中的样本进行降序排序，由于sl即代表各维度最大的敏感程度，因此排序的结果即为模型数据维度排序。通过获得模型对于数据维度的排序，我们就可以根据结果对于模型的维度进行调整，通过后续操作减少收入预测模型的不公平现象。

27、进一步地，所述步骤(1.7)中获得ntotal个样本的ntotal的计算方式为：

28、

29、进一步地，所述步骤(2.1)中基尼系数的计算公式为：

30、

31、其中εa表示sc中的第a个样本对应输出概率向量计算获得的基尼系数，(a∈(1，ntotal))，c表示模型结果输出概率向量的列数。

32、本发明的有益效果如下：

33、通过无监督的方法对于模型数据维度敏感度进行排序，并且在实践中还可以获得量化的数据维度敏感度信息，通过实验发现，该方法对于敏感属性的推断能力较强，并且在不同数据集和不同模型下都可以使用，能够较好的适用于各种任务中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑海斌项云鹏陈晋音宣琦
技术所有人：浙江工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。