数据生成方法、模型性能评估方法、装置、设备和介质与流程

文档序号:32652855发布日期:2022-12-23 19:41阅读:94来源:国知局
数据生成方法、模型性能评估方法、装置、设备和介质与流程

1.本发明实施例涉及可信人工智能技术领域,尤其涉及一种数据生成方法、模型性能评估方法、装置、设备和介质。


背景技术:

2.随着计算机技术的快速发展,机器学习网络模型被广泛应用。由于训练数据标注和模型设计中往往对某些敏感属性存在偏见,使得训练出的网络模型在应用中会强化对敏感属性的偏见,进而导致决策过程中的不公平现象产生。针对于此,可以构建出一种保障公平性的公平性网络模型,以缓解这种不公平现象。
3.目前,往往需要对构建出的公平性网络模型进行性能评估,以确定出这种公平性网络模型的公平性效果和准确度情况。
4.然而,在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
5.现有技术中用于评估公平性网络模型的真实样本数据普遍来自于同一地区,数据量太少且受保护的敏感属性种类单一,以及对受保护的敏感属性的偏见程度较小,从而无法准确全面地评估公平性网络模型的模型性能。


技术实现要素:

6.本发明实施例提供了一种数据生成方法、模型性能评估方法、装置、设备和介质,以快速生成对任意受保护的敏感属性具有任意偏见程度的样本数据,进而可以准确全面地评估公平性网络模型的模型性能。
7.第一方面,本发明实施例提供了一种数据生成方法,包括:
8.获取随机噪声样本数据;
9.将所述随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,所述目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、所述目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;
10.根据所述目标生成模型的输出,确定对所述预设敏感属性具有所述预设偏见程度的目标合成样本数据。
11.第二方面,本发明实施例提供了一种模型性能评估方法,包括:
12.获取随机噪声样本数据;
13.将所述随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,所述目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、所述目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;
14.根据所述目标生成模型的输出,确定对所述预设敏感属性具有所述预设偏见程度的目标合成样本数据;
15.根据所述目标合成样本数据,对基于公平性保障方式构建出的公平性网络模型进行性能评估,确定在所述预设偏见程度下的性能评估结果,其中,所述公平性网络模型对应
的模型类别与所述数据处理模型对应的模型类别相匹配。
16.第三方面,本发明实施例还提供了一种数据生成装置,包括:
17.随机噪声样本数据获取模块,用于获取随机噪声样本数据;
18.随机噪声样本数据输入模块,用于将所述随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,所述目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、所述目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;
19.目标合成样本数据确定模块,用于根据所述目标生成模型的输出,确定对所述预设敏感属性具有所述预设偏见程度的目标合成样本数据。
20.第四方面,本发明实施例还提供了一种模型性能评估装置,包括:
21.随机噪声样本数据获取模块,用于获取随机噪声样本数据;
22.随机噪声样本数据输入模块,用于将所述随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,所述目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、所述目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;
23.目标合成样本数据确定模块,用于根据所述目标生成模型的输出,确定对所述预设敏感属性具有所述预设偏见程度的目标合成样本数据;
24.模型性能评估模块,用于根据所述目标合成样本数据,对基于公平性保障方式构建出的公平性网络模型进行性能评估,确定在所述预设偏见程度下的性能评估结果,其中,所述公平性网络模型对应的模型类别与所述数据处理模型对应的模型类别相匹配。
25.第五方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
26.一个或多个处理器;
27.存储器,用于存储一个或多个程序;
28.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的数据生成方法或者模型性能评估方法。
29.第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的数据生成方法或者模型性能评估方法。
30.上述发明中的实施例具有如下优点或有益效果:
31.通过预先对受保护的偏见属性和所需的偏见程度进行配置,获得预设敏感属性和预设偏见程度,并基于预设敏感属性对应的预设偏见程度、生成对抗网络中的数据判别模型和数据处理模型,对生成对抗网络中的数据生成模型进行训练,获得目标数据生成模型,并通过将随机噪声样本数据输入至该目标数据生成模型中,可以快速生成对预设敏感属性具有预设偏见程度的目标合成样本数据,从而可以针对任意受保护的敏感属性生成具有任意偏见程度的大批量的合成样本数据,进而利用这些合成样本数据可以准确全面地对基于公平性保障方式构建出的公平性网络模型进行性能评估。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根
据这些附图获得其他的附图。
33.图1是本发明实施例提供的一种数据生成方法的流程图;
34.图2是本发明实施例所涉及的一种生成对抗网络的训练示例;
35.图3是本发明实施例提供的一种模型性能评估方法的流程图;
36.图4是本发明实施例提供的一种模型性能评估方法的流程图;
37.图5是本发明实施例提供的一种数据生成装置的结构示意图;
38.图6是本发明实施例提供的一种模型性能评估装置的结构示意图;
39.图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
40.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
41.图1为本发明实施例提供的一种数据生成方法的流程图,本实施例可适用于针对任意受保护的敏感属性生成具有任意偏见程度的大批量的合成样本数据的情况。该方法可以由数据生成装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于电子设备。如图1所示,该方法具体包括以下步骤:
42.s110、获取随机噪声样本数据。
43.其中,随机噪声样本数据可以是指随机生成的带有噪声的样本数据,或者在真实样本数据的基础上随机生成的带有噪声的样本数据。
44.s120、将随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的。
45.其中,目标生成对抗网络可以是指训练结束后获得的生成对抗网络。本实施例中的生成对抗网络可以包括:数据生成模型、数据处理模型和数据判别模型。在生成对抗网络的训练过程中,数据生成模型是将随机噪声样本数据作为输入,其输出的合成样本数据需要尽量模仿真实样本数据。数据判别模型是将真实样本数据或者数据生成模型输出的合成样本数据作为输入,其输出结果是用于判别输入数据是真实样本数据还是假的合成样本数据,目的是将数据生成网络的输出数据从真实样本数据中尽可能地分辨出来,而数据生成模型是要尽可能地迷惑数据判别模型。数据生成模型和数据判别模型相互对抗,不断调整参数,最终目的是使数据判别模型无法判断数据生成模型的输出结果是否真实。数据处理模型可以用于衡量数据生成模型生成的合成样本数据的公平性大小,以使数据生成模型可以进行公平性训练,生成特定公平性大小的合成样本数据。数据处理模型应用于数据生成模型的训练过程中,具体用于对数据生成模型输出的合成样本数据中的特征信息进行处理,输出预测结果,以便基于预测结果和合成样本数据中的标签信息确定出合成样本数据对敏感属性的偏见程度,进而基于该偏见程度对数据生成模型进行公平性训练,使得训练后的数据生成模型可以准确生成对该敏感属性具有特定偏见程度的合成样本数据。
46.需要说明的是,数据处理模型对应的模型类别与待评估的公平性网络模型对应的模型类别相匹配。其中,模型类别可以是基于模型功能进行划分的。例如,模型类别可以包
括分类模型和非分类模型。分类模型可以是指对输入特征信息进行划分确定其所属于的类别,比如二分类模型。非分类模型可以包括但不限于聚类模型。数据处理模型对应的模型类别可以基于待评估的公平性网络模型对应的模型类别进行确定。例如,若待评估的公平性网络模型为公平性分类模型,则生成对抗网络中的数据处理模型为分类模型,以便保证数据处理模型和公平性网络模型可以对合成样本数据进行同一功能的数据处理,进而保证合成样本数据生成的准确性。
47.其中,预设敏感属性可以是预先基于业务需求设置的需要受保护的敏感属性。预设敏感属性可以包括一个或多个敏感属性。敏感属性可以是指年龄、性别、种族等与人相关的属性。预设偏见程度可以是预先设置的对预设敏感属性具有的特定偏见程度,用于表征样本数据的公平性大小。例如,若样本数据对某个敏感属性的偏见程度越小,则表明该样本数据的公平性越大。
48.具体地,通过对受保护的偏见属性和所需的偏见程度进行预先配置,可以实现对敏感属性和偏见程度的动态配置。基于配置的预设敏感属性对应的预设偏见程度,对生成对抗网络中的数据生成模型、数据判别模型和数据处理模型进行对抗训练,获得训练后的目标生成对抗网络。在对数据生成模型的训练过程中,基于包含有公平约束项的生成误差函数、数据判别模型输出的判别结果、以及数据处理模型输出的预测结果,对数据生成模型进行公平性训练,以使数据生成模型可以准确地生成对预设敏感属性具有预设偏见程度的合成样本数据,获得训练结束后的目标数据生成模型。
49.s130、根据目标生成模型的输出,确定对预设敏感属性具有预设偏见程度的目标合成样本数据。
50.其中,目标合成样本数据可以包括目标特征信息和目标标签信息。例如,目标合成样本数据为100维数据,其中,前98维数据表示目标特征信息,后2 维数据表示该目标特征信息对应的目标标签信息。
51.具体地,通过将随机噪声样本数据输入至训练结束后的目标生成模型中进行数据生成,获得该目标生成模型输出的对预设敏感属性具有预设偏见程度的目标合成样本数据。通过对敏感属性设置不同的偏见程度,基于每个偏见程度对应的目标数据生成模型,可以准确地获得对敏感属性具有不同偏见程度的目标合成样本数据集。
52.本实施例的技术方案,通过预先对受保护的偏见属性和所需的偏见程度进行配置,获得预设敏感属性和预设偏见程度,并基于预设敏感属性对应的预设偏见程度、生成对抗网络中的数据判别模型和数据处理模型,对生成对抗网络中的数据生成模型进行训练,获得目标数据生成模型,并通过将随机噪声样本数据输入至该目标数据生成模型中,可以快速生成对预设敏感属性具有预设偏见程度的目标合成样本数据,从而可以针对任意受保护的敏感属性生成任意偏见程度的大批量的合成样本数据,实现了公平数据的自动生成。
53.在上述技术方案的基础上,基于预设敏感属性对应的预设偏见程度、目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得目标数据生成模型,可以包括:构建待训练的生成对抗网络,生成对抗网络包括数据生成模型、数据判别模型和数据处理模型;根据预设敏感属性对应的预设偏见程度,对数据生成模型、数据判别模型和数据处理模型进行迭代轮流交替训练;当达到预设收敛条件时,确定数据生成模型训练结束,获得目标数据生成模型。
54.具体地,基于数据生成模型对应的包含有公平性约束项的生成误差函数、数据判别模型对应的判别误差函数、数据处理模型对应的处理误差函数,对待训练的生成对抗网络中的数据生成模型、数据判别模型和数据处理模型进行迭代的轮流交替训练。例如,图2给出了一种生成对抗网络的训练示例。如图2 所示,基于数据处理模型输出的处理结果和数据判别模型输出的判别结果,对生成误差函数进行最小化的方式训练数据生成模型,并在训练数据生成模型后,基于数据生成模型输出的合成样本数据和真实样本数据对判别误差函数进行最大化的方式训练数据判别模型,以及基于数据生成模型输出的合成样本数据对处理误差函数进行最小化的方式训练数据处理模型,并在训练数据判别模型和数据处理模型之后,再次训练数据生成模型,依次轮流地进行交替训练,使得数据生成模型可以更加准确地生成对预设敏感属性具有预设偏见程度的合成样本数据。当达到预设收敛条件,比如迭代次数到达预设次数或者误差函数收敛时,确定生成对抗网络训练结束,获得目标生成对抗网络,此时数据生成模型也训练结束,获得目标数据生成模型。
55.需要说明的是,在每次训练数据生成模型时,需要固定数据判别模型和数据处理模型中的模型参数。在每次训练数据判别模型和数据处理模型中,需要固定数据生成模型中的模型参数。
56.示例性地,数据生成模型每次训练的训练过程,可以包括如下步骤s21-s25:
57.s21、将随机噪声样本数据输入至当次待训练的数据生成模型中,获得数据生成模型输出的第一合成样本数据。
58.s22、将第一合成样本数据输入至上次训练后的数据判别模型中,获得判别模型输出的第一判别结果。
59.s23、将第一合成样本数据中的特征信息输入至上次训练后的数据处理模型中,获得数据处理模型输出的第一处理结果。
60.s24、根据第一判别结果、预设敏感属性对应的预设偏见程度、第一处理结果、以及第一合成样本数据中的标签信息和预设敏感属性对应的敏感属性值,确定生成训练误差。
61.示例性地,s24可以包括如下步骤s241-s242:
62.s241、基于预设公平性损失函数,根据第一处理结果、以及第一合成样本数据中的标签信息和预设敏感属性对应的敏感属性值,确定第一处理结果对应的公平性损失程度。
63.其中,预设公平性损失函数可以用于衡量数据生成模型输出的合成样本数据对预设敏感属性的偏见程度的函数。公平性损失程度可以是指合成样本数据对预设敏感属性的具体偏见程度。
64.示例性地,预设公平性损失函数可以定义如下:
[0065][0066]
其中,zi是指第i个随机噪声样本数据,g
x
(zi)是指第一合成样本数据中的特征信息,f
θ
(g
x
(zi))是指数据处理模型f
θ
输出的第一处理结果,gy(zi)是指第一合成样本数据中的标签信息,gs(zi)是指第一合成样本数据中的预设敏感属性对应的敏感属性值。
[0067]
本实施例中的公平性指标可以包括:机会平等、几率均等和人口平价。其中,机会均等是指输出结果和受保护的敏感属性a在给定标签 y=1时条件独立,即
几率均等是指输出结果和受保护属性a在给定标签y时条件独立,即和受保护属性a在给定标签y时条件独立,即人口平价可以是指输出结果在任意情况下均独立于敏感属性a,即当当和均等于0时,表明公平性网络模型均满足了机会均等,几率均等和人口平价。
[0068]
针对机会均等这个公平性指标,相应的公平性损失函数具体为:
[0069][0070]
针对几率均等这个公平性指标,相应的公平性损失函数具体为:
[0071][0072]
针对人口平价这个公平性指标,相应的公平性损失函数具体为:
[0073][0074]
s242、基于数据生成模型对应的生成误差函数,根据公平性损失程度、第一判别结果和预设敏感属性对应的预设偏见程度,确定生成训练误差。
[0075]
示例性地,数据生成模型对应的生成误差函数ig可以为:
[0076][0077]
其中,λ是预设敏感属性对应的预设偏见程度;是公平性损失程度; d(g(zi))是第i个随机噪声样本数据zi对应的第一判别结果;n是随机噪声样本数据zi对应的样本数量。
[0078]
s25、将生成训练误差反向传播至当次待训练的数据生成模型中,调整数据生成模型中的模型参数,完成数据生成模型的当次训练。
[0079]
具体地,通过调整数据生成模型中的模型参数θg,对生成误差函数ig进行最小化,训练数据生成模型。
[0080]
示例性地,数据处理模型每次训练的训练过程,可以包括如下步骤s26-s29:
[0081]
s26、将随机噪声样本数据输入至上次训练后的数据生成模型中,获得数据生成模
型输出的第二合成样本数据。
[0082]
s27、将第二合成样本数据中的特征信息输入至当次待训练的数据处理模型中,获得数据处理模型输出的第二处理结果。
[0083]
s28、根据第二处理结果和第二合成样本数据中的标签信息,确定处理训练误差。
[0084]
具体地,可以基于数据处理模型对应的处理误差函数,根据第二处理结果和第二合成样本数据中的标签信息,确定出处理训练误差。其中,处理误差函数if可以表示如下:
[0085][0086]
其中,x
′i是第二合成样本数据,f
θ
(x
′i)是指数据处理模型输出的第二处理结果;y
′i是第二合成样本数据中的标签信息;可以是任意一种损失函数。
[0087]
s29、将处理训练误差反向传播至当次待训练的数据处理模型中,调整数据处理模型中的模型参数,完成数据处理模型的当次训练。
[0088]
具体地,通过调整数据处理模型中的模型参数θ,对处理误差函数if进行最小化,训练数据处理模型。
[0089]
示例性地,数据判别模型每次训练的训练过程,可以包括:将第二合成样本数据输入至当次待训练的数据判别模型中,获得数据判别模型输出的第二判别结果,并基于第二判别结果和第二合成样本数据对应的实际判别结果(即假标签),确定判别训练误差,并将判别训练误差反向传播至当次待训练的数据判别模型中,调整数据判别模型中的模型参数,完成数据处理模型的当次训练。
[0090]
需要说明的是,在利用第二合成样本数据训练数据判别模型之前,还可以包括:利用真实样本数据和相应的实际判别结果(即真标签),对数据判别模型进行训练。例如,针对真实样本数据x={x1,

,xn},随机噪声样本数据 z={z1,

,zn},判别误差函数id可以表示如下:
[0091][0092]
其中,d(xi)是指将真实样本数据输入至数据判别模型中获得的判别结果, d(g(zi))是指将第二合成样本数据输入至数据判别模型中获得的判别结果。具体地,通过调整数据判别模型中的模型参数θd,对处理误差函数id进行最大化,训练数据判别模型。
[0093]
示例性地,针对真实样本数据x={x1,

,xn},随机噪声样本数据 z={z1,

,zn},可以利用如下目标函数,对生成对抗网络进行训练:
[0094][0095]
图3为本发明实施例提供的一种模型性能评估方法的流程图,本实施例可适用于对基于公平性保障方式构建出的公平性网络模型进行性能评估的情况。该方法可以由模型
性能评估装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于电子设备。如图3所示,该方法具体包括以下步骤:
[0096]
s310、获取随机噪声样本数据。
[0097]
其中,随机噪声样本数据可以是指随机生成的带有噪声的样本数据,或者在真实样本数据的基础上随机生成的带有噪声的样本数据。
[0098]
s320、将随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的。
[0099]
其中,目标生成对抗网络可以是指训练结束后获得的生成对抗网络。本实施例中的生成对抗网络可以包括:数据生成模型、数据处理模型和数据判别模型。在生成对抗网络的训练过程中,数据生成模型是将随机噪声样本数据作为输入,其输出的合成样本数据需要尽量模仿真实样本数据。数据判别模型是将真实样本数据或者数据生成模型输出的合成样本数据作为输入,其输出结果是用于判别输入数据是真实样本数据还是假的合成样本数据,目的是将数据生成网络的输出数据从真实样本数据中尽可能地分辨出来,而数据生成模型是要尽可能地迷惑数据判别模型。数据生成模型和数据判别模型相互对抗,不断调整参数,最终目的是使数据判别模型无法判断数据生成模型的输出结果是否真实。数据处理模型可以用于衡量数据生成模型生成的合成样本数据的公平性大小,以使数据生成模型可以进行公平性训练,生成特定公平性大小的合成样本数据。数据处理模型应用于数据生成模型的训练过程中,具体用于对数据生成模型输出的合成样本数据中的特征信息进行处理,输出预测结果,以便基于预测结果和合成样本数据中的标签信息确定出合成样本数据对敏感属性的偏见程度,进而基于该偏见程度对数据生成模型进行公平性训练,使得训练后的数据生成模型可以准确生成对该敏感属性具有特定偏见程度的合成样本数据。
[0100]
需要说明的是,数据处理模型对应的模型类别与待评估的公平性网络模型对应的模型类别相匹配。其中,模型类别可以是基于模型功能进行划分的。例如,模型类别可以包括分类模型和非分类模型。分类模型可以是指对输入特征信息进行划分确定其所属于的类别,比如二分类模型。非分类模型可以包括但不限于聚类模型。数据处理模型对应的模型类别基于待评估的公平性网络模型对应的模型类别进行确定。例如,若待评估的公平性网络模型为公平性分类模型,则生成对抗网络中的数据处理模型为分类模型,以便保证数据处理模型和公平性网络模型可以对合成样本数据进行同一功能的数据处理,进而保证合成样本数据生成的准确性。
[0101]
其中,预设敏感属性可以是预先基于业务需求设置的需要受保护的敏感属性。预设敏感属性可以包括一个或多个敏感属性。敏感属性可以是指年龄、性别、种族等与人相关的属性。预设偏见程度可以是预先设置的对预设敏感属性具有的特定偏见程度,用于表征样本数据的公平性大小。例如,若样本数据对某个敏感属性的偏见程度越小,则表明该样本数据的公平性越大。
[0102]
具体地,通过对受保护的偏见属性和所需的偏见程度进行预先配置,可以实现对敏感属性和偏见程度的动态配置。基于配置的预设敏感属性对应的预设偏见程度,对生成对抗网络中的数据生成模型、数据判别模型和数据处理模型进行对抗训练,获得训练后的目标生成对抗网络。在对数据生成模型的训练过程中,基于包含有公平约束项的生成误差
函数、数据判别模型输出的判别结果、以及数据处理模型输出的预测结果,对数据生成模型进行公平性训练,以使数据生成模型可以准确地生成对预设敏感属性具有预设偏见程度的合成样本数据,获得训练结束后的目标数据生成模型。数据生成模型的具体训练过程可以参照上述实施例的相关描述,此处不再赘述。
[0103]
s330、根据目标生成模型的输出,确定对预设敏感属性具有预设偏见程度的目标合成样本数据。
[0104]
其中,目标合成样本数据可以包括目标特征信息和目标标签信息。例如,目标合成样本数据为100维数据,其中,前98维数据表示目标特征信息,后2 维数据表示该目标特征信息对应的目标标签信息。
[0105]
具体地,通过将随机噪声样本数据输入至训练结束后的目标生成模型中进行数据生成,获得该目标生成模型输出的对预设敏感属性具有预设偏见程度的目标合成样本数据。通过对敏感属性设置不同的偏见程度,基于每个偏见程度对应的目标数据生成模型,可以准确地获得对敏感属性具有不同偏见程度的目标合成样本数据集。
[0106]
s340、根据目标合成样本数据,对基于公平性保障方式构建出的公平性网络模型进行性能评估,确定在预设偏见程度下的性能评估结果。
[0107]
其中,公平性保障方式可以是指对机器学习网络模型进行公平性保障,以使机器学习网络模型的输出结果与敏感属性无关。公平性保障方式可以包括:预处理保障方式、处理中保障方式和后处理保障方式。其中,预处理保障方式可以是指采用预处理机制对网络模型的样本数据进行清洗,以保障机器学习模型的公平性。例如,预处理保障方式可以是通过删除数据保证各类敏感群体数据量相等,或者通过迭代地对样本加权使其趋于无偏见分别,或者通过自适应选择小批量大小,以提升模型公平性。处理中保障方式可以是指采用处理中机制以符合公平性定义的方式调整模型,以保障机器学习模型的公平性。例如,处理中保障方式可以是采用决策边界协方差的方式,或者采用对抗训练抑制预测值和敏感属性的相关性的方式,或者采用renyi相关性作为正则项的方式。后处理保障方式可以是指采用后处理机制修改模型的输出结果,以保障机器学习模型的公平性。例如,后处理保障方式可以是改变预测值以优化几率均等的方式。
[0108]
具体地,基于公平性保障方式对机器学习网络模型进行公平性构建,以使构建出的公平性网络模型的输出可以与敏感属性无关。例如,若机器学习网络模型为分类模型,则基于公平性保障方式构建出的公平性网络模型为公平性分类模型,用于对输入数据进行公平性分类,使得获得的输出类别与敏感属性的具体取值无关。为了评估构建出的公平性网络模型的性能大小,可以利用对预设敏感属性具有预设偏见程度的目标合成样本数据,对公平性网络模型进行性能评估,获得该公平性网络模型在预设偏见程度下的性能评估结果,比如公平性指标结果和模型准确度。例如,若生成对同一敏感属性具有不同偏见程度的目标合成样本数据,则可以利用这些目标合成样本数据对某个公平性网络模型进行全面性能评估,获得在不同偏见程度下的性能评估结果。又如,若利用多种公平性保障方式对同一个机器学习网络模型进行公平性构建,获得每种公平性保障方式对应的公平性网络模型,并基于同一目标合成样本数据对多个公平性网络模型进行性能评估,根据每个公平性网络模型在同一偏见程度下的性能评估结果,可以确定出性能最优的公平性网络模型,进而获得公平性保障效果最好的目标公平性保障方式。
[0109]
示例性地,s340可以包括:对目标合成样本数据进行划分,确定目标合成训练数据和目标合成测试数据;基于目标合成训练数据,对基于公平性保障方式构建出的公平性网络模型进行训练,获得训练结束后的公平性网络模型;基于目标合成测试数据,对训练结束后的公平性网络模型进行性能评估,确定在预设偏见程度下的性能评估结果。
[0110]
具体地,可以对目标合成样本数据进行划分,将大部分的目标合成样本数据作为目标合成训练数据,对公平性网络模型进行训练,比如,将目标合成训练数据中的目标特征信息输入至待训练的公平性网络模型中,并基于公平性网络模型的输出结果和目标合成训练数据中的目标标签信息确定训练误差,并将该训练误差反向传播至待训练的公平性网络模型中,调整模型中的网络参数,直到满足收敛条件时,确定公平性网络模型训练结束。将剩余的目标合成样本数据作为目标合成测试数据,对训练结束后的公平性网络模型进行性能评估,确定出该公平性网络模型在预设偏见程度下的公平性指标结果和模型准确度。
[0111]
本实施例的技术方案,通过预先对受保护的偏见属性和所需的偏见程度进行配置,获得预设敏感属性和预设偏见程度,并基于预设敏感属性对应的预设偏见程度、生成对抗网络中的数据判别模型和数据处理模型,对生成对抗网络中的数据生成模型进行训练,获得目标数据生成模型,并通过将随机噪声样本数据输入至该目标数据生成模型中,可以快速生成对预设敏感属性具有预设偏见程度的目标合成样本数据,从而可以针对任意受保护的敏感属性生成任意偏见程度的大批量的合成样本数据,进而利用这些合成样本数据可以准确全面地对基于公平性保障方式构建出的公平性网络模型进行性能评估。
[0112]
图4为本发明实施例提供的一种模型性能评估方法的流程图,本实施例在上述实施例的基础上,对步骤“根据目标合成样本数据,对基于公平性保障方式构建出的公平性网络模型进行性能评估,确定在预设偏见程度下的性能评估结果”进行了进一步优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。
[0113]
参见图4,本实施例提供的模型性能评估方法具体包括以下步骤:
[0114]
s410、获取随机噪声样本数据。
[0115]
s420、将随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中。
[0116]
s430、根据目标生成模型的输出,确定对预设敏感属性具有预设偏见程度的目标合成样本数据。
[0117]
s440、获取至少两个公平性网络模型,每个公平性网络模型对应不同的公平保障方式。
[0118]
具体地,基于至少两种公平性保障方式分别对机器学习网络模型进行公平性构建,获得利用每种公平性保障方式构建出的公平性网络模型,此时每个公平性网络模型对应的公平性保障方式均不同。
[0119]
s450、根据目标合成样本数据,对每个公平性网络模型进行性能评估,确定每个公平性网络模型在预设偏见程度下的第一性能评估结果。
[0120]
具体地,针对每个公平性网络模型而言,将目标合成样本数据进行划分,确定目标合成训练数据和目标合成测试数据,并基于目标合成训练数据,对该公平性网络模型进行训练,获得训练结束后的公平性网络模型,并基于目标合成测试数据,对训练结束后的公平性网络模型进行性能评估,确定该公平性网络模型在预设偏见程度下的第一性能评估结果。同理,可以确定出每个公平性网络模型在预设偏见程度下的第一性能评估结果。
[0121]
例如,若生成对预设敏感属性具有多个不同偏见程度的目标合成样本数据,则可以基于每个目标合成样本数据确定出每个公平性网络模型在不同偏见程度下的第一性能评估结果。
[0122]
s460、根据实际样本数据,对每个公平性网络模型进行性能评估,确定每个公平性网络模型在实际样本数据对应的偏见程度下的第二性能评估结果。
[0123]
其中,实际样本数据可以是指实际收集到的真实样本数据。通常,收集到的实际样本数据对预设敏感属性具有较小的偏见程度,从而设置的预设偏见程度较大,以便获得对预设敏感属性具有较大偏见程度的合成样本数据。
[0124]
具体地,针对每个公平性网络模型而言,可以对实际样本数据进行划分,确定实际训练数据和实际测试数据,并基于实际训练数据,对该公平性网络模型进行训练,获得训练结束后的公平性网络模型,并基于实际测试数据,对训练结束后的公平性网络模型进行性能评估,确定该公平性网络模型在较小偏见程度下的第二性能评估结果。同理,可以确定出每个公平性网络模型在较小偏见程度下的第二性能评估结果。
[0125]
s470、根据第一性能评估结果和第二性能评估结果,对每个公平性网络模型进行综合评估,并基于综合评估结果,从各个公平性网络模型中确定目标公平性网络模型。
[0126]
具体地,通过基于每个公平性网络模型对应的第一性能评估结果和第二性能评估结果,可以对每个公平性网络模型进行综合评估,确定不同公平性网络模型在不同偏见程度的样本数据上的公平性和准确度等性能,进而基于综合评估结果,可以从各个公平性网络模型中确定性能最优的目标公平性网络模型。例如,若三个公平性网络模型a、b和c在实际样本数据上表现出的性能相似,但其中的公平性网络模型b在目标合成样本数据上表现出的性能明显优于其他两个公平性网络模型,则表明公平性网络模型b的输出可以更加不受敏感属性的影响,此时可以将公平性网络模型b确定为目标公平性网络模型,以便利用该公平性网络模型进行后续的数据处理操作,进一步保障了输出结果的公平性。
[0127]
本实施例的技术方案,通过基于每个公平性网络模型对应的第一性能评估结果和第二性能评估结果,可以对每个公平性网络模型进行综合评估,从而可以更加准确地评估出性能最优的目标公平性网络模型。
[0128]
以下是本发明实施例提供的数据生成装置的实施例,该装置与上述实施例的数据生成方法属于同一个发明构思,在数据生成装置的实施例中未详尽描述的细节内容,可以参考上述数据生成方法的实施例。
[0129]
图5为本发明实施例提供的一种数据生成装置的结构示意图,本实施例可适用于针对任意受保护的敏感属性生成具有任意偏见程度的大批量的合成样本数据的情况。该装置具体包括:随机噪声样本数据获取模块510、随机噪声样本数据输入模块520和目标合成样本数据确定模块530。
[0130]
其中,随机噪声样本数据获取模块510,用于获取随机噪声样本数据;随机噪声样本数据输入模块520,用于将随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;目标合成样本数据确定模块530,用于根据目标生成模型的输出,确定对预设敏感属性具有预设偏见程度的目标合成样本数据。
[0131]
可选地,该装置还包括:生成对抗网络训练模型,具体用于:
[0132]
构建待训练的生成对抗网络,生成对抗网络包括数据生成模型、数据判别模型和数据处理模型;根据预设敏感属性对应的预设偏见程度,对数据生成模型、数据判别模型和数据处理模型进行轮流训练;当达到预设收敛条件时,确定数据生成模型训练结束,获得目标数据生成模型。
[0133]
可选地,生成对抗网络训练模型,包括:数据生成模型训练单元,用于:
[0134]
将随机噪声样本数据输入至当次待训练的数据生成模型中,获得数据生成模型输出的第一合成样本数据;将第一合成样本数据输入至上次训练后的数据判别模型中,获得判别模型输出的第一判别结果;将第一合成样本数据中的特征信息输入至上次训练后的数据处理模型中,获得数据处理模型输出的第一处理结果;根据第一判别结果、预设敏感属性对应的预设偏见程度、第一处理结果、以及第一合成样本数据中的标签信息和预设敏感属性对应的敏感属性值,确定生成训练误差;将生成训练误差反向传播至当次待训练的数据生成模型中,调整数据生成模型中的模型参数,完成数据生成模型的当次训练。
[0135]
可选地,数据生成模型训练单元,具体用于:
[0136]
基于预设公平性损失函数,根据第一处理结果、以及第一合成样本数据中的标签信息和预设敏感属性对应的敏感属性值,确定第一处理结果对应的公平性损失程度;基于数据生成模型对应的生成误差函数,根据公平性损失程度、第一判别结果和预设敏感属性对应的预设偏见程度,确定生成训练误差。
[0137]
可选地,数据生成模型对应的生成误差函数ig为:
[0138][0139]
其中,λ是预设敏感属性对应的预设偏见程度;是公平性损失程度; d(g(zi))是第i个随机噪声样本数据zi对应的第一判别结果;n是随机噪声样本数据zi对应的样本数量。
[0140]
可选地,生成对抗网络训练模型,包括:数据处理模型训练单元,用于:
[0141]
将随机噪声样本数据输入至上次训练后的数据生成模型中,获得数据生成模型输出的第二合成样本数据;将第二合成样本数据中的特征信息输入至当次待训练的数据处理模型中,获得数据处理模型输出的第二处理结果;根据第二处理结果和第二合成样本数据中的标签信息,确定处理训练误差;将处理训练误差反向传播至当次待训练的数据处理模型中,调整数据处理模型中的模型参数,完成数据处理模型的当次训练。
[0142]
本发明实施例所提供的数据生成装置可执行本发明任意实施例所提供的数据生成方法,具备执行数据生成方法相应的功能模块和有益效果。
[0143]
值得注意的是,上述模型性能评估装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0144]
以下是本发明实施例提供的模型性能评估装置的实施例,该装置与上述各实施例的模型性能评估方法属于同一个发明构思,在模型性能评估装置的实施例中未详尽描述的细节内容,可以参考上述模型性能评估方法的实施例。
[0145]
图6为本发明实施例提供的一种模型性能评估装置的结构示意图,本实施例可适用于对基于公平性保障方式构建出的公平性网络模型进行性能评估的情况。该装置具体包括:随机噪声样本数据获取模块510、随机噪声样本数据输入模块520、目标合成样本数据确定模块530和模型性能评估模块540。
[0146]
其中,随机噪声样本数据获取模块510,用于获取随机噪声样本数据;随机噪声样本数据输入模块520,用于将随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;目标合成样本数据确定模块530,用于根据目标生成模型的输出,确定对预设敏感属性具有预设偏见程度的目标合成样本数据;模型性能评估模块540,用于根据目标合成样本数据,对基于公平性保障方式构建出的公平性网络模型进行性能评估,确定在预设偏见程度下的性能评估结果,其中,公平性网络模型对应的模型类别与数据处理模型对应的模型类别相匹配。
[0147]
可选地,模型性能评估模块540,具体用于:
[0148]
对目标合成样本数据进行划分,确定目标合成训练数据和目标合成测试数据;基于目标合成训练数据,对基于公平性保障方式构建出的公平性网络模型进行训练,获得训练结束后的公平性网络模型;基于目标合成测试数据,对训练结束后的公平性网络模型进行性能评估,确定在预设偏见程度下的性能评估结果。
[0149]
可选地,模型性能评估模块540,还具体用于:
[0150]
获取至少两个公平性网络模型,每个公平性网络模型对应不同的公平保障方式;根据目标合成样本数据,对每个公平性网络模型进行性能评估,确定每个公平性网络模型在预设偏见程度下的第一性能评估结果;根据实际样本数据,对每个公平性网络模型进行性能评估,确定每个公平性网络模型在实际样本数据对应的偏见程度下的第二性能评估结果;根据第一性能评估结果和第二性能评估结果,对每个公平性网络模型进行综合评估,并基于综合评估结果,从各个公平性网络模型中确定目标公平性网络模型。
[0151]
本发明实施例所提供的模型性能评估装置可执行本发明任意实施例所提供的模型性能评估方法,具备执行模型性能评估方法相应的功能模块和有益效果。
[0152]
值得注意的是,上述模型性能评估装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0153]
图7为本发明实施例提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图7显示的电子设备 12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0154]
如图7所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0155]
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa) 总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa) 局域总线以及外围组件互连(pci)总线。
[0156]
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0157]
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘 (例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom, dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0158]
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
[0159]
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o) 接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid 系统、磁带驱动器以及数据备份存储系统等。
[0160]
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据生成方法,该方法包括:
[0161]
获取随机噪声样本数据;
[0162]
将所述随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,所述目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、所述目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;
[0163]
根据所述目标生成模型的输出,确定对所述预设敏感属性具有所述预设偏见程度的目标合成样本数据。
[0164]
或者,实现本发明实施例所提供的一种模型性能评估方法步骤,该方法包括:
[0165]
获取随机噪声样本数据;
[0166]
将随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;
[0167]
根据目标生成模型的输出,确定对预设敏感属性具有预设偏见程度的目标合成样本数据;
[0168]
根据目标合成样本数据,对基于公平性保障方式构建出的公平性网络模型进行性能评估,确定在预设偏见程度下的性能评估结果,其中,公平性网络模型对应的模型类别与数据处理模型对应的模型类别相匹配。
[0169]
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的保留库存量的确定方法的技术方案。
[0170]
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的数据生成方法,该方法包括:
[0171]
获取随机噪声样本数据;
[0172]
将所述随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,所述目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、所述目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;
[0173]
根据所述目标生成模型的输出,确定对所述预设敏感属性具有所述预设偏见程度的目标合成样本数据。
[0174]
或者,该程序被处理器执行时实现本发明实施例所提供的模型性能评估方法步骤,该方法包括:
[0175]
获取随机噪声样本数据;
[0176]
将随机噪声样本数据输入至目标生成对抗网络中的目标数据生成模型中,目标数据生成模型是预先基于预设敏感属性对应的预设偏见程度、目标生成对抗网络中的数据判别模型和数据处理模型进行训练获得的;
[0177]
根据目标生成模型的输出,确定对预设敏感属性具有预设偏见程度的目标合成样本数据;
[0178]
根据目标合成样本数据,对基于公平性保障方式构建出的公平性网络模型进行性能评估,确定在预设偏见程度下的性能评估结果,其中,公平性网络模型对应的模型类别与数据处理模型对应的模型类别相匹配。
[0179]
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器 (cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0180]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0181]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:
无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0182]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、 smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0183]
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
[0184]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1