本申请涉及数据处理,具体涉及一种可信环境样例数据发布方法、装置、设备及可读存储介质。
背景技术:
1、隐私计算中的可信环境提供了一种安全隔离机制,用于保护敏感数据,防止未经授权的访问和数据泄露。参见图1所示,数据使用方可以使用可信环境提供的样例数据进行模型初始化及调试,经过初始化的模型被发送到可信环境,并使用真实数据进行模型训练,以提高模型性能;在训练完成后,最终模型将被发布给数据使用方,以供性能验证,但不会包含原始数据,仅涉及模型参数。这个流程确保了在保护敏感数据的同时,允许模型的构建和性能验证。
2、相关技术中,对于样例数据的生成,最基本的方法是从全量数据中随机选取少量数据发布,但这种方法很明显会导致这些数据的敏感信息泄露,因此可通过手动或者自动脚本对这些数据进行脱敏后再发布。不过,在实际生产中,由于不同数据集的数据属性、敏感信息所包含数量和数据敏感程度甚至数据质量等都各不相同,进行手动数据脱敏会增加大量人力成本;而使用自动脚本进行脱敏则需要针对这些问题设置不同的脱敏策略以及编写不同的脚本,其不仅成本高且效率低。
技术实现思路
1、本申请提供一种可信环境样例数据发布方法、装置、设备及可读存储介质,可以解决现有技术中存在的因通过手动或自动脚本实现样例数据发布而导致的成本高且效率低的技术问题。
2、第一方面,本申请实施例提供一种可信环境样例数据发布方法,所述可信环境样例数据发布方法包括:
3、对预设的真实数据集进行遍历,以获取与所述真实数据集对应的至少一个数据属性;
4、将所述数据属性添加至真实数据子集中的真实数据上,得到待处理真实数据子集,所述真实数据子集包括从所述真实数据集中随机选择的真实数据;
5、根据预设的隐私预算和预设的扰动机制对所述待处理真实数据子集中的真实数据进行扰动,得到目标样例数据集;
6、对所述目标样例数据集进行发布。
7、结合第一方面,在一种实施方式中,所述将所述数据属性添加至真实数据子集中的真实数据上,包括:
8、将每个数据属性分配至真实数据子集中的真实数据上,以使得所述真实数据子集中的每条真实数据均包含数据属性。
9、结合第一方面,在一种实施方式中,所述数据属性包括数值属性和类别属性。
10、结合第一方面,在一种实施方式中,所述数值属性对应的扰动机制为拉普拉斯机制,所述类别属性对应的扰动机制为指数机制。
11、结合第一方面,在一种实施方式中,所述根据预设的隐私预算和预设的扰动机制对所述待处理真实数据子集中的真实数据进行扰动,得到目标样例数据集,包括:
12、基于所述隐私预算、与所述数值属性对应的敏感度以及拉普拉斯机制对所述待处理真实数据子集中包含数值属性的真实数据进行扰动,得到第一样例数据;
13、基于所述隐私预算和所述指数机制对所述待处理真实数据子集中包含类别属性的真实数据进行扰动,得到第二样例数据;
14、所述第一样例数据和所述第二样例数据构成目标样例数据集。
15、第二方面,本申请实施例提供了一种可信环境样例数据发布装置,所述可信环境样例数据发布装置包括:
16、属性获取模块,其用于对预设的真实数据集进行遍历,以获取与所述真实数据集对应的至少一个数据属性;
17、属性添加模块,其用于将所述数据属性添加至真实数据子集中的真实数据上,得到待处理真实数据子集,所述真实数据子集包括从所述真实数据集中随机选择的真实数据;
18、数据扰动模块,其用于根据预设的隐私预算和预设的扰动机制对所述待处理真实数据子集中的真实数据进行扰动,得到目标样例数据集;
19、数据发布模块,其用于对所述目标样例数据集进行发布。
20、结合第二方面,在一种实施方式中,所述属性添加模块具体用于:
21、将每个数据属性分配至真实数据子集中的真实数据上,以使得所述真实数据子集中的每条真实数据均包含数据属性。
22、结合第二方面,在一种实施方式中,所述数据属性包括数值属性和类别属性。
23、结合第二方面,在一种实施方式中,所述数值属性对应的扰动机制为拉普拉斯机制,所述类别属性对应的扰动机制为指数机制。
24、结合第二方面,在一种实施方式中,所述数据扰动模块具体用于:
25、基于所述隐私预算、与所述数值属性对应的敏感度以及拉普拉斯机制对所述待处理真实数据子集中包含数值属性的真实数据进行扰动,得到第一样例数据;
26、基于所述隐私预算和所述指数机制对所述待处理真实数据子集中包含类别属性的真实数据进行扰动,得到第二样例数据;
27、所述第一样例数据和所述第二样例数据构成目标样例数据集。
28、第三方面,本申请实施例提供了一种可信环境样例数据发布设备,所述可信环境样例数据发布设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的可信环境样例数据发布程序,其中所述可信环境样例数据发布程序被所述处理器执行时,实现如前述的可信环境样例数据发布方法的步骤。
29、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有可信环境样例数据发布程序,其中所述可信环境样例数据发布程序被处理器执行时,实现如前述的可信环境样例数据发布方法的步骤。
30、本申请实施例提供的技术方案带来的有益效果包括:
31、通过对预设的真实数据集进行遍历,以获取与所述真实数据集对应的至少一个数据属性;将所述数据属性添加至真实数据子集中的真实数据上,得到待处理真实数据子集,所述真实数据子集包括从所述真实数据集中随机选择的真实数据;根据预设的隐私预算和预设的扰动机制对所述待处理真实数据子集中的真实数据进行扰动,得到目标样例数据集;对所述目标样例数据集进行发布。本申请通过引入差分隐私技术来生成样例数据,即为随机选择的真实数据添加数据属性信息,并在发布数据前基于隐私预算和扰动机制对添加了数据属性信息的真实数据进行扰动,得到了带噪数据,以自动形成样例数据并进行发布,而无需为不同的数据集构建自动脚本,从而实现获得近似数据的同时,不泄露其中敏感信息,并有效降低了数据脱敏或数据生成过程中所需消耗的人力和物力成本,提高了样例数据发布的效率。
1.一种可信环境样例数据发布方法,其特征在于,所述可信环境样例数据发布方法包括:
2.如权利要求1所述的可信环境样例数据发布方法,其特征在于,所述将所述数据属性添加至真实数据子集中的真实数据上,包括:
3.如权利要求1所述的可信环境样例数据发布方法,其特征在于:所述数据属性包括数值属性和类别属性。
4.如权利要求3所述的可信环境样例数据发布方法,其特征在于:所述数值属性对应的扰动机制为拉普拉斯机制,所述类别属性对应的扰动机制为指数机制。
5.如权利要求4所述的可信环境样例数据发布方法,其特征在于,所述根据预设的隐私预算和预设的扰动机制对所述待处理真实数据子集中的真实数据进行扰动,得到目标样例数据集,包括:
6.一种可信环境样例数据发布装置,其特征在于,所述可信环境样例数据发布装置包括:
7.如权利要求6所述的可信环境样例数据发布装置,其特征在于,所述属性添加模块具体用于:
8.如权利要求6所述的可信环境样例数据发布装置,其特征在于:所述数据属性包括数值属性和类别属性。
9.一种可信环境样例数据发布设备,其特征在于,所述可信环境样例数据发布设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的可信环境样例数据发布程序,其中所述可信环境样例数据发布程序被所述处理器执行时,实现如权利要求1至5中任一项所述的可信环境样例数据发布方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可信环境样例数据发布程序,其中所述可信环境样例数据发布程序被处理器执行时,实现如权利要求1至5中任一项所述的可信环境样例数据发布方法的步骤。