联邦学习中数据审计方法、设备、介质及程序产品与流程

文档序号:27920161发布日期:2021-12-11 11:08阅读:147来源:国知局
联邦学习中数据审计方法、设备、介质及程序产品与流程

1.本技术涉及大数据技术领域,尤其涉及一种联邦学习中数据审计方法、设备、介质及程序产品。


背景技术:

2.随着人工智能技术的不断发展,研究人员提出了一种名为联邦学习的机器学习方案,联邦学习是一种在多个去中心化的边缘设备或服务器上训练模型的机器学习技术,允许多个数据方在不共享原始数据的前提下共同建立一个共有的、强有力的机器学习模型,从而解决数据隐私、数据安全、数据访问权限、异构数据访问等关键性问题,目前,在进行联邦学习时,各个联邦学习设备之间通常需要传输密态数据,例如,加密的梯度、加密的损失或者加密的模型网络参数本身等,一旦存在恶意设备向联邦服务器发送恶意数据参与联邦学习,将会导致基于联邦学习构建的模型难以收敛,进而影响联邦学习的效率。


技术实现要素:

3.本技术的主要目的在于提供一种联邦学习中数据审计方法、设备、介质及程序产品,旨在解决现有技术中由于联邦学习通信过程中存在恶意数据而导致联邦学习效率低的技术问题。
4.为实现上述目的,本技术提供一种联邦学习中数据审计方法,所述联邦学习中数据审计方法应用于联邦学习中数据审计设备,所述联邦学习中数据审计方法包括:
5.获取联邦学习设备的通信数据流信息,其中,所述通信数据流信息至少包括明文数据以及密态数据中的一种;
6.若所述通信数据流信息包括所述明文数据,则对所述明文数据进行基础特征审计,并在所述明文数据的基础特征审计通过的情况下,对所述明文数据进行内容特征审计;
7.若所述通信数据流信息包括所述密态数据,则对所述密态数据进行基础特征审计,并在所述密态数据的基础特征审计通过的情况下,依据是否具备对所述密态数据的解密权限选择性地对所述密态数据进行内容特征审计;
8.在审计结束或者审计过程发现异常状态的情况下,生成审计结果。
9.可选地,所述审计结果包括明文数据审计结果,
10.所述在审计结束或者审计过程发现异常状态的情况下,生成审计结果的步骤包括:
11.若所述明文数据的基础特征审计或内容特征审计过程中发现异常状态,则根据该异常状态生成明文数据审计结果;
12.若所述明文数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述明文数据的基础特征审计和内容特征审计结束的情况下,生成结果为基础特征审计和内容特征审计均通过的明文数据审计结果。
13.可选地,所述审计结果包括密文数据审计结果,
14.所述在审计结束或者审计过程发现异常状态的情况下,生成审计结果的步骤包括:
15.若所述密态数据的基础特征审计或内容特征审计过程中发现异常状态,则根据该异常状态生成密文数据审计结果;
16.在所述密态数据的基础特征审计通过的情况下,若不具备对所述密态数据的解密权限,则生成结果为基础特征审计通过的密态数据审计结果;
17.若所述密态数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述密态数据的基础特征审计和内容特征审计结束的情况下,生成结果为基础特征审计和内容特征审计均通过的密态数据审计结果。
18.可选地,所述密态数据包括密态张量,
19.所述依据是否具备对所述密态数据的解密权限选择性地对所述密态数据进行内容特征审计的步骤包括:
20.若具备对所述密态数据的解密权限,则对所述密态张量进行解密,获得待审计张量;
21.获取所述待审计张量对应的规则表索引信息,并依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表;
22.基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计,直至审计结束或者审计过程发现异常状态;
23.若不具备对所述密态数据的解密权限,则不对所述密态数据进行内容特征审计,审计结束。
24.可选地,所述审计规则包括数据定位信息和审计子规则,
25.所述基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计的步骤包括:
26.基于所述数据定位信息,在所述待审计张量中定位待审计内容;
27.基于所述审计子规则,对所述待审计内容中数值的取值范围以及所述待审计内容中数值是否可为空进行审计。
28.可选地,所述获取所述待审计张量对应的规则表索引信息的步骤包括:
29.获取所述待审计张量对应的联邦学习任务标识信息、对应的联邦设备身份信息、对应的联邦迭代次数信息以及对应的中间结果数据类型信息;
30.将所述联邦学习任务标识信息、所述联邦设备身份信息、所述联邦迭代次数信息和所述中间结果数据类型信息进行聚合,获得所述规则表索引信息。
31.可选地,所述规则表索引信息至少由联邦学习任务标识信息、联邦设备身份信息、联邦迭代次数信息和中间结果数据类型信息中的一种组成。
32.可选地,在所述依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表的步骤之前,所述联邦学习中数据审计方法还包括:
33.获取预设联邦任务对应的各样本特征的特征取值范围,并依据所述各样本特征的特征取值范围,构建测试样本集;
34.基于所述测试样本集,与其他联邦学习设备进行联邦学习建模,以计算所述测试样本集对应的若干中间结果张量;
35.构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型。
36.可选地,在所述依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表的步骤之前,所述联邦学习中数据审计方法还包括:
37.获取预设联邦任务对应的各样本特征的特征取值范围,以及所述预设联邦任务对应的联邦学习模型对应的中间结果计算表达式;
38.依据所述各样本特征特征取值范围和所述中间结果计算表达式,计算所述联邦学习模型对应的若干中间结果张量的数据分布情况;
39.构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型。
40.本技术还提供一种联邦学习中数据审计装置,所述联邦学习中数据审计装置为虚拟装置,且所述联邦学习中数据审计装置应用于联邦学习中数据审计设备,所述联邦学习中数据审计装置包括:
41.获取模块,用于获取联邦学习设备的通信数据流信息,其中,所述通信数据流信息至少包括明文数据以及密态数据中的一种;
42.明文数据审计模块,用于若所述通信数据流信息包括所述明文数据,则对所述明文数据进行基础特征审计,并在所述明文数据的基础特征审计通过的情况下,对所述明文数据进行内容特征审计;
43.密态数据审计模块,用于若所述通信数据流信息包括所述密态数据,则对所述密态数据进行基础特征审计,并在所述密态数据的基础特征审计通过的情况下,依据是否具备对所述密态数据的解密权限选择性地对所述密态数据进行内容特征审计;
44.生成模块,用于在审计结束或者审计过程发现异常状态的情况下,生成审计结果。
45.可选地,所述审计结果包括明文数据审计结果,所述生成模块还用于:
46.若所述明文数据的基础特征审计或内容特征审计过程中发现异常状态,则根据该异常状态生成明文数据审计结果;
47.若所述明文数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述明文数据的基础特征审计和内容特征审计结束的情况下,生成结果为基础特征审计和内容特征审计均通过的明文数据审计结果。
48.可选地,所述审计结果包括密文数据审计结果,所述生成模块还用于:
49.若所述密态数据的基础特征审计或内容特征审计过程中发现异常状态,则根据该异常状态生成密文数据审计结果;
50.在所述密态数据的基础特征审计通过的情况下,若不具备对所述密态数据的解密权限,则生成结果为基础特征审计通过的密态数据审计结果;
51.若所述密态数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述密态数据的基础特征审计和内容特征审计结束的情况下,生成结果为通过的密态数据审计结果。
52.可选地,所述密态数据包括密态张量,所述密态数据审计模块还用于:
53.若具备对所述密态数据的解密权限,则对所述密态张量进行解密,获得待审计张量;
54.获取所述待审计张量对应的规则表索引信息,并依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表;
55.基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计,直至审计结束或者审计过程发现异常状态;
56.若不具备对所述密态数据的解密权限,则不对所述密态数据进行内容特征审计,审计结束。
57.可选地,所述审计规则包括数据定位信息和审计子规则,所述所述密态数据审计模块还用于:
58.基于所述数据定位信息,在所述待审计张量中定位待审计内容;
59.基于所述审计子规则,对所述待审计内容中数值的取值范围以及所述待审计内容中数值是否可为空进行审计。
60.可选地,所述所述密态数据审计模块还用于:
61.获取所述待审计张量对应的联邦学习任务标识信息、对应的联邦设备身份信息、对应的联邦迭代次数信息以及对应的中间结果数据类型信息;
62.将所述联邦学习任务标识信息、所述联邦设备身份信息、所述联邦迭代次数信息和所述中间结果数据类型信息进行聚合,获得所述规则表索引信息。
63.可选地,在所述所述密态数据审计模块中,所述规则表索引信息至少由联邦学习任务标识信息、联邦设备身份信息、联邦迭代次数信息和中间结果数据类型信息中的一种组成。
64.可选地,所述联邦学习中数据审计装置还用于:
65.获取预设联邦任务对应的各样本特征的特征取值范围,并依据所述各样本特征的特征取值范围,构建测试样本集;
66.基于所述测试样本集,与其他联邦学习设备进行联邦学习建模,以计算所述测试样本集对应的若干中间结果张量;
67.构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型。
68.可选地,所述联邦学习中数据审计装置还用于:
69.获取预设联邦任务对应的各样本特征的特征取值范围,以及所述预设联邦任务对应的联邦学习模型对应的中间结果计算表达式;
70.依据各所述特征取值范围和所述中间结果计算表达式,计算所述联邦学习模型对应的若干中间结果张量的数据分布情况;
71.构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型。
72.本技术还提供一种联邦学习中数据审计设备,所述联邦学习中数据审计设备为实体设备,所述联邦学习中数据审计设备包括:存储器、处理器以及存储在所述存储器上并可
在所述处理器上运行的所述联邦学习中数据审计方法的程序,所述联邦学习中数据审计方法的程序被处理器执行时可实现如上述的联邦学习中数据审计方法的步骤。
73.本技术还提供一种介质,所述介质为可读存储介质,所述可读存储介质上存储有实现联邦学习中数据审计方法的程序,所述联邦学习中数据审计方法的程序被处理器执行时实现如上述的联邦学习中数据审计方法的步骤。
74.本技术还提供一种程序产品,所述程序产品为计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的联邦学习中数据审计方法的步骤。
75.本技术提供了一种联邦学习中数据审计方法、设备、介质及程序产品,也即,获取联邦学习设备的通信数据流信息,其中,所述通信数据流信息至少包括明文数据以及密态数据中的一种;若所述通信数据流信息包括所述明文数据,则对所述明文数据进行基础特征审计,并在所述明文数据的基础特征审计通过的情况下,对所述明文数据进行内容特征审计;若所述通信数据流信息包括所述密态数据,则对所述密态数据进行基础特征审计,并在所述密态数据的基础特征审计通过的情况下,依据是否具备对所述密态数据的解密权限选择性地对所述密态数据进行内容特征审计;在审计结束或者审计过程发现异常状态的情况下,生成审计结果,其中,需要说明的是,当恶意参与方生成恶意数据时,相比于非恶意的标准数据,恶意数据的基础特征与内容特征均有可能发生改变,本技术通过对联邦学习设备的通信数据流信息的基础特征和内容特征进行审计,可在恶意数据真正参与联邦学习的计算之前,鉴别出联邦学习通信过程中的恶意数据,进而可防止恶意数据参与联邦学习,可克服一旦存在恶意设备向联邦服务器发送恶意数据参与联邦学习,将会导致基于联邦学习构建的模型难以收敛的技术缺陷,进而提升了联邦学习的效率。
附图说明
76.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
77.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
78.图1为本技术联邦学习中数据审计方法第一实施例的流程示意图;
79.图2为本技术联邦学习中数据审计方法中数据审计的流程示意图;
80.图3为本技术联邦学习中数据审计方法第二实施例的流程示意图;
81.图4为本技术实施例中联邦学习中数据审计方法涉及的硬件运行环境的设备结构示意图。
82.本技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
83.应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
84.本技术实施例提供一种联邦学习中数据审计方法,在本技术联邦学习中数据审计方法的第一实施例中,参照图1,所述联邦学习中数据审计方法包括:
85.步骤s10,获取联邦学习设备的通信数据流信息,其中,所述通信数据流信息至少
包括明文数据以及密态数据中的一种;
86.在本实施例中,需要说明的是,所述联邦学习设备可以为联邦学习中的联邦服务器或者参与方设备,具体地,由于在联邦学习中,参与方设备与联邦服务器之间存在数据传输,参与方设备与参与方设备之间也存在数据传输,进而在联邦服务器或者参与方设备处均可采用本技术的联邦学习中数据审计方法进行数据审计,所述通信数据流信息为联邦学习设备与其他联邦学习设备之间进行通信传输的数据,可以为联邦学习设备从外界接收的通信数据流,也可以为联邦学习设备向外界发送的通信数据流。
87.应当理解的是,本实施例提供的方法应用在联邦学习中数据审计装置,该联邦学习中数据审计装置可以是联邦学习设备的网关上的插件从而不影响联邦学习设备上对联邦学习相关软件或服务的运行,也可以作为具体联邦学习设备的硬件平台的插件或者整合成为其一部分,也可以作为独立于联邦学习设备之外的审计装置。这些可以根据实际应用场景和需求调整,在此不做具体限定。
88.另外地,需要说明的是,所述密态数据为加密的通信数据,可以为加密的模型损失、加密的模型梯度、加密的标签辅助计算数据以及加密的模型网络参数本身等,其中,所述标签辅助计算数据可由具备样本标签的参与方设备发送至不具备样本标签的参与方设备,以供所述参与方设备利用标签辅助计算数据,计算自身的模型梯度,所述明文数据为未加密的通信数据,可以为树分裂节点位置以及树模型训练结果等。
89.另外地,需要说明的是,若所述通信数据流信息仅包括明文数据,则只对明文数据进行数据审计即可,若所述通信数据流信息仅包括密态数据,则只对密态数据进行数据审计即可,若所述通信数据流信息包括明文数据和密态数据,则需要既对明文数据进行审计也需要对密态数据进行审计,其中,对明文数据进行审计的具体过程可参照以下步骤s20中的内容,对密态数据进行审计的具体过程可参照以下步骤s30中的内容。
90.步骤s20,若所述通信数据流信息包括所述明文数据,则对所述明文数据进行基础特征审计,并在所述明文数据的基础特征审计通过的情况下,对所述明文数据进行内容特征审计;
91.在本实施例中,需要说明的是,所述明文数据具备基础特征和内容特征,其中,所述基础特征为与数据的内容无关的数据特性特征,例如数据大小、数据格式、数据类型以及数据对应的哈希值等,所述内容特征为数据内容中数值的数据分布特征,例如数据内容中数值的取值范围以及数值是否可以为空等。
92.具体地,若所述通信数据流信息包括所述明文数据,则对所述明文数据的基础特征进行审计,以判断所述明文数据的基础特征是否与预设明文基础特征一致,若一致,则确定所述明文数据的基础特征审计通过,进一步地,对所述明文数据进行内容特征审计,直至审计过程中发现异常状态或者审计结束;若不一致,则判定所述明文数据的基础特征审计过程中发现异常状态,结束审计流程,不再对所述明文数据进行特征数据审计,以缩减数据审计流程,提高数据审计的效率。
93.其中,所述判断所述明文数据的基础特征是否与预设明文基础特征一致的步骤具体地可以为:
94.判断所述明文数据对应的数据大小是否与预设数据大小一致;和/或判断所述明文数据对应的数据类型是否与预设数据类型一致;和/或判断所述明文数据对应的数据格
式是否与预设数据格式一致;以及判断所述明文数据对应的哈希值是否与所述明文数据在数据传输之前对应的哈希值一致等。
95.其中,所述对所述明文数据进行基础特征审计,并在所述明文数据的基础特征审计通过的情况下,对所述明文数据进行内容特征审计的步骤包括:
96.步骤c10,对所述明文数据的基础特征进行审计;
97.步骤c20,若所述明文数据的基础特征审计不通过,则判定审计过程发现异常状态;
98.步骤c30,若所述明文数据的基础特征审计通过,则对所述明文数据进行内容特征审计,直至审计过程发现异常状态或者审计结束。
99.在本实施例中,具体地,若所述通信数据流信息包括所述明文数据,则对所述明文数据的基础特征进行审计,以判断所述明文数据的基础特征是否与预设明文基础特征一致,若一致,则所述明文数据的基础特征审计通过,进而确定所述明文数据对应的联邦学习迭代次数以及对应的联邦学习任务标识,进而将所述联邦学习迭代次数与所述联邦学习任务标识进行聚合,得到明文数据对应的规则表索引信息,进而依据所述规则表索引信息,在预设规则模型中查找所述明文数据对应的目标规则表,进而依据所述目标规则表中的审计规则,对所述明文数据进行内容特征审计,直至审计过程中发现异常状态或者审计结束;若不一致,则判定审计过程中发现异常状态,其中,所述明文数据包括待审计明文张量,所述对所述明文数据进行内容特征审计的步骤包括:
100.获取所述待审计明文张量对应的规则表索引信息,并依据所述规则表索引信息,在预设规则模型中查询所述待审计明文张量对应的目标规则表;基于所述目标规则表中的审计规则,对所述待审计明文张量的内容特征进行审计,直至审计结束或者审计过程发现异常状态,其中,获取所述待审计明文张量对应的规则表索引信息的具体过程可参照步骤s221至步骤s222中的具体内容,在此不再赘述,基于所述目标规则表中的审计规则,对所述待审计明文张量的内容特征进行审计的具体过程可参照步骤s231至步骤s232,在此不再赘述。
101.步骤s30,若所述通信数据流信息包括所述密态数据,则对所述密态数据进行基础特征审计,并在所述密态数据的基础特征审计通过的情况下,依据是否具备对所述密态数据的解密权限选择性地对所述密态数据进行内容特征审计;
102.在本实施例中,需要说明的是,所述密态数据的基础特征包括数据大小、数据格式、数据类型和哈希值等,例如,所述密态数据可以为密态的张量,数据大小可以由张量的大小以及密态数据对应的密钥位宽计算得到,数据类型需要为联邦学习软件所兼容的类型,例如,公钥、私钥以及密态数需为大整数类型等,数据格式需要为联邦学习软件所兼容的格式,例如,数据格式需为存储为合法的csv格式等,哈希值则需要在数据传输前后保持一致等,所述密态数据的内容特征为密态数据对应的明文内容中数值的数据分布特征,例如明文内容中数值的取值范围以及数值是否可以为空等。
103.具体地,若所述通信数据流信息包括所述密态数据,则对所述密态数据的基础特征进行审计,以判断所述密态数据的基础特征是否与预设密文基础特征一致,若一致,则确定所述密态数据的基础特征审计通过,若具备所述对所述密态数据的解密权限,则对所述密态数据进行解密,并对解密后的密态数据的内容特征进行审计,直至审计过程中发现异
常状态或者审计结束;若不具备所述对所述密态数据的解密权限,则审计结束,若不一致,则判定审计过程中发现异常状态。
104.步骤s40,在审计结束或者审计过程发现异常状态的情况下,生成审计结果。
105.在本实施例中,需要说明的是,若确定所述明文数据的基础特征审计或者内容特征审计不通过时,则判定审计过程发现异常状态,若所述明文数据的基础特征审计通过和所述明文数据的内容特征审计通过,则判定审计结束。
106.在审计结束或者审计过程发现异常状态的情况下,生成审计结果,具体地,若审计结束,则生成为审计通过的审计结果,若审计过程发现异常状态,则生成为审计不通过的审计结果。
107.其中,所述审计结果包括明文数据审计结果,
108.所述在审计结束或者审计过程发现异常状态的情况下,生成审计结果的步骤包括:
109.步骤a10,若所述明文数据的基础特征审计或内容特征审计过程中发现异常状态,则根据该异常状态生成明文数据审计结果;
110.步骤a20,若所述明文数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述明文数据的基础特征审计和内容特征审计结束的情况下,生成结果为基础特征审计和内容特征审计均通过的明文数据审计结果。
111.在本实施例中,若所述明文数据的基础特征审计过程中发现异常状态,则生成为基础特征审计不通过的明文数据审计结果;若所述明文数据的基础特征审计通过而所述明文数据的内容特征审计不通过,则生成为内容特征审计不通过的明文数据审计结果;若所述明文数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述明文数据的基础特征审计和内容特征审计结束的情况下,生成结果为基础特征审计和内容特征审计均通过的明文数据审计结果。
112.其中,所述审计结果包括密文数据审计结果,
113.所述在审计结束或者审计过程发现异常状态的情况下,生成审计结果的步骤包括:
114.步骤b10,若所述密态数据的基础特征审计或内容特征审计过程中发现异常状态,则根据该异常状态生成密文数据审计结果;
115.在本实施例中,具体地,若所述密态数据的基础特征审计过程中发现异常状态,则生成为基础特征审计不通过的密文数据审计结果;若所述密态数据的内容特征审计过程中发现异常状态,则生成为内容特征审计不通过的密文数据审计结果。
116.步骤b20,在所述密态数据的基础特征审计通过的情况下,若不具备对所述密态数据的解密权限,则生成结果为基础特征审计通过的密态数据审计结果;
117.在本实施例中,具体地,在所述密态数据的基础特征审计通过的情况下,若不具备对所述密态数据的解密权限,则直接审计结束,并生成结果为基础特征审计通过的密态数据审计结果,以缩减数据审计流程,提高数据审计的效率。
118.步骤b30,若所述密态数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述密态数据的基础特征审计和内容特征审计结束的情况下,生成结果为基础特征审计和内容特征审计均通过的密态数据审计结果。
119.另外地,需要说明的时,所述审计结果包括明文数据审计结果和密文数据审计结果,其中,所述明文数据审计结果的生成过程可参照步骤a10至步骤a20中的内容,所述密态数据审计结果的生成过程可参照步骤b10至步骤b30中的内容,在此不在赘述。
120.在一种实施方式中,如图2所示为本技术实施例数据审计的流程示意图,其中,联邦学习通信数据为所述联邦通信数据流,数据特征审计的过程为基础特征审计的过程,密钥管理系统为密钥管理模块,参与方为联邦学习参与方,对照规则表的过程为内容特征审计的过程。
121.需要说明的,以上审计结束可以意味着各联邦学习设备之间的通信数据流信息终止/中止交换;或者意味着各联邦学习设备之间的通信数据流信息未终止/中止交换,但基于联邦学习设备的审计要求提前关闭通信数据流信息的审计权限,而相应的审计结果对应已审计的通信数据流信息。
122.本技术实施例提供了一种联邦学习中数据审计方法,也即,获取联邦学习设备的通信数据流信息,其中,所述通信数据流信息至少包括明文数据以及密态数据中的一种;若所述通信数据流信息包括所述明文数据,则对所述明文数据进行基础特征审计,并在所述明文数据的基础特征审计通过的情况下,对所述明文数据进行内容特征审计;若所述通信数据流信息包括所述密态数据,则对所述密态数据进行基础特征审计,并在所述密态数据的基础特征审计通过的情况下,依据是否具备对所述密态数据的解密权限选择性地对所述密态数据进行内容特征审计;在审计结束或者审计过程发现异常状态的情况下,生成审计结果,其中,需要说明的是,当恶意参与方生成恶意数据时,相比于非恶意的标准数据,恶意数据的基础特征与内容特征均有可能发生改变,本技术实施例通过对联邦学习设备的通信数据流信息的基础特征和内容特征进行审计,可在恶意数据真正参与联邦学习的计算之前,鉴别出联邦学习通信过程中的恶意数据,进而可防止恶意数据参与联邦学习,可克服一旦存在恶意设备向联邦服务器发送恶意数据参与联邦学习,将会导致基于联邦学习构建的模型难以收敛的技术缺陷,进而提升了联邦学习的效率。
123.进一步地,参照图3,基于本技术第一实施例,在本技术另一实施例中,所述密态数据包括密态张量,
124.所述依据是否具备对所述密态数据的解密权限选择性地对所述密态数据进行内容特征审计的步骤包括:
125.步骤s21,若具备对所述密态数据的解密权限,则对所述密态张量进行解密,获得待审计张量;
126.在本实施例中,具体地,若具备对所述密态数据的解密权限,则通过密钥管理模块请求调用解密密钥,对所述密态张量进行解密,获得待审计张量。
127.步骤s22,获取所述待审计张量对应的规则表索引信息,并依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表;
128.在本实施例中,需要说明的是,所述预设规则模型为用于进行内容特征审计的模型,所述预设规则模型至少包括一目标规则表,一所述目标规则表对应一规则表索引信息,一所述规则表索引信息至少对应一待审计张量,以供在预设规则模型中查找待审计张量对应的目标规则表,所述规则表索引信息可以至少由联邦学习任务标识信息、联邦设备身份信息、联邦迭代次数信息和中间结果数据类型信息中的一种组成,进一步地,所述目标规则
表包括用于进行内容特征审计的审计规则以及用于定位待审计张量中审计规则对应的待审计数据的数据定位信息,例如,当待审计张量为二维矩阵时,则数据定位信息可以为列信息或者行信息,当待审计张量为三维张量,则数据定位信息可以为三维坐标信息,所述审计规则至少包括一审计子规则,所述审计子规则可以为判别数值取值范围的规则,也可以为判别数据是否可以为为空的规则。
129.获取所述待审计张量对应的规则表索引信息,并依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表,具体地,获取所述待审计张量对应的规则表索引信息,进而将规则表索引信息与预设规则模型中各预设规则表索引信息进行比对,查找与所述规则表索引信息一致的目标规则表索引信息,进而将所述目标规则表索引信息在预设规则模型中对应的规则表作为所述待审计张量对应的目标规则表。
130.其中,所述获取所述待审计张量对应的规则表索引信息的步骤包括:
131.步骤s221,获取所述待审计张量对应的联邦学习任务标识信息、对应的联邦设备身份信息、对应的联邦迭代次数信息以及对应的中间结果数据类型信息;
132.在本实施例中,需要说明的是,所述联邦学习任务标识信息可以为联邦学习任务的id标识,也可以为联邦学习任务的类型标识等,所述联邦设备身份信息为联邦学习设备的身份信息,可以为设备序列号,也可以为设备名称,所述联邦迭代次数信息为所述待审计张量对应的联邦迭代次数,例如,所述待审计张量是在第5次联邦迭代时生成的,则所述待审计张量对应的联邦迭代次数信息为5,所述中间结果数据类型信息为表示所述密态张量的数据类型的标签信息,所述密态张量的数据类型包括模型损失类型、模型梯度类型以及模型网络参数类型等。
133.步骤s222,将所述联邦学习任务标识信息、所述联邦设备身份信息、所述联邦迭代次数信息和所述中间结果数据类型信息进行聚合,获得所述规则表索引信息。
134.在本实施例中,将所述联邦学习任务标识信息、所述联邦设备身份信息、所述联邦迭代次数信息和所述中间结果数据类型信息进行聚合,获得所述规则表索引信息,具体地,将所述联邦学习任务标识信息、所述联邦设备身份信息、所述联邦迭代次数信息和所述中间结果数据类型信息拼接为预设位数的向量,得到所述规则表索引信息,例如,假设所述联邦学习任务标识信息为a,所述联邦设备身份信息为b,所述联邦迭代次数信息为c,所述中间结果数据类型信息为d,则所述规则表索引信息可以为向量abcd,进而实现了基于待审计张量在联邦学习过程中的联邦建模信息构建规则表索引信息的目的,使得具有相同或者相似的联邦建模信息的待审计张量将会对应同一目标规则表,而具有相同或者相似的联邦建模信息的待审计张量通常有具备相同或者相似的数据分布情况,可保证利用目标规则表,对多个待审计张量进行审计的准确度,进而可实现利用一张规则表,对多个待审计张量进行准确审计的目的,间接实现了对各待审计张量的分类审计,提升了数据审计的效率。
135.另外地,步骤s222还包括:
136.将所述联邦学习任务标识信息、所述联邦设备身份信息、所述联邦迭代次数信息和所述中间结果数据类型信息拼接为字符串,得到所述规则表索引信息。
137.其中,需要说明的是,所述规则表索引信息至少由联邦学习任务标识信息、联邦设备身份信息、联邦迭代次数信息和中间结果数据类型信息中的一种组成,也即,所述规则表索引信息可由联邦学习任务标识信息、联邦设备身份信息、联邦迭代次数信息和中间结果
数据类型信息中的一种或者多种信息进行聚合得到。
138.步骤s23,基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计,直至审计结束或者审计过程发现异常状态。
139.在本实施例中,所述目标规则表至少包括一审计规则以及所述审计规则对应的数据定位信息。
140.基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计,直至审计结束或者审计过程发现异常状态,具体地,基于各审计规则对应的数据定位信息,在待审计张量中定位各所述审计规则对应的待审计内容,进而依据每一所述审计规则,分别对每一所述审计规则对应的待审计内容的内容特征进行审计,直至审计结束或者审计过程发现异常状态,其中,当待审计内容的内容特征不符合对应的审计规则即判定审计过程发现异常状态。
141.可选地,可设置当每一审计规则对应的审计结果均为审计通过时,则判定审计结束;当每一审计规则对应的审计结果未均为审计通过时,则判定审计过程发现异常状态。
142.其中,所述审计规则包括数据定位信息和审计子规则,
143.所述基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计的步骤包括:
144.步骤s231,基于所述数据定位信息,在所述待审计张量中定位待审计内容;
145.在本实施例中,需要说明的是,所述数据定位信息为用于在待审计张量中定位审计规则对应的待审计张量的信息,例如,若待审计张量为二维矩阵,则所述数据定位信息可以为二维矩阵的列信息或者行信息等,若待审计张量为三维张量,所述数据定位信息可以为三维坐标信息,三维坐标信息可以为点的坐标的取值范围,也可以为面的坐标的取值范围等。
146.步骤s232,基于所述审计子规则,对所述待审计内容中数值的取值范围以及所述待审计内容中数值是否可为空进行审计。
147.在本实施例中,需要说明的是,所述审计规则至少包括一审计子规则,用于对待审计内容的内容特征进行审计,其中,所述待审计内容的内容特征可以为待审计内容中数值的取值范围,也可以待审计内容中数值为空或者非空。
148.基于所述审计子规则,对所述待审计内容中数值的取值范围以及所述待审计内容中数值是否可为空进行审计,具体地,判别所述待审计内容中数据的取值范围是否在所述审计子规则对应的预设取值范围内,并确定所述待审计内容中是否合理存在空值,若所述待审计内容中数据的取值范围在所述审计子规则对应的预设取值范围内以及确定所述待审计内容中合理存在空值,则判定审计结束,否则,判定审计过程中发现异常状态。例如,假设若审计子规则a规定预设取值范围为(1,100),审计子规则b规定不可存在空值,而若对应的待审计内容中数值的取值范围为(2,80),待审计内容中存在空值,则判定在依据审计子规则b进行审计时发现异常状态,实现了在待审计张量的数值层面进行审计,进而实现了对应待审计张量进行更深层次的数据审计的目的,可提升数据审计的准确度。
149.其中,在所述依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表的步骤之前,所述联邦学习中数据审计方法还包括:
150.步骤a10,获取预设联邦任务对应的各样本特征的特征取值范围,并依据所述各样
本特征的特征取值范围,构建测试样本集;
151.在本实施例中,需要说明的是,所述联邦学习设备为参与方设备。
152.具体地,获取预设联邦任务对应的各样本特征的特征取值范围,并在各所述特征取值范围随机选取特征值组成若干测试样本,得到测试样本集。
153.步骤a20,基于所述测试样本集,与其他联邦学习设备进行联邦学习建模,以计算所述测试样本集对应的若干中间结果张量;
154.在本实施例中,需要说明的是,基于所述测试样本集,与其他联邦学习设备进行联邦学习建模,以计算所述测试样本集对应的若干中间结果张量,具体地,基于所述测试样本集,与其他联邦学习设备共同进行联邦学习建模,并收集联邦学习建模过程中所述测试样本集中各测试样本对应的中间结果张量,其中,所述中间结果张量包括联邦学习建模过程中生成的模型损失、模型梯度以及模型参数等。
155.步骤a30,构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型。
156.在本实施例中,构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型,具体地,获取所述若干中间结果张量对应的联邦学习任务标识信息、对应联邦设备身份信息、对应联邦迭代次数信息和对应的中间结果数据类型信息中至少一种索引信息,进而依据每一所述中间结果张量对应的各索引信息,构建每一所述中间结果张量对应的规则表索引信息,进而基于每一所述规则表索引信息对应的各中间结果张量的数据分布情况,构建每一规则索引信息对应的目标规则表,进而依据各规则表索引信息、各目标规则表以及各所述规则表索引信息与目标规则表之间的一一对应关系,构建所述预设规则模型,其中,所述数据分布情况包括若干中间结果张量中各区域的数值的取值范围以及各区域是否存在空值,进而当联邦学习需要构建的联邦学习模型的复杂度较高时,无法直接推导出审计规则需要规定的内容特征,则可通过分析测试样本集对应的若干中间结果张量的数据分布情况,得到预设规则模型,实现了构建预设规则模型的目的。
157.其中,在所述依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表的步骤之前,所述联邦学习中数据审计方法还包括:
158.步骤b10,获取预设联邦任务对应的各样本特征的特征取值范围,以及所述预设联邦任务对应的联邦学习模型对应的中间结果计算表达式;
159.在本实施例中,需要说明的是,所述中间结果计算表达式为由于样本至中间结果张量的映射关系式,将样本代入中间结果表达式,即可计算得到对应的中间结果张量,其中,所述中间结果张量为联邦学习建模过程生成的中间结果,所述中间结果张量可以为联邦学习建模过程中生成的模型损失、模型梯度以及模型参数等。
160.步骤b20,依据各所述特征取值范围和所述中间结果计算表达式,计算所述联邦学习模型对应的若干中间结果张量的数据分布情况;
161.在本实施例中,需要说明的是,当联邦学习模型的复杂度较低时,例如,当联邦学习模型为线性回归模型或者为逻辑回归模型时,则可直接依据特征提取范围以及中间结果计算表达式,推导所述联邦学习模型对应的若干中间结果张量的数据分布情况。
162.步骤b30,构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型。
163.在本实施例中,构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型,具体地,获取所述若干中间结果张量对应的联邦学习任务标识信息、对应联邦设备身份信息、对应联邦迭代次数信息和对应的中间结果数据类型信息中至少一种索引信息,进而依据每一所述中间结果张量对应的各索引信息,构建每一所述中间结果张量对应的规则表索引信息,进而基于每一所述规则表索引信息对应的各中间结果张量的数据分布情况,构建每一规则索引信息对应的目标规则表,进而依据各规则表索引信息、各目标规则表以及各所述规则表索引信息与目标规则表之间的一一对应关系,构建所述预设规则模型,其中,所述数据分布情况包括若干中间结果张量中各区域的数值的取值范围以及各区域是否存在空值,实现了构建预设规则模型的目的。
164.步骤s24,若不具备对所述密态数据的解密权限,则不对所述密态数据进行内容特征审计,审计结束。
165.在本实施例中,具体地,若不具备对所述密态数据的解密权限,则无法对所述密态数据进行内容特征审计,此时直接审计结束,以生成结果为基础特征审计通过的密态数据审计结果。
166.本技术实施例提供了一种针对于密态数据的内容特征的数据审计方法,也即,若具备对所述密态数据的解密权限,则对所述密态张量进行解密,获得待审计张量,进而获取所述待审计张量对应的规则表索引信息,并依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表,实现了利用目标规则表,对待审计张量进行数据审计的目的,而目标规则表由待审计张量对应的规则表索引信息进行确定,进而对于具备相同或者相似的规则表索引信息的待审计张量,均可利用同一目标规则表进行数据审计,间接实现了基于待审计张量的类别,对待审计张量的内容特征进行审计,提升了数据审计的效率,进而基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计,直至审计结束或者审计过程发现异常状态,基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计,直至审计结束或者审计过程发现异常状态;若不具备对所述密态数据的解密权限,则不对所述密态数据进行内容特征审计,审计结束,相比于数据的基础特征,实现了对层次更深的内容特征进行数据审计的目的,提升了数据审计的准确度。
167.参照图4,图4是本技术实施例方案涉及的硬件运行环境的设备结构示意图。
168.如图4所示,该联邦学习中数据审计设备可以包括:处理器1001,例如cpu,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non

volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
169.本领域技术人员可以理解,图4中示出的联邦学习中数据审计设备结构并不构成对联邦学习中数据审计设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
170.如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通
信模块以及联邦学习中数据审计程序。操作系统是管理和控制联邦学习中数据审计设备硬件和软件资源的程序,支持联邦学习中数据审计程序以及其它软件和/或,程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与联邦学习中数据审计系统中其它硬件和软件之间通信。
171.在图4所示的联邦学习中数据审计设备中,处理器1001用于执行存储器1005中存储的联邦学习中数据审计程序,实现上述任一项所述的联邦学习中数据审计方法的步骤。
172.本技术联邦学习中数据审计设备具体实施方式和有益效果与上述联邦学习中数据审计方法各实施例基本相同,在此不再赘述。
173.本技术实施例还提供一种联邦学习中数据审计装置,所述联邦学习中数据审计装置应用于联邦学习中数据审计设备,所述联邦学习中数据审计装置包括:
174.获取模块,用于获取联邦学习设备的通信数据流信息,其中,所述通信数据流信息至少包括明文数据以及密态数据中的一种;
175.明文数据审计模块,用于若所述通信数据流信息包括所述明文数据,则对所述明文数据进行基础特征审计,并在所述明文数据的基础特征审计通过的情况下,对所述明文数据进行内容特征审计;
176.密态数据审计模块,用于若所述通信数据流信息包括所述密态数据,则对所述密态数据进行基础特征审计,并在所述密态数据的基础特征审计通过的情况下,依据是否具备对所述密态数据的解密权限选择性地对所述密态数据进行内容特征审计;
177.生成模块,用于在审计结束或者审计过程发现异常状态的情况下,生成审计结果。
178.可选地,所述审计结果包括明文数据审计结果,所述生成模块还用于:
179.若所述明文数据的基础特征审计或内容特征审计过程中发现异常状态,则根据该异常状态生成明文数据审计结果;
180.若所述明文数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述明文数据的基础特征审计和内容特征审计结束的情况下,生成结果为基础特征审计和内容特征审计均通过的明文数据审计结果。
181.可选地,所述审计结果包括密文数据审计结果,所述生成模块还用于:
182.若所述密态数据的基础特征审计或内容特征审计过程中发现异常状态,则根据该异常状态生成密文数据审计结果;
183.在所述密态数据的基础特征审计通过的情况下,若不具备对所述密态数据的解密权限,则生成结果为基础特征审计通过的密态数据审计结果;
184.若所述密态数据的基础特征审计和内容特征审计过程中未发现异常状态,且在所述密态数据的基础特征审计和内容特征审计结束的情况下,生成结果为基础特征审计和内容特征审计均通过的密态数据审计结果。
185.可选地,所述密态数据包括密态张量,所述密态数据审计模块还用于:
186.若具备对所述密态数据的解密权限,则对所述密态张量进行解密,获得待审计张量;
187.获取所述待审计张量对应的规则表索引信息,并依据所述规则表索引信息,在预设规则模型中查询所述待审计张量对应的目标规则表;
188.基于所述目标规则表中的审计规则,对所述待审计张量的内容特征进行审计,直
至审计结束或者审计过程发现异常状态;
189.若不具备对所述密态数据的解密权限,则不对所述密态数据进行内容特征审计,审计结束。
190.可选地,所述审计规则包括数据定位信息和审计子规则,所述所述密态数据审计模块还用于:
191.基于所述数据定位信息,在所述待审计张量中定位待审计内容;
192.基于所述审计子规则,对所述待审计内容中数值的取值范围以及所述待审计内容中数值是否可为空进行审计。
193.可选地,所述所述密态数据审计模块还用于:
194.获取所述待审计张量对应的联邦学习任务标识信息、对应的联邦设备身份信息、对应的联邦迭代次数信息以及对应的中间结果数据类型信息;
195.将所述联邦学习任务标识信息、所述联邦设备身份信息、所述联邦迭代次数信息和所述中间结果数据类型信息进行聚合,获得所述规则表索引信息。
196.可选地,在所述所述密态数据审计模块中,所述规则表索引信息至少由联邦学习任务标识信息、联邦设备身份信息、联邦迭代次数信息和中间结果数据类型信息中的一种组成。
197.可选地,所述联邦学习中数据审计装置还用于:
198.获取预设联邦任务对应的各样本特征的特征取值范围,并依据所述各样本特征的特征取值范围,构建测试样本集;
199.基于所述测试样本集,与其他联邦学习设备进行联邦学习建模,以计算所述测试样本集对应的若干中间结果张量;
200.构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型。
201.可选地,所述联邦学习中数据审计装置还用于:
202.获取预设联邦任务对应的各样本特征的特征取值范围,以及所述预设联邦任务对应的联邦学习模型对应的中间结果计算表达式;
203.依据所述各样本特征的特征取值范围和所述中间结果计算表达式,计算所述联邦学习模型对应的若干中间结果张量的数据分布情况;
204.构建所述若干中间结果张量对应的规则表索引信息,并依据所述若干中间结果张量的数据分布情况以及所述若干中间结果张量对应的规则表索引信息,构建所述预设规则模型。
205.可选地,所述明文数据审计模块还用于:
206.对所述明文数据的基础特征进行审计;
207.若所述明文数据的基础特征审计不通过,则判定审计过程发现异常状态;
208.若所述明文数据的基础特征审计通过,则对所述明文数据进行内容特征审计,直至审计过程发现异常状态或者审计结束。
209.应当理解的是,联邦学习中数据审计装置可以是联邦学习设备的网关上的插件从而不影响联邦学习设备上对联邦学习相关软件或服务的运行,也可以作为具体联邦学习设
备的硬件平台的插件或者整合成为其一部分,也可以作为独立于联邦学习设备之外的审计装置。这些可以根据实际应用场景和需求调整,在此不做具体限定。
210.本技术联邦学习中数据审计装置的具体实施方式和有益效果与上述联邦学习中数据审计方法各实施例基本相同,在此不再赘述。
211.本技术实施例提供了一种介质,所述介质为可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的联邦学习中数据审计方法的步骤。
212.本技术可读存储介质具体实施方式和有益效果与上述联邦学习中数据审计方法各实施例基本相同,在此不再赘述。
213.本技术还提供一种程序产品,所述程序产品为计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的联邦学习中数据审计方法的步骤。
214.本技术计算机程序产品具体实施方式和有益效果与上述联邦学习中数据审计方法各实施例基本相同,在此不再赘述。
215.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利处理范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1