用于隐私保护的方法、装置和系统与流程

文档序号:30620510发布日期:2022-07-02 02:27阅读:167来源:国知局
用于隐私保护的方法、装置和系统与流程

1.本公开一般地涉及隐私保护,并且具体地涉及人工智能领域的隐私保护。


背景技术:

2.随着深度学习技术的不断发展,神经网络模型已被广泛地部署于包括边缘计算设备在内的各种系统和装置上。为了更好的提升模型在实际应用中的性能,可以使用实际数据来训练模型。但是,由于实际数据可能包含诸如客户特征之类的成员隐私信息(membership privacy),直接使用实际数据来训练模型具有隐私泄露的风险。
3.一种现有的隐私保护技术路线是使用差分隐私技术。然而,该类方法对性能影响较大,且算力要求较高,训练过程收敛较慢,无法满足现实的应用需求。另一种现有的隐私保护技术路线是利用数据生成模型来生成与原始数据具有相同分布的数据。然而,数据生成模型训练过程并不稳定,且依然具有泄露原始数据的风险。
4.此外,在“万物互联时代”,企业对于用户个人隐私信息的采集和存储数量迎来爆发式的增长,如何在促进数据流通共享,助推企业和产业升级的同时,又尊重用户的个人隐私信息,确保合法合规,成为了从业者们都需要重点关注的命题。


技术实现要素:

5.本公开的一个方面涉及模型训练方法。根据本公开的实施例,模型训练方法包括:获取实际数据集;通过在保留实际数据集中的实际数据的主要特征的同时压缩实际数据集的大小,对实际数据集进行数据集浓缩以去除隐私信息;以及使用经数据集浓缩得到浓缩数据集来训练模型。
6.本公开的一个方面涉及模型部署方法。根据本公开的实施例,模型部署方法包括:部署执行根据本公开实施例的模型训练方法的步骤得到的经训练的模型,以处理数据,其中,用于得到该经训练的模型的实际数据与待处理数据具有相同的分布。
7.本公开的一个方面涉及产生模型的方法。根据本公开的实施例,产生模型的方法包括:执行根据本公开实施例的模型训练方法的步骤来产生模型。
8.本公开的一个方面涉及训练装置。根据本公开的实施例,训练装置包括数据获取模块,被配置为获取实际数据集;数据集浓缩模块,被配置为通过在保留实际数据集中的实际数据的主要特征的同时压缩实际数据集的大小,对实际数据集进行数据集浓缩以去除隐私信息;以及训练模块,被配置为使用经数据集浓缩得到浓缩数据集来训练模型。
9.本公开的一个方面涉及应用装置。根据本公开的实施例,应用装置包括处理设备,所述处理设备被配置为执行根据本公开实施例的模型部署方法的步骤。
10.本公开的一个方面涉及用于隐私保护的系统。根据本公开的实施例,用于隐私保护的系统包括根据本公开实施例的训练装置;以及应用装置,该应用装置被配置为部署由训练装置得到的经训练的模型,以处理数据,其中,用于得到经训练的模型的实际数据与待处理数据具有相同的分布。
11.本公开的再一个方面涉及存储有一个或多个指令的计算机可读存储介质。在一些实施例中,该一个或多个指令可以在由处理器执行时,使处理器执行根据本公开实施例的各方法的步骤。
12.本公开的再一个方面涉及包括一个或多个指令的计算机程序产品。在一些实施例中,该一个或多个指令可以在由处理器执行时,使处理器执行根据本公开实施例的各方法的步骤。
13.提供上述概述是为了总结一些示例性的实施例,以提供对本文所描述的主题的各方面的基本理解。因此,上述特征仅仅是例子并且不应该被解释为以任何方式缩小本文所描述的主题的范围或精神。本文所描述的主题的其他特征、方面和优点将从以下结合附图描述的具体实施方式而变得明晰。
附图说明
14.当结合附图考虑实施例的以下具体描述时,可以获得对本公开内容更好的理解。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。各附图连同下面的具体描述一起包含在本说明书中并形成说明书的一部分,用来例示说明本公开的实施例和解释本公开的原理和优点。其中:
15.图1是示出根据本公开实施例的模型训练方法的步骤的示例的流程图。
16.图2是示出根据本公开实施例的对实际数据集进行数据集浓缩的步骤的示例的流程图。
17.图3是在视觉上展示根据本公开实施例对实际数据集进行数据集浓缩的隐私保护效果的对照图。
18.图4是示出根据本公开实施例的用于隐私保护的系统的配置的示例的示意图,其中还例示了组成装置的主要功能模块及信息交互。
19.图5a-图5c是示出根据本公开实施例的用于隐私保护的方案的多个应用场景的示意图。
20.图6示出了根据本公开实施例的可实现为训练装置、应用装置或系统的计算机的示例框图。
21.虽然在本公开内容中所描述的实施例可能易于有各种修改和另选形式,但是其具体实施例在附图中作为例子示出并且在本文中被详细描述。但是,应当理解,附图以及对其的详细描述不是要将实施例限定到所公开的特定形式,而是相反,目的是要涵盖属于权利要求的精神和范围内的所有修改、等同和另选方案。
具体实施方式
22.以下描述根据本公开的设备和方法等各方面的代表性应用。这些例子的描述仅是为了增加上下文并帮助理解所描述的实施例。因此,对本领域技术人员而言明晰的是,以下所描述的实施例可以在没有具体细节当中的一些或全部的情况下被实施。在其他情况下,众所周知的过程步骤没有详细描述,以避免不必要地模糊所描述的实施例。其他应用也是可能的,本公开的方案并不限制于这些示例。
23.本技术的发明人认识到,相比于通用的模型,使用实际数据训练得到的模型能够
更加准确地适用于具体的应用场景。
24.然而,直接使用实际数据得到的模型可能会泄露实际数据中的隐私信息。例如,在一些情况下,可以通过观察目标数据在模型上的输出来判断目标数据是否被用于训练该模型,从而获取目标数据的成员隐私信息。例如更具体地,如果摄像头捕捉的人脸图像数据被直接用于模型训练,那么训练得到的模型可能会被恶意利用,例如通过模型输出来推测出某人是否曾经进入摄像头观察范围。因此,在利用实际数据来训练模型的情况下,对实际数据中的隐私信息加以保护十分有必要。
25.为此,申请人在本公开中提出了对实际数据集进行数据集浓缩来有效地提取数据中的特征并去除隐私信息,从而保护成员隐私信息。
26.本技术的方案适用于所有需要对训练模型的实际数据进行隐私保护的场景,特别是各类计算机视觉分类任务的业务场景,诸如无人超市、医院、公交站到访人员画像等。在一些实施例中,本技术的方案可以引入监控视频多帧的时序信息从而适用于例如用户行动轨迹的隐私保护。
27.图1例示了根据本公开实施例的模型训练方法的步骤的示例的流程图。
28.图1所示的方法可以由包括处理设备的任何装置执行。例如,图1所示的方法可以由本地服务器(诸如边缘服务器)来执行。
29.如图1所示,根据本公开的实施例,模型训练方法100可以主要包括以下步骤:
30.在步骤110,获取实际数据集;
31.在步骤120,通过在保留实际数据集中的实际数据的主要特征的同时压缩实际数据集的大小,对实际数据集进行数据集浓缩以去除隐私信息;以及
32.在步骤130,使用经数据集浓缩得到浓缩数据集来训练模型。
33.首先,如图1所示,在步骤110中,获取实际数据集。
34.在一些实施例中,获得实际数据集的步骤110包括接收加密的实际数据集,以及对加密的实际数据集进行解密。
35.如上所述,实际数据可能包含成员隐私信息,通过以加密的方式来传送和接收实际数据集有利于避免其他设备对实际数据集的非法访问,从而降低隐私信息泄露的风险。
36.接下来,如图1所示,在步骤120中,对实际数据集进行数据集浓缩。
37.这里,数据集“浓缩”可以形象地指示在压缩数据集的大小的同时保留数据集中的数据的主要特征的处理。其中,数据集中的数据的“主要特征”可以理解为所有特征当中最具代表性的特征,即对训练模型而言最为关键的特征。衡量的标准是在生成的小数据集上通过训练得到的损失与在原始数据上训练得到的损失相近。因此,相比于从原始数据集中抽取的相同大小的数据子集,经浓缩后合成的数据集(下文称为浓缩数据集)包含更多的有效特征。用浓缩数据集训练的神经网络在测试数据上的精确度高于上述抽取的子集训练的神经网络的精确度。
38.可选地,在一些实施例中,所述方法100还可以包括判断获取的实际数据集中是否包含隐私信息(步骤170)。由此,在对实际数据集进行数据集浓缩中(步骤120中),可以仅对包含隐私信息的实际数据集进行数据集浓缩。具体地,通过筛选出实际数据集中包含隐私信息的数据集,可以仅对包含隐私信息的数据集进行数据集浓缩。由此,对于包含隐私信息的数据集,使用其浓缩数据集来训练模型;而对于不包含隐私信息的数据集,可以直接使用
原始的数据集来训练模型。有利地,通过这种筛选处理,可以有针对性地进行数据集浓缩处理,从而在保护隐私的同时,提高模型训练的准确性和效率。
39.下面将结合图2的流程图来详细例示对实际数据集进行数据集浓缩(步骤120)的示例。本领域技术人员容易理解,图2中示出的对实际数据集进行数据集浓缩的方法仅是一个示例,本公开不限于此,本领域技术人员还可以结合本公开揭示的思想利用现有的各种数据集浓缩(dataset condensation,dc)以及数据集蒸馏(dataset distillation,dd)方法来实现隐私去除。具体地,例如可以利用现有的引入kip(kernel inducing points)的数据集浓缩方案、引入dsa(differentiable siamese augmentation)的数据集浓缩方案或者利用infinitely wide convolutional networks的数据集蒸馏方案来实现。在本公开的一些实施例中,数据集“浓缩”为一广义概念,意图包含现有的数据集浓缩和数据集蒸馏方案。其中,数据集蒸馏相比于狭义的数据集浓缩需要更复杂的计算,例如可以应用在本公开的以下结合图5c描述实施例的云端服务器中。
40.在一些实施例中,对实际数据集进行数据集浓缩可以包括建立初始的浓缩数据集(步骤122)。其中,所建立的浓缩数据集小于实际数据集特别地,在一些实施例中,浓缩数据集远小于实际数据集本领域技术人员容易理解,浓缩数据集相比于实际数据集越小,数据集浓缩的程度就越高。
41.在一些实施例中,对实际数据集进行数据集浓缩还包括:根据需求,调整数据集浓缩的浓缩率。
42.例如,在一些实施例中,可以用来表示浓缩率。
43.本技术的发明人认识到,浓缩数据集的大小不仅影响数据集浓缩处理本身,还会影响到利用浓缩数据集来训练模型的过程。例如,通过压缩浓缩数据集以简化所训练的模型,可以进一步降低运行模型所需要的硬件条件。
44.对于实际数据集假设其包含个类别的数据。相应地,浓缩数据集的数据可以被划分到c个对应的类别。
45.其中,类别为c(1≤c≤c)的浓缩数据少于同类的实际数据。特别地,在一些实施例中,每一类的浓缩数据可以远少于同类的实际数据。在一些实施例中,可以将每一类的浓缩数据的数量指定为ipc。
46.本技术的发明人认识到,对浓缩数据集进行随机初始化可以使得经初始化的数据与实际数据无关,即,不包含任何隐私信息,由此有效保证数据集浓缩处理对隐私的保护效果。
47.因此,在一些实施例中,建立初始的浓缩数据集可以包括对浓缩数据集进行随机初始化。例如,可以对浓缩数据集进行正态分布初始化,使得初始的浓缩数据集具有正态分布。但本领域技术人员容易理解,初始化浓缩数据集的方式不限于此,可以根据需求进行选择。
48.随后,对浓缩数据集进行优化,使得浓缩数据集具有实际数据集中的实际数据的主要特征(步骤124-步骤128)。
49.本技术的发明人认识到,同类的数据会具有更一致的特征分布,鉴于此,按照类别来对浓缩数据进行优化可以加快收敛。其中,类别例如是性别、人种、年龄老幼等。
50.因此,在一些实施例中,对浓缩数据集进行优化可以是针对每一类的浓缩数据分别进行的。
51.可替换地,在另一些实施例中,对浓缩数据集进行优化可以是针对所有类的浓缩数据一起进行的或者是针对聚合了一个或多个类的浓缩数据的分组进行的。
52.在针对每一类的浓缩数据分别进行优化的情况下,对浓缩数据集进行优化包括针对每一类的浓缩数据,选取实际数据集中的同类的实际数据的一个或多个子集。
53.特别地,可以预先指定将针对每一类的浓缩数据选取实际数据集中的同类的实际数据的个子集。
54.随后,利用针对每一类的浓缩数据选取的同类的实际数据的每个子集,对浓缩数据进行相应的优化。
55.如图2所示,在一些实施例中,在步骤124中,针对每一类的浓缩数据,选取实际数据集中的同类的实际数据的一个子集。
56.例如,针对类别为c(1≤c≤c)的浓缩数据选取实际数据集中的同类的实际数据的一个子集,例如,第k(1≤k≤k)个子集
57.在步骤126中,利用针对每一类的浓缩数据选取的同类的实际数据的一个子集,对浓缩数据进行一轮优化。
58.可选地,在一些实施例中,对浓缩数据集进行优化包括对优化中使用的实际数据和浓缩数据进行可微数据增强操作(子步骤1262)。
59.例如,可微数据增强操作可以选自以下中的一个或多个:数据反转(flip),旋转(rotate),剪裁(crop),缩放(scale)。为了便于描述,可微数据增强操作可以被记为
60.有利地,可微数据增强操作可以充分挖掘数据的细节,提供更多有价值的特征信息。
61.本技术的发明人认识到,对浓缩数据集进行优化使得浓缩数据集可以学习到实际数据集中的实际数据的主要特征,从而可以表现出与原始数据集相似的特性,并且因此可以用浓缩数据集近似原始数据集。因此,可以通过提取在优化中使用的实际数据和浓缩数据的特征并进行拟合,对浓缩数据集进行优化。
62.发明人还认识到,随机初始化的神经网络的特征层,特别是倒数第二层,具有内在的特征提取和数据聚类的功能,可以用于从数据中提取特征。
63.因此,在一些实施例中,对浓缩数据集进行优化包括利用随机初始化的神经网络的特征层,对优化中使用的实际数据和浓缩数据进行特征提取(子步骤1264)。
64.例如,可以首先以正态分布初始化任意神经网络,然后去除网络的最后一层,并将保留的处于倒数第二层的特征层作为输出。这样得到的神经网络被记为φ。特别地,可以利用φ来计算优化中使用的实际数据和浓缩数据的表征向量。
65.随后,可以执行表征向量的拟合,以优化浓缩数据集。
66.例如,可以计算以下损失函数:
67.[式1]
[0068][0069]
其中,y表示数据的标签。
[0070]
随后,使用诸如随机梯度下降之类的方法进行拟合(子步骤1266)。
[0071]
特别地,假设学习率为η,浓缩数据更新方式如下:
[0072]
[式2]
[0073][0074]
其中,为求梯度算子。
[0075]
在这里,使用l2范数来计算损失函数。但本领域技术人员容易理解,这仅是一个示例,本公开不限于此。
[0076]
本技术的发明人认识到,对各类浓缩数据进行的优化是不相干的,因此可以同步地执行,从而提高处理效率。因此,如式1所示,在一些实施例中,可以利用针对每一类的浓缩数据选取的同类的实际数据的一个子集,对各类的浓缩数据同时进行优化(并行处理)。
[0077]
或者,在一些实施例中,可以在不同时间里对各类浓缩数据进行优化(例如串行处理),以降低算力要求。
[0078]
在完成步骤126后,在步骤128中,判断针对每一类的浓缩数据选取的同类的实际数据的子集是否已达到指定数量(诸如k)。
[0079]
如果已达到指定数量(步骤128中的“是”),则处理结束。
[0080]
如果未达到指定数量(步骤128中的“否”),则处理返回到步骤124,以针对每一类的浓缩数据选取实际数据集中的同类的实际数据的另一个子集,并继续对浓缩数据进行优化。
[0081]
在一些实施例中,可以每次都随机地选取实际数据集中的同类的实际数据的子集。但是本领域技术人员容易理解,选取实际数据的子集的方式不限于此。例如,如果每一类的浓缩数据远少于同类的实际数据,可以规定每次选取的实际数据的子集之间没有交集,以尽可能的利用更多的实际数据来进行优化。本领域技术人员容易理解,可以通过选取更多数量的实际数据的子集来提高优化的质量。
[0082]
由此,通过以上述方式进行数据集浓缩,可以最大程度地保留实际数据的主要特征,从而不会对训练得到的模型产生太大影响,而且收敛快,具备较高的实用价值。
[0083]
而且,本技术的发明人认识到,在浓缩数据数量m远小于原始数据数量n的条件下,任意原始数据的存在与移除不会大幅影响利用浓缩数据训练的模型的参数分布。具体而言,任意原始数据的移除导致的模型参数分布变化(通过kullback-leibler(kl)散度衡量分布变化)为即,理论上,数据集浓缩处理可以删除隐私信息。
[0084]
此外,可以结合图3来直观地展现数据集浓缩处理对隐私信息的保护效果。图3示出了在利用不同的浓缩率(γ
ipc
=0.002、0.01和0.02)对人脸图像的数据集进行数据集浓缩后得到的合成数据与人脸图像的数据集中与合成数据相似的人脸图像(即,相似数据)的对照图。其中,每个相似的人脸图像上方标注了其与合成数据的l2范数和图像感知相似度
指标(lpips)。其中,l2范数越小,或者lpips越大,相似度越高。通过观察可以发现,合成数据与相似数据具有相似的轮廓,但是因为细粒度面部特征的相似度较低,很难根据合成数据确认身份信息。这证实了数据集浓缩处理可以从视觉上保护隐私信息。
[0085]
而且,通过浓缩数据训练的模型也不会泄露用于生成浓缩数据的原始数据的成员信息。即,无法通过该模型的损失函数值来判断某数据样本是否曾被用于生成浓缩数据。具体地,通过模型损失函数值进行数据成员推测的准确率为50%左右,近似于随机猜测。因此,数据集浓缩处理可以从训练得到的模型中去除隐私信息的痕迹,保证了模型的隐私保护性。
[0086]
因此,利用数据集浓缩得到的浓缩数据集来训练模型可以实现对隐私信息的保护。
[0087]
接下来,如图1所示,在步骤130中,使用浓缩数据集来训练模型。
[0088]
在各种实施例中,在步骤130中训练模型可以包括重新训练模型、执行域适应(domain adaptation)或者调整(更新)模型等中的一个或多个。
[0089]
对于诸如边缘计算设备之类的算力有限的设备而言,为了减少利用实际数据重新训练神经网络模型所需的大量计算成本,可以下载预训练的模型,并仅利用实际数据进行域适应。
[0090]
本技术的发明人认识到,虽然域适应相比于重新训练模型可以减少一定的工作量,但是计算开销依然很大且具有隐私泄露的风险。通过根据本公开的实施例进行数据集浓缩以去除隐私信息,并利用浓缩数据集来进行域适应,可以有利地同时解决以上两个问题。
[0091]
例如,在一些实施例中,模型训练方法100还可以包括获取预训练的模型(步骤140)。由此,在使用浓缩数据集来训练模型中(步骤130中),训练所述预训练的模型。即,步骤130是使用浓缩数据集来执行域适应。
[0092]
假设获取的预训练的模型是f
θ
,其中θ为预训练模型参数,并且域适应的学习率为r,那么通过使用浓缩数据集可以通过以下方式微调预训练模型:
[0093]
[式3]
[0094][0095]
其中,为从中随机抽取的批样本。
[0096]
通过将上述微调过程重复若干次,就可以实现域适应。
[0097]
在一些实施例中,可以从云端下载预训练的模型。或者,在一些实施例中,可以从外部存储装置下载预训练的模型。本领域技术人员容易理解,获取预训练的模型的方式不限于此,可以根据需要进行选择。
[0098]
另外,在一些实施例中,步骤110-130可以重复执行,以利用更新的实际数据对经训练的模型进行调整,从而更好地适应实际情况,并减少每次重新训练模型或者重新域适应模型所需的工作量。
[0099]
如图1所示,可选地,在一些实施例中,模型训练方法100还包括对经训练的模型进行模型压缩(步骤150)。
[0100]
有利地,在模型部署之前使用模型压缩技术压缩模型,不仅可以进一步减少模型
大小,使模型更适用于诸如边缘计算设备之类的应用装置,还可以进一步减少模型隐私泄露。
[0101]
在一些实施例中,模型训练方法100还包括将经训练的模型分发给与获取的实际数据集相关的应用装置(步骤160)。
[0102]
这里,“相关”是指应用装置要利用经训练的模型处理的数据与实际数据集具有相同的分布。例如,实际数据集是特定少数民族的人脸图像集,应用装置为上述少数民族聚居区的无人超市的图像传感器,待处理的无人超市客户数据和实际数据集具有相同的分布。又例如,同一超市内的不同货区的顾客的访问特点可能不尽相同,使得从布置在不同货区的图像传感器采集的顾客数据存在差异,位于某个货区的图像传感器待处理的数据与由该货区的图像传感器采集的实际顾客数据集具有相同的分布。由此,经训练的模型可以在待处理的数据上具有更好的表现。
[0103]
在一些实施例中,模型训练方法100还包括获得执行上述步骤得到的经训练的模型。
[0104]
根据本公开的实施例,产生模型的方法可以包括执行根据本公开实施例的模型训练方法的步骤来产生模型。
[0105]
相应地,根据本公开实施例的模型部署方法可以包括部署执行根据本公开实施例的模型训练方法的步骤得到的经训练的模型,以处理数据。
[0106]
其中,用于得到该经训练的模型的实际数据与待处理数据具有相同的分布。
[0107]
根据本公开实施例的模型部署方法可以由包括处理设备的任何装置执行。例如,在一些实施例中,该模型部署方法可以由具有模型推理测试能力的端设备(诸如图像传感器)来执行。
[0108]
值得注意的是,在以上描述的方法中的各个步骤之间的边界仅仅是说明性的。在实际操作中,各个步骤之间可以任意组合,甚至合成单个步骤。此外,各个步骤的执行顺序不受描述顺序的限制,并且部分步骤可以省略。各个实施例的操作步骤也可以以任何适当的顺序相互组合,从而类似地实现比所描述的更多或更少的操作。
[0109]
下面结合图4示例性地描述根据本公开实施例的用于隐私保护的装置和系统。为了便于理解,图4还例示了装置的主要功能模块及其信息交互。
[0110]
根据本公开的实施例,用于隐私保护的系统400可以包括训练装置410。特别地,在各种实施例中,训练装置410可以被配置为执行根据本公开实施例的模型训练方法的步骤。上面结合图1-图2所描述的内容也可以适用于对应的特征,将省略部分重复内容的描述。
[0111]
在本公开的实施例中,如图4所示,训练装置410可以包括:
[0112]
数据获取模块412,被配置为获取实际数据集;
[0113]
数据集浓缩模块414,被配置为通过在保留实际数据集中的实际数据的主要特征的同时压缩实际数据集的大小,对实际数据集进行数据集浓缩以去除隐私信息;以及
[0114]
训练模块416,被配置为使用经数据集浓缩得到浓缩数据集来训练模型。
[0115]
可选地,在一些实施例中,数据获取模块412包括解密子模块4122。解密子模块4122被配置为对接收到的加密的实际数据集进行解密。
[0116]
在一些实施例中,数据集浓缩模块414可以被配置为建立初始的浓缩数据集,并对浓缩数据集进行优化,使得浓缩数据集具有实际数据集中的实际数据的主要特征。其中,所
建立的浓缩数据集小于实际数据集特别地,在一些实施例中,浓缩数据集远小于实际数据集
[0117]
在一些实施例中,数据集浓缩模块414可以根据需求,调整数据集浓缩的浓缩率。
[0118]
在一些实施例中,数据集浓缩模块414可以被配置为在建立初始的浓缩数据集时对浓缩数据集进行随机初始化,例如,正态分布初始化。
[0119]
在一些实施例中,数据集浓缩模块414可以被配置为针对每一类的浓缩数据分别进行优化。
[0120]
可替换地,在另一些实施例中,数据集浓缩模块414可以被配置为针对所有类的浓缩数据一起或者是针对聚合了一个或多个类的浓缩数据的分组进行优化。
[0121]
在针对每一类的浓缩数据分别进行优化的情况下,数据集浓缩模块414可以被配置为针对每一类的浓缩数据,选取实际数据集中的同类的实际数据的一个或多个子集,并利用针对每一类的浓缩数据选取的同类的实际数据的每个子集,对浓缩数据进行相应的优化。
[0122]
可选地,在一些实施例中,数据集浓缩模块414可以被配置为对优化中使用的实际数据和浓缩数据进行可微数据增强操作。
[0123]
在一些实施例中,数据集浓缩模块414可以被配置为利用随机初始化的神经网络的特征层,对优化中使用的实际数据和浓缩数据进行特征提取,随后,使用诸如随机梯度下降之类的方法进行拟合。
[0124]
在一些实施例中,训练装置410可以包括预训练模型获取模块(未例示),以获取预训练的模型。由此,训练模块416可以使用浓缩数据集来训练该预训练的模型,即,执行域适应。
[0125]
在一些实施例中,训练装置410还可以包括模型分发模块418。模型分发模块418被配置为将经训练的模型分发给与获取的实际数据集相关的应用装置。这里,“相关”是指应用装置要利用经训练的模型处理的数据与实际数据集具有相同的分布。
[0126]
可选地,在一些实施例中,训练装置410还可以包括模型压缩模块417。模型压缩模块417被配置为使用模型压缩技术压缩模型。
[0127]
根据本公开的实施例,用于隐私保护的系统400可以包括应用装置420。应用装置420可以被配置为部署执行根据本公开实施例的模型训练方法的步骤得到的经训练的模型,即,由训练装置410得到的经训练的模型,以处理数据。
[0128]
其中,用于得到该经训练的模型的实际数据与待处理数据具有相同的分布。即,应用装置420部署的模型是以与待处理数据具有相同的分布的实际数据集的浓缩数据集作为训练数据得到的。如以上分析的,这有利于提高模型对于实际应用场景的适应性和准确性。
[0129]
特别地,在各种实施例中,应用装置420可以被配置为执行根据本公开实施例的模型部署方法的步骤。
[0130]
在一些实施例中,应用装置420可以被配置为直接采集待处理的数据。或者,在一些实施例中,应用装置420可以被配置从外部装置获取待处理的数据,并对其进行处理。
[0131]
在一些实施例中,系统400还包括数据采集装置430。其中,数据采集装置430可以被配置为采集用于得到应用装置420部署的经训练的模型的实际数据集,并将该实际数据集传送给训练装置。
[0132]
可选地,数据采集装置430可以包括加密子模块4302,以对要传送的实际数据集进行加密。
[0133]
为了使得采集的实际数据尽可能地与待处理的数据具有一致的数据分布,可以将数据采集装置430与应用装置420相关地布置。例如,可以将数据采集装置430与应用装置420布置在相同或相近的位置处。
[0134]
在另一些实施例中,应用装置420还可以被配置为采集用于得到该应用装置部署的经训练的模型的实际数据集,并将该实际数据集传送给训练装置。即,应用装置420所部署的用于处理数据的模型是由其采集的实际数据集的浓缩数据集训练得到的。即,图4中所示的数据采集装置430的相应功能可以由应用装置420实现。
[0135]
或者,在一些实施例中,系统400可以不包括专门的数据采集装置430,而是从系统外部获取实际数据集。
[0136]
图4中例示的系统400可以应用在各种场景下,特别是各类计算机视觉分类任务的业务场景。
[0137]
图5a-5c例示了根据本公开实施例的用于隐私保护的方案的多个应用示例。
[0138]
在图5a所示的示例中,由边缘服务器对包含隐私的图像(即,实际数据集)进行数据集浓缩,并将浓缩后得到的合成图像数据集(即,浓缩数据集)提供给云端进行模型训练,从而有效防止隐私数据泄露。具体地,(一个或多个)图像传感器530将采集的包含隐私的图像传送给边缘服务器520。边缘服务器520对接收到的图像数据集进行数据集浓缩,得到了经数据集浓缩后不包含隐私的合成图像数据集,并将其上传到云端服务器510,以用于模型的训练,从而可以得到去除隐私的模型。可以将相应的模型部署到应用端,以有效防止应用端的隐私数据泄露。
[0139]
在这个示例中,可以使用dm、kip、dsa等的dc算法来进行数据集浓缩。上述算法的计算相对简单,适合算力有限的边缘端。
[0140]
图5b例示了根据本公开实施例的用于隐私保护的方案的另一个应用示例。图5b中例示的示例与图5a中例示的示例的不同之处在于,边缘服务器在对包含隐私的图像(即,实际数据集)进行数据集浓缩后,没有将浓缩后得到的合成图像数据集(即,浓缩数据集)提供给云端,而是直接利用其进行预训练模型的域适应。具体地,(一个或多个)图像传感器530将采集的包含隐私的图像传送给边缘服务器520。此外,边缘服务器520从云端服务器510下载经预训练的模型。边缘服务器520对接收到的图像数据集进行数据集浓缩,得到了经数据集浓缩后不包含隐私的合成图像数据集,并利用其进行预训练模型的域适应,从而可以得到去除隐私的模型。可以将相应的模型部署到应用端,以有效防止应用端的隐私数据泄露。例如,在无人超市中,可以利用本地的边缘服务器来执行数据集浓缩以及域适应。经训练的去除隐私的模型可以被部署在具有推理测试能力的诸如传感器之类的端设备(应用装置)上。
[0141]
在这个示例中,也可以使用dm、kip、dsa等适合边缘端的dc算法来进行数据集浓缩。
[0142]
在图5c所示的示例中,由云端服务器对接收到的包含隐私的图像(即,实际数据集)进行数据集浓缩,并利用浓缩后得到的合成图像数据集(即,浓缩数据集)进行模型训练。具体地,(一个或多个)图像传感器530将采集的包含隐私的图像传送给云端服务器510。
云端服务器510对接收到的图像数据集进行数据集浓缩,得到了经数据集浓缩后不包含隐私的合成图像数据集,并利用其进行模型的训练,从而可以得到去除隐私信息的模型。可以将相应的模型部署到应用端,以有效防止应用端的隐私数据泄露。
[0143]
在这个示例中,不仅可以使用dm,kip,dsa等dc(狭义数据浓缩)算法来进行数据集浓缩。也可以使用计算相对复杂、算力要求较高的各种dd(数据蒸馏)算法。
[0144]
本领域的技术人员应当理解,用于隐私保护的方案的应用不限于以上示例。
[0145]
此外,本领域的技术人员应当理解,虽然图4中仅例示了一个应用装置420,但是应用装置的数量不限于此。例如,在一些实施例中,系统400可以包括多个应用装置420。训练装置410可以向这些应用装置中的每个分发并部署相应的经训练的模型,以处理数据。
[0146]
在一些实施例中,训练装置410可以向这些应用装置420中的每个分发并部署相同的经训练的模型。
[0147]
或者,在一些实施例中,训练装置410可以向这些应用装置420中的至少两个分发并部署不同的经训练的模型。
[0148]
如以上分析地,对于每个应用装置420,用于得到所部署的模型的实际数据与待处理数据具有相同的分布。当多个应用装置420的待处理数据之间具有较大的差异或者应用装置420对模型的精确度要求较高时,可以针对每个应用装置420获取与待处理数据的分布一致的实验数据集并进行相应的数据集浓缩和训练,从而得到特别地适用于该应用装置的专有模型。
[0149]
例如,同一超市内的不同货区的顾客的访问特点可能不尽相同,使得从布置在不同货区的图像传感器采集的顾客数据存在差异。通过在位于某个货区的图像传感器上部署由该货区的顾客数据集的浓缩数据集训练得到的模型,可以提高该图像传感器的处理准确度。
[0150]
此外,可以根据应用装置个体的硬件条件、重要性等来灵活地部署合适的模型。如以上分析的,可以通过设置合适的浓缩数据压缩比以及进行模型压缩来调整向应用装置分发的经训练的模型的运行要求。
[0151]
本技术的发明人认识到,在大数据时代的数据交易市场中,缺少一种对隐私保护和数据质量进行平衡的技术手段。针对这种需求,本发明提供了一种新的方案。具体地,在原始数据提供者(如用户)、数据供应商、数据需求方这三者之间,引入数据浓缩,以根据各国不同的信息保护法规或数据提供者对隐私保护的需求,实现灵活的数据产品交易。
[0152]
在一些实施例中,数据供应商可以针对所供应的每一数据集提供与不同的浓缩率对应的关于隐私保护强度和训练模型性能的信息,并将其存储在相应处理装置(例如计算机)的存储设备中。一般而言,浓缩率越小,隐私保护强度越高,而训练模型性能越低,反之亦然。
[0153]
例如,在一些实施例中,数据供应商可以提供与离散的浓缩率对应的隐私保护强度和训练模型性能的数据列表。或者,在一些实施例中,数据供应商可以提供随浓缩率变化的隐私保护强度和训练模型性能的曲线图。又或者,在一些实施例中,数据供应商可以针对不同的浓缩率提供示例原始数据集及其浓缩数据集,以直观地展现不同浓缩率的隐私保护强度和训练模型性能。本领域技术人员容易理解,具体的方式不限于此。
[0154]
一方面,在一些实施例中,基于应用模型的场景对精度的要求和/或关于隐私保护
的本地信息保护法规等,数据需求方可以自主选择或者被推荐相应的浓缩率以保证相应的训练模型性能和/或隐私保护强度。响应于需求方的选择或者确认,计算机执行对应的数据浓缩处理并生成浓缩数据集。
[0155]
另一方面,在一些实施例中,原始数据提供者也可以指定所提供的原始数据的隐私保护强度要求。数据供应商在收集原始数据时根据原始数据提供者的要求为原始数据指定浓缩率以保证相应的隐私保护强度要求,从而便于后续生成符合指定要求的浓缩数据集。
[0156]
本公开实施例还提供了存储有一个或多个指令的计算机可读存储介质,这些指令可以在由处理器执行时,使处理器执行上述实施例中的模型训练方法或者模型部署方法的步骤。
[0157]
本公开实施例还提供了包括一个或多个指令的计算机程序产品,这些指令可以在由处理器执行时,使处理器执行上述实施例中的模型训练方法或者模型部署方法的步骤。
[0158]
应当理解,根据本公开实施例的计算机可读存储介质中的指令可以被配置为执行与上述系统和方法实施例相应的操作。当参考上述系统和方法实施例时,计算机可读存储介质的实施例对于本领域技术人员而言是明晰的,因此不再重复描述。用于承载或包括上述指令的计算机可读存储介质也落在本公开的范围内。这样的计算机可读存储介质可以包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
[0159]
本公开实施例还提供了包括用于执行上述实施例中的模型训练方法或者模型部署方法的步骤的部件或单元的各种装置。
[0160]
应注意,上述各个部件或单元仅是根据其所实现的具体功能划分的逻辑模块,而不是用于限制具体的实现方式,例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时,上述各个部件或单元可被实现为独立的物理实体,或者也可由单个实体(例如,处理器(cpu或dsp等)、集成电路等)来实现。例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。
[0161]
另外,应当理解,上述系列处理和设备也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图6所示的通用计算机600安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。图6示出了根据本公开实施例的可实现为训练装置、应用装置和系统的计算机的示例框图。
[0162]
在图6中,中央处理单元(cpu)601根据只读存储器(rom)602中存储的程序或从存储部分608加载到随机存取存储器(ram)603的程序执行各种处理。在ram 603中,也根据需要存储当cpu 601执行各种处理等时所需的数据。
[0163]
cpu 601、rom 602和ram 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
[0164]
下述部件连接到输入/输出接口605:输入部分606,包括键盘、鼠标等;输出部分607,包括显示器,比如阴极射线管(crt)、液晶显示器(lcd)等,和扬声器等;存储部分608,包括硬盘等;和通信部分609,包括网络接口卡比如lan卡、调制解调器等。通信部分609经由网络比如因特网执行通信处理。
[0165]
根据需要,驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
[0166]
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。
[0167]
本领域技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者,存储介质可以是rom 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
[0168]
以上参照附图描述了本公开的示例性实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
[0169]
虽然已经详细说明了本公开及其优点,但是应当理解在不脱离由所附的权利要求所限定的本公开的精神和范围的情况下可以进行各种改变、替代和变换。而且,本公开实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0170]
本公开的实施例还包括:
[0171]
1.一种模型训练方法,包括:
[0172]
获取实际数据集;
[0173]
通过在保留实际数据集中的实际数据的主要特征的同时压缩实际数据集的大小,对实际数据集进行数据集浓缩以去除隐私信息;以及
[0174]
使用经数据集浓缩得到浓缩数据集来训练模型。
[0175]
2.根据项目1所述的方法,其中,对实际数据集进行数据集浓缩包括:
[0176]
建立初始的浓缩数据集,其中,所建立的浓缩数据集小于实际数据集;以及
[0177]
对浓缩数据集进行优化,使得浓缩数据集具有实际数据集中的实际数据的主要特征。
[0178]
3.根据项目2所述的方法,其中,对浓缩数据集进行优化是针对每一类的浓缩数据分别进行的。
[0179]
4.根据项目2所述的方法,其中,对浓缩数据集进行优化包括:
[0180]
针对每一类的浓缩数据,选取实际数据集中的同类的实际数据的一个或多个子集;以及
[0181]
利用针对每一类的浓缩数据选取的同类的实际数据的每个子集,对浓缩数据进行相应的优化。
[0182]
5.根据项目2所述的方法,其中,对浓缩数据集进行优化包括:
[0183]
对优化中使用的实际数据和浓缩数据进行可微数据增强操作。
[0184]
6.根据项目2所述的方法,其中,对浓缩数据集进行优化包括:
[0185]
利用随机初始化的神经网络的特征层,对优化中使用的实际数据和浓缩数据进行特征提取。
[0186]
7.根据项目1所述的方法,对实际数据集进行数据集浓缩还包括:
[0187]
根据需求,调整数据集浓缩的浓缩率。
[0188]
8.根据项目1所述的方法,其中,所述方法还包括:
[0189]
获取预训练的模型,并且
[0190]
在使用浓缩数据集来训练模型中,训练所述预训练的模型。
[0191]
9.根据项目1所述的方法,其中,所述方法还包括:
[0192]
判断获取的实际数据集中是否包含隐私信息,以及
[0193]
在对实际数据集进行数据集浓缩中,仅对包含隐私信息的实际数据集进行数据集浓缩。
[0194]
10.根据项目1所述的方法,其中,所述方法还包括:
[0195]
对经训练的模型进行模型压缩。
[0196]
11.根据项目1所述的方法,其中,所述方法还包括:
[0197]
将经训练的模型分发给与获取的实际数据集相关的应用装置。
[0198]
12.一种模型部署方法,包括:
[0199]
部署执行根据项目1-11中任一项所述的方法得到的经训练的模型,以处理数据,
[0200]
其中,用于得到所述经训练的模型的实际数据与待处理数据具有相同的分布。
[0201]
13.一种训练装置,包括:
[0202]
数据获取模块,被配置为获取实际数据集;
[0203]
数据集浓缩模块,被配置为通过在保留实际数据集中的实际数据的主要特征的同时压缩实际数据集的大小,对实际数据集进行数据集浓缩以去除隐私信息;以及
[0204]
训练模块,被配置为使用经数据集浓缩得到浓缩数据集来训练模型。
[0205]
14.根据项目13所述的装置,其中,数据集浓缩模块被配置为:
[0206]
建立初始的浓缩数据集,其中,所建立的浓缩数据集小于实际数据集;以及
[0207]
对浓缩数据集进行优化,使得浓缩数据集具有实际数据集中的实际数据的主要特征。
[0208]
15.一种应用装置,包括处理设备,所述处理设备被配置为执行根据项目12所述方法的步骤。
[0209]
16.一种用于隐私保护的系统,包括:
[0210]
根据项目13-14中任一项所述的训练装置;以及
[0211]
应用装置,被配置为部署由训练装置得到的经训练的模型,以处理数据,
[0212]
其中,用于得到经训练的模型的实际数据与待处理数据具有相同的分布。
[0213]
17.根据项目16所述的系统,其中,应用装置还被配置为采集用于得到该应用装置部署的经训练的模型的实际数据集,并将该实际数据集传送给训练装置。
[0214]
18.根据项目16所述的系统,还包括数据采集装置,被配置为采集用于得到应用装置部署的经训练的模型的实际数据集,并将该实际数据集传送给训练装置。
[0215]
19.一种计算机可读存储介质,其上存储有一个或多个指令,所述指令在由处理器
执行时,使处理器执行根据项目1-11中任一项所述方法的步骤和/或根据项目12所述方法的步骤。
[0216]
20.一种计算机程序产品,包括一个或多个指令,所述指令在由处理器执行时,使处理器执行根据项目1-11中任一项所述方法的步骤和/或根据项目12所述方法的步骤。
[0217]
21.一种产生模型的方法,包括执行根据项目1-11中任一项所述方法的步骤来产生模型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1