一种数据处理方法、装置、设备及存储介质与流程

文档序号:31842763发布日期:2022-10-18 23:00阅读:35来源:国知局
一种数据处理方法、装置、设备及存储介质与流程

1.本技术涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。


背景技术:

2.人类如今已经进入了数据的时代,数据渗透在每一个行业和业务职能领域,成为重要的生产要素。在现实生活中,有很多机构的数据需要定期对外发布,如医疗数据、交通数据、政务数据等。这些数据包含着大量的个人隐私信息,一旦泄露将会带来不可估量的损失。在数据发布领域,为了防止隐私数据完全对外公开,数据发布机构通常采取一定的隐私保护技术手段隐藏用户的敏感属性。处理后的数据是否还会泄露隐私,隐私量有多大,对数据可用性造成多大的影响,这些问题是影响数据发布的关键因素。如若不能有效度量隐私及数据效用,将会面临有数据不敢发布的困境。然而,如果不对数据进行发布则会导致数据资源开放共享程度低、数据价值难以被有效挖掘利用,因此量化数据隐私和数据效用之间的权衡是一个需要解决的挑战。


技术实现要素:

3.本技术提供一种数据处理方法、装置、设备及存储介质,基于数据的元数据进行隐私计算,确定数据对应的输出数据,平衡了数据隐私和数据效用之间的关系。
4.第一方面,本技术实施例公开了一种数据处理方法,该方法包括:
5.获取待处理数据以及与待处理数据相关联的预定义知识库;
6.确定待处理数据的元数据;
7.基于预定义知识库,从元数据中确定包含至少一个预设属性的数据索引范围;
8.对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合;
9.根据数据存储集合生成数据索引信息;
10.根据数据索引信息,确定待处理数据所对应的输出数据。
11.进一步的,对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合,包括:
12.确定至少一个预设属性各自所对应的数值区域;
13.按照预定义规则将至少一个预设属性各自所对应的数值区域划分为至少一个存储数据集;
14.根据存储数据集,生成至少一个预设属性对应的数据存储集合。
15.进一步的,根据数据存储集合生成数据索引信息,包括:
16.在存储数据集中确定至少一个目标存储数据集;
17.根据至少一个目标存储数据集生成数据索引信息。
18.进一步的,根据数据索引信息,确定待处理数据所对应的输出数据,包括:
19.根据数据索引信息对待处理数据进行数据统计,得到数据统计结果;
20.根据数据统计结果,确定待处理数据对应的输出数据。
21.进一步的,根据数据统计结果,确定待处理数据对应的输出数据,包括:
22.获取预定义的隐私阈值;
23.基于隐私阈值和统计结果确定匿名指数;
24.在匿名指数小于预设值的情况下,将统计结果对应的实体数据采用屏蔽数据进行替换,得到替换后的数据;
25.确定替换后的数据为待处理数据所对应的输出数据。
26.进一步的,确定替换后的数据为待处理数据所对应的输出数据,方法还包括:
27.根据替换后的数据,确定更新数据索引信息;
28.根据更新数据索引信息对输出数据进行数据统计,得到更新数据统计结果;
29.根据更新数据统计结果,确定输出数据对应的更新输出数据。
30.进一步的,获取待处理数据以及与待处理数据相关联的预定义知识库之前,方法还包括:
31.获取多个数据源分别发布的边缘数据,不同数据源所发布的边缘数据之间存在关联关系;
32.将多个数据源分别发布的边缘数据聚合为待处理数据。
33.第二方面,本技术实施例公开了一种数据处理装置,装置包括:
34.获取模块,用于获取待处理数据以及与待处理数据相关联的预定义知识库;
35.元数据确定模块,用于确定待处理数据的元数据;
36.数据索引范围模块,用于基于预定义知识库,从元数据中确定包含至少一个预设属性的数据索引范围;
37.数据索引范围划分模块,用于对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合;
38.数据索引信息生成模块,用于根据数据存储集合生成数据索引信息;
39.输出数据确定模块,用于根据数据索引信息,确定待处理数据所对应的输出数据。
40.在一些可选的实施方式中,数据索引范围划分模块包括:
41.数值区域确定单元,用于确定至少一个预设属性各自所对应的数值区域;
42.数值区域划分单元,用于按照预定义规则将至少一个预设属性各自所对应的数值区域划分为至少一个存储数据集;
43.数据存储集合生成单元,用于根据存储数据集,生成至少一个预设属性对应的数据存储集合。
44.在一些可选的实施方式中,数据索引信息生成模块包括:
45.目标存储数据集确定单元,用于在存储数据集中确定至少一个目标存储数据集;
46.数据索引信息生成单元,用于根据至少一个目标存储数据集生成数据索引信息。
47.在一些可选的实施方式中,输出数据确定模块包括:
48.数据统计结果确定单元,用于根据数据索引信息对待处理数据进行数据统计,得到数据统计结果;
49.输出数据确定单元,用于根据数据统计结果,确定待处理数据对应的输出数据。
50.在一些可选的实施方式中,输出数据确定单元包括:
51.隐私阈值获取子单元,用于获取预定义的隐私阈值;
52.匿名指数确子定单元,用于基于隐私阈值和统计结果确定匿名指数;
53.数据替换子单元,用于在匿名指数小于预设值的情况下,将统计结果对应的实体数据采用屏蔽数据进行替换,得到替换后的数据;
54.输出数据确定子单元,用于确定替换后的数据为待处理数据所对应的输出数据。
55.在一些可选的实施方式中,该装置还包括:
56.数据索引信息更新模块,用于根据替换后的数据,确定更新数据索引信息;
57.更新数据统计结果确定模块,用于根据更新数据索引信息对输出数据进行数据统计,得到更新数据统计结果;
58.更新输出数据确定模块,用于根据更新数据统计结果,确定输出数据对应的更新输出数据。
59.在一些可选的实施方式中,该装置还包括:
60.边缘数据获取模块,用于获取多个数据源分别发布的边缘数据,不同数据源所发布的边缘数据之间存在关联关系;
61.数据聚合模块,用于将多个数据源分别发布的边缘数据聚合为待处理数据。
62.第三方面,本技术实施例公开了一种电子设备,设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行如上所述的数据处理方法。
63.第四方面,本技术实施例公开了一种计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的数据处理方法。
64.本技术实施例提供的技术方案具有如下技术效果:
65.该数据处理方法,通过对数据的元数据进行处理确定出数据的索引范围,然后再基于数据索引信息对数据进行处理,从而确定输出数据。该方案通过差异化隐私的方法,不通过具体明细数据,形成相关的统计数据,并针对具体数据采用非隐私方式进行展现,确保给定查询的结果不会受到单个记录的存在或不存在的影响。此外,差异隐私还降低了数据对潜在攻击者的吸引力,并有助于防止他们连接来自多个平台的个人数据。
附图说明
66.为了更清楚地说明本技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
67.图1是本技术实施例提供的一种数据处理方法应用环境的示意图;
68.图2是本技术实施例提供的一种数据处理方法的流程示意图;
69.图3是本技术实施例提供的一种数据处理装置的结构示意图;
70.图4是本技术实施例提供的一种数据处理方法的服务器的硬件结构框图。
具体实施方式
71.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
72.需要说明的是,本技术实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
73.为了使本技术实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术实施例,并不用于限定本技术实施例。
74.以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
75.在这个全球化时代,组织可能需要与业务伙伴发布相关的数据以保持竞争力。这使个人隐私处于危险之中。同时,今天人们对智能手机和平板电脑的依赖是巨大的。这些设备由于可以执行大量操作而包含大量个人信息。人们访问他们的银行账户、进行购买和支付账单,使此类设备成为网络犯罪分子的潜在目标。行为方面也增加了隐私风险。人们并不总是知道谁在跟踪他们以及如何使用跟踪的信息。为了克服隐私风险,传统上,可以通过随机值去除或抑制清楚识别个人的属性,例如姓名、社会安全号码、驾驶执照号码等。然而,当数据中的某些值或其组合可能与外部知识相关联时,这些被抑制的个人属性则可能会被组合识别出来。因此,当来自分布式来源的数据被链接时,必须考虑隐私威胁。
76.有鉴于此,本技术实施例提供了一种数据处理方法,通过连接多个数据源所发布的数据构成待处理数据,通过对待处理数据进行隐私计算,确定出输出数据,以确保输出的数据不会泄露任何隐私属性。
77.请参阅图1,图1是本技术实施例提供的一种数据处理方法应用环境的示意图,如图1所示,该应用环境可以包括数据处理服务器。
78.本技术实施例中,该数据处理服务器可以与一个或多个数据源连接,从而可以获得这些数据源所发布的数据。数据处理服务器可以对数据源所发布的数据进行隐私计算处理得到相应的输出数据。可选的,该数据处理服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
79.以下介绍本技术一种方法的具体实施例,图2是本技术实施例提供的一种数据处理方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该数据处理方法可以包括:
80.s201:获取待处理数据以及与待处理数据相关联的预定义知识库。
81.本技术实施例中,待处理数据可以包括一个数据源所发布的数据,也可以包括多个数据源所发布的边缘数据。边缘数据指的是单一数据源所发布的无隐私泄露风险的数据,但通过数据聚合技术将这些数据聚合后,对聚合后的数据进行挖掘可以获得涉及隐私的数据。作为一种可选的实施方式,待处理数据包括多个数据源所发布的边缘数据。数据处理服务器获取多个数据源分别发布的边缘数据,不同数据源所发布的边缘数据之间存在关联关系,然后将多个数据源分别发布的边缘数据聚合为待处理数据。边缘数据之间的关联关系可以是不同边缘数据中,存在一个至多个相同属性所对应的数据。
82.本技术实施例中,预定义知识库为数据匿名化的标准,用于识别待处理数据中需要进行匿名化处理的数据属性。预定义知识库可以基于某个具体领域中先验的知识确定。例如,对于医疗领域来说,医疗数据中的姓名、年龄、邮政编码等数据涉及个人识别信息,属于需要进行匿名化处理的数据属性,则根据相应的预定义知识库可以将姓名、年龄、邮政编码等数据属性识别出来。
83.s203:确定待处理数据的元数据。
84.本技术实施例中,元数据为描述数据的数据。在获得待处理数据后,可以对待处理数据进行信息提取,从而得到待处理数据的元数据。
85.s205:基于预定义知识库,从元数据中确定包含至少一个预设属性的数据索引范围。
86.本技术实施例中,基于预定义知识库,从元数据中识别出一个至多个预设属性,并基于这些预设属性构建数据搜索空间,即数据索引范围。例如,预设属性可以包括当前财政年度的纳税、心率、位置信息、姓名、地址、社交账号、银行账号、护照信息、医疗保健相关信息、信用卡和借记卡号码、驾照和省份身份证信息、医疗保险信息、学生信息等。包含此类预设属性的数据如果以原始形式传播,可能会导致数据隐私泄露。元数据中描述这类预设属性的方式包括但不仅限于二进制字符、分类描述信息、数字以及描述性文本中的一个或多个。
87.需要说明的是,预设属性指的是可能涉及个人识别信息或隐私数据的数据属性。隐私数据不仅包括一般意义中个体的隐私数据,还可以包括数据发布者不愿被他人所获取的其他数据。
88.s207:对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合。
89.本技术实施例中,数据索引范围可以划分为一个至多个数据存储集合,每个数据存储集合中包括一个至多个存储数据集。可选的,每个数据存储集合对应于一个或多个预设属性。
90.作为一种可选的实施方式,对数据索引范围进行划分,得到至少一个预设属性对
应的数据存储集合可以包括:数据处理服务器确定至少一个预设属性各自所对应的数值区域,然后按照预定义规则将至少一个预设属性各自所对应的数值区域划分为至少一个存储数据集,最后根据存储数据集,生成至少一个预设属性对应的数据存储集合。数值区域可以是预定义的数值范围或预定义的上限与下限中的一个。可选的,数值范围或上限与下限为基于预设属性来确定。也就是说,数据处理服务器通过确定每个预设属性所对应的数值区域,通过对数值区域进行划分得到一个至多个存储数据集,然后把每个预设属性所对应的存储数据集作为一个数据存储集合。对数值区域进行划分可以是平均划分,也可以是按照数据的分布密度进行划分等。在一些实施例中,预设属性也可以与数据存储集合不必严格的一一对应,也可以是多个预设属性对应于一个数据存储集合。
91.作为一种示例,假设一个包含年龄、性别和区域行政编码三种数据属性的待处理数据集。当预设属性为年龄时,在其数值范围为0-60的情况下,该数值范围可以划分为[0-10]、[10-20]、[20-30]、[30-40]、[40-50]以及[50-60]六个存储数据集,这六个存储数据集构成了年龄数据存储集合。作为另一种示例,当属性为性别时,其数值范围可以是0和1(假设0表示女性,1表示男性),则上述数值范围可以划分为0和1两个存储数据集,这两个存储数据集构成了性别数据存储集合。作为又一种示例,当预设属性为邮政编码时,在其数值范围为0-999999的情况下,该数值范围可以划分为[0-199999]、[200000-399999]、[400000-599999]、[600000-799999]、[800000-999999]五个存储数据集,这五个存储数据集构成了邮政编码数据存储集合。
[0092]
本技术实施例中,每个数据实体都可以用数据索引格式进行表示。例如在上述示例中,年龄数据存储集合包括六个存储数据集,则这六个存储数据集可以依次表示为r1age,r2age,r3age,r4age,r5age,r6age。同样的,性别数据存储集合包括两个存储数据集,则这两个存储数据集可以表示为r1gender,r2gender,其中r1gender表示女性,r2gender表示男性。邮政编码数据存储集合包括五个存储数据集,则这五个存储数据集可以依次表示为r1zipcode,r2zipcode,r3zipcode,r4zipcode,r5zipcode。对于一个年龄在20到30岁之间,性别为女性,邮政编码在600000至799999之间的数据实体,其数据索引格式可以表示为3,1,4。将数据实体用索引格式表示可以确定每个数据实体所在的存储数据集,而且也可以很方便的确定每个存储数据集中的数据实体的数量。
[0093]
s209:根据数据存储集合生成数据索引信息。
[0094]
本技术实施例中,根据数据存储集合可以生成数据索引信息,数据索引信息用于确定某个数据实体在哪个存储数据集中,以及某个存储数据集中包括多少个数据实体。可选的,数据索引信息可以是对手模型。通过对手模型对待处理数据进行挖掘,从而确定出哪些数据实体存在泄漏风险。作为一种可选的实施方式,数据处理服务器在存储数据集中确定至少一个目标存储数据集,然后根据至少一个目标存储数据集生成数据索引信息。具体的,数据处理服务器随机在所有的数据存储集合中选择一个数据存储集合作为目标数据存储集合,然后在该目标数据存储集合中随机选择一个或多个存储数据集作为目标存储数据集,然后将该目标存储数据集作为数据索引信息对待处理数据进行索引,从而确定出目标存储数据集中的数据实体的数量。作为一种示例,针对上述示例中的存储数据集,数据索引信息可以为年龄为[20-30],或者数据索引信息为性别为男性,或者数据索引信息为邮政编码为[600000-799999]等。当然,数据存储服务器也可以随机在所有的数据存储集合中选择
两个或两个以上的数据存储集合作为目标数据存储集合,然后在这两个或两个以上的目标数据存储集合中分别随机选择一个或多个存储数据集作为目标存储数据集,然后将这些目标存储数据集作为数据索引信息。对于两个或两个以上的目标数据存储集合中,每个目标数据存储集合中都可以随机选择一个或多个存储数据集作为目标存储数据集。作为一种示例,针对上述示例中的存储数据集,数据索引信息可以为年龄为[20-30],且性别为男性,且邮政编码为[600000-799999]等。
[0095]
s211:根据数据索引信息,确定待处理数据所对应的输出数据。
[0096]
本技术实施例中,根据数据索引信息来确定数据实体可能泄露的风险,从而对可能泄露的数据进行处理得到待处理数据所对应的输出数据。
[0097]
作为一种可选的实施方式,数据处理服务器根据数据索引信息对待处理数据进行数据统计,得到数据统计结果,然后根据数据统计结果,确定待处理数据对应的输出数据。数据处理服务器在确定待处理数据对应的输出数据时,需要获取预定义的隐私阈值,然后基于隐私阈值和统计结果确定匿名指数。在匿名指数小于预设值的情况下,将统计结果对应的实体数据采用屏蔽数据进行替换,得到替换后的数据,进而数据处理服务器确定替换后的数据为待处理数据所对应的输出数据。具体的,数据处理服务器根据数据索引信息所确定的数据信息为数据实体的统计信息,即落在数据索引信息中的实体的数量。如果数据索引信息所索引到的数据实体的数量较多,则对于每个数据实体而言其泄露的风险越小。相应的,如果数据索引信息所索引到的数据实体较多,则对于每个数据实体而言,其泄露的风险越大。对于数据实体的泄露风险,可以使用匿名指数来进行表征,匿名指数的计算公式为:a=c/v,其中,a为匿名指数,c为数据实体数量,v为隐私阈值。由于不同的数据属性对匿名性的需求不同,因此,隐私阈值可以根据不同的预设属性或不同的预设属性的组合进行设置。通过计算得到数据索引信息所索引到的数据实体的匿名指数后,判断匿名指数是否小于预设值。可选的,预设值可以为1,也可以为其他数值,可以根据实际需求进行设置。当匿名指数小于1时,则表明数据索引信息所索引到的数据实体存在泄漏的风险,因此需要对这些数据进行匿名化处理。可选的,数据索引信息所索引到的数据实体数据进行匿名化处理可以是,通过预定义字符对这些数据实体进行替换。具体来说,可以将数据索引信息所索引到的数据实体作为一个单独的数据处理集合,然后再采用预定义字符或字符串生成一个屏蔽数据集合,使用屏蔽数据集合将数据处理集合替换掉,从而得到替换后的数据,数据处理服务器确定替换后的数据为待处理数据所对应的输出数据。可选的,预定义字符包括但不仅限于数字、字母、符号、文字或绘文字中一种或多种的组合。在一些实施方式中,也可以采用预定义字符直接将数据索引信息所索引到的数据实体数据进行一一替换,从而得到替换后的数据,数据处理服务器确定替换后的数据为待处理数据所对应的输出数据。
[0098]
作为一种示例,假设数据索引信息如下:年龄在20到30岁之间,性别为女性,邮政编码在600000至799999之间。将所有数据实体绘制在一个数据索引范围中,该数据搜索范围包括年龄、性别和邮政编码三个数据存储集合。然后,根据数据索引信息在上述数据搜索范围内对数据实体进行索引。如果该数据索引信息索引到多个数据实体,由于每个数据实体出现的可能性都是相同的,所以该数据索引信息并不能识别特定的人。如果该数据索引信息索引到很少的数据实体,比如1个,那么这个数据实体则有很大的泄露风险,此时,需要采用预定义字符将该数据实体替换掉,从而保护该数据实体的隐私安全。
[0099]
需要说明的是,仅对一个数据索引信息所索引到的数据实体进行匿名化处理显然并不能完全保证待处理数据的隐私安全,因此需要采用多个数据索引信息来对待处理数据进行索引,确定出存在泄漏风险的数据实体,然后再将这些数据实体进行一一替换,从而可以确保待处理数据对应的最终所输出数据的隐私安全性。
[0100]
本技术实施例中,确定替换后的数据为待处理数据所对应的输出数据之后,数据处理服务器根据替换后的数据,确定更新数据索引信息,然后根据更新数据索引信息对输出数据进行数据统计,得到更新数据统计结果,最后根据更新数据统计结果,确定输出数据对应的更新输出数据。
[0101]
作为一种可选的实施方式,数据处理服务器确定更新数据索引信息可以是,在前述生成数据索引信息时,可以一次性生成多个数据索引信息,然后再从这些数据索引信息中选出一个对待处理数据进行数据统计,而其余数据索引信息作为更新数据索引信息对替换后的数据进行数据统计。换句话来说,就是将一次性生成的数据索引信息逐个对待处理数据进行数据统计,在某个数据索引信息索引到的数据实体的匿名指数小于预设值时,采用屏蔽数据结合对这些实体数据进行替换,然后再使用下一个数据索引信息对替换后的数据继续进行数据统计,直至所有的数据索引信息所统计的数据实体的数量均满足数据匿名化需求。
[0102]
作为另一种可选的实施方式,数据处理服务器确定更新数据索引信息可以是,对于待处理数据对应的替换后的数据,数据处理服务器重新提取元数据,然后根据重新提取的元数据重新确定包含至少一个预设属性的数据索引范围,并对重新确定的数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合。然后对重新确定的数据存储集合生成数据索引信息作为更新数据索引信息,并基于该更新数据索引信息对替换后的数据进行数据统计。同样的,对于更新数据索引信息所索引到的数据实体的数量,通过计算其匿名指数,确定这些数据实体是否满足数据匿名化需求,即这些数据实体的匿名指数是否小于预设值,如果小于,则表明这些数据存在隐私泄露的风险,需要对这些数据实体进行匿名化处理,即数据替换,得到替换后的数据,进而数据处理服务器确定替换后的数据为待处理数据所对应的输出数据。如此直至最后所输出的待处理数据所对应的输出数据,进过任何数据索引信息所索引到的数据实体的数量均满足数据匿名化需求。
[0103]
本技术实施例中,数据处理服务器得到待处理数据所对应的输出数据后,还可以对匿名化处理后的数据进行净化处理。可选的,对匿名化处理后的数据进行净化处理技术包括但不仅限于隐私等级屏蔽技术、基于隐私数据分析技术、聚类技术。此外,也可以使用数据挖掘技术对待处理数据所对应的输出数据进行处理,使处理后的数据进行数据存储集合划分后,每个数据存储集合中具有平衡的实体计数,即得到数据平衡集合。可选的,数据处理服务器得到获得数据平衡集合后,还可以计算基于数据平衡集合中点和隐私数据的确定指数,以及基于平衡前的数据存储集合和数据平衡集合之间的变化数量计算这两个集合所对应的预设属性的变化情况。
[0104]
本技术实施例中,对于数据处理服务器得到待处理数据所对应的输出数据,还可以进行进一步的处理,使其符合一个或多个数据购买者的要求。此外,还可以针对输出数据的生成数据评估报告,以评估输出数据的隐私安全以及数据效用。
[0105]
本技术实施例所述的数据处理方法,形成的相关服务既可以部署到中心也可以部
署到边缘节点。对数据访问后通过统计数据而不通过具体明细数据,形成相关的统计数据,并针对具体数据采用非隐私方式进行展现,确保给定查询的结果不会受到单个记录的存在或不存在的影响。而且差异隐私还降低了数据对潜在攻击者的吸引力,并有助于防止他们连接来自多个平台的个人数据。
[0106]
本技术实施例还提供了一种数据处理装置,图3是本技术实施例提供的一种数据处理装置的结构示意图,如图3所示,该装置包括:
[0107]
获取模块301,用于获取待处理数据以及与待处理数据相关联的预定义知识库;
[0108]
元数据确定模块303,用于确定待处理数据的元数据;
[0109]
数据索引范围模块305,用于基于预定义知识库,从元数据中确定包含至少一个预设属性的数据索引范围;
[0110]
数据索引范围划分模块307,用于对数据索引范围进行划分,得到至少一个预设属性对应的数据存储集合;
[0111]
数据索引信息生成模块309,用于根据数据存储集合生成数据索引信息;
[0112]
输出数据确定模块311,用于根据数据索引信息,确定待处理数据所对应的输出数据。
[0113]
在一些可选的实施方式中,数据索引范围划分模块包括:
[0114]
数值区域确定单元,用于确定至少一个预设属性各自所对应的数值区域;
[0115]
数值区域划分单元,用于按照预定义规则将至少一个预设属性各自所对应的数值区域划分为至少一个存储数据集;
[0116]
数据存储集合生成单元,用于根据存储数据集,生成至少一个预设属性对应的数据存储集合。
[0117]
在一些可选的实施方式中,数据索引信息生成模块包括:
[0118]
目标存储数据集确定单元,用于在存储数据集中确定至少一个目标存储数据集;
[0119]
数据索引信息生成单元,用于根据至少一个目标存储数据集生成数据索引信息。
[0120]
在一些可选的实施方式中,输出数据确定模块包括:
[0121]
数据统计结果确定单元,用于根据数据索引信息对待处理数据进行数据统计,得到数据统计结果;
[0122]
输出数据确定单元,用于根据数据统计结果,确定待处理数据对应的输出数据。
[0123]
在一些可选的实施方式中,输出数据确定单元包括:
[0124]
隐私阈值获取子单元,用于获取预定义的隐私阈值;
[0125]
匿名指数确子定单元,用于基于隐私阈值和统计结果确定匿名指数;
[0126]
数据替换子单元,用于在匿名指数小于预设值的情况下,将统计结果对应的实体数据采用屏蔽数据进行替换,得到替换后的数据;
[0127]
输出数据确定子单元,用于确定替换后的数据为待处理数据所对应的输出数据。
[0128]
在一些可选的实施方式中,该装置还包括:
[0129]
数据索引信息更新模块,用于根据替换后的数据,确定更新数据索引信息;
[0130]
更新数据统计结果确定模块,用于根据更新数据索引信息对输出数据进行数据统计,得到更新数据统计结果;
[0131]
更新输出数据确定模块,用于根据更新数据统计结果,确定输出数据对应的更新
输出数据。
[0132]
在一些可选的实施方式中,该装置还包括:
[0133]
边缘数据获取模块,用于获取多个数据源分别发布的边缘数据,不同数据源所发布的边缘数据之间存在关联关系;
[0134]
数据聚合模块,用于将多个数据源分别发布的边缘数据聚合为待处理数据。
[0135]
本技术实施例所述的数据处理装置与数据处理方法实施例基于同样地申请构思,关于数据处理装置的具体实施情况,请参考上述关于数据处理方法全部实施方式。
[0136]
本技术实施例还提供了一种电子设备,设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行如上所述的数据处理方法。
[0137]
本技术实施例所提供的数据处理方法方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图4是本技术实施例提供的一种数据处理方法的服务器的硬件结构框图。如图4所示,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)410(处理器410可以包括但不限于微处理器mcu或可编程逻辑器件(fieldprogrammablegatearray,fpga)等的处理装置)、用于存储数据的存储器430,一个或一个以上存储应用程序423或数据422的存储介质420(例如一个或一个以上海量存储设备)。其中,存储器430和存储介质420可以是短暂存储或持久存储。存储在存储介质420的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器410可以设置为与存储介质420通信,在服务器400上执行存储介质420中的一系列指令操作。服务器400还可以包括一个或一个以上电源460,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口440,和/或,一个或一个以上操作系统421,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0138]
输入输出接口440可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器400的通信供应商提供的无线网络。在一个实例中,输入输出接口440包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口440可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
[0139]
本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器400还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
[0140]
本技术实施例还提供了一种计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的数据处理方法。
[0141]
本技术实施例中,上述计算机存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选的,该计算机可读存储介质可以包括:只读存储器(readonlymemory,rom)、随机存取记忆体(randomaccessmemory,ram)、固态硬盘(solidstatedrives,ssd)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(resistancerandomaccessmemory,reram)和动态随机存取存储器
(dynamicrandomaccessmemory,dram)。
[0142]
需要说明的是:上述本技术实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0143]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0144]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0145]
以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1