不泄露隐私的大数据安全融合方法

文档序号:9826381阅读:1147来源:国知局
不泄露隐私的大数据安全融合方法
【技术领域】
[0001 ]本发明涉及一种大数据安全融合方法。
【背景技术】
[0002]随着国家“互联网+”战略的出台,各产业之间的大数据融合需求愈发迫切。然而,一方面,不同的机构对于大数据共享持欢迎的态度,引入不同类型数据的融合可以产生新的分析结果,数据价值将因此产生乘数效应;另一方面,双方对于在数据融合的过程中隐私数据的泄露存在担忧,因为最终的分析结果往往只是一个统计性结论,而在大数据融合计算的过程中却不得不将数据所有的条目细节都暴露于对方。该问题已经成为产业间大数据协作与共享的一大障碍。
[0003]因此,本领域技术人员期望获得一种有效屏蔽隐私数据的、可靠的大数据安全融合方法。

【发明内容】

[0004]本发明的一个目的在于提供一种有效屏蔽隐私数据的大数据安全融合方法。
[0005]为实现上述目的,本发明提供一种技术方案如下:
一种大数据安全融合方法,用于将第一方存储的第一数据集与第二方存储的第二数据集进行融合,该方法包括如下步骤:a)、第一方与第二方就关联字段、各自所需的数据项以及排序规则进行协商;b)、基于各自所需的数据项分别从第一数据集、第二数据集中筛选出第一待融合数据集、第二待融合数据集;C)、依据排序规则分别对第一待融合数据集、第二待融合数据集进行排序,并将关联字段对应的数据分别从第一待融合数据集、第二待融合数据集中剔除;d)、第一方、第二方分别将第一待融合数据集、第二待融合数据集提交到第三方计算平台,以形成已融合数据集;e)、第三方计算平台对已融合数据集进行分析计算,生成结果数据集。
[0006]优选地,第三方计算平台分别独立于第一方以及第二方。
[0007]优选地,在分析计算完成后,将第一待融合数据集、第二待融合数据集从计算系统中删除。
[0008]本发明实施例提供的大数据安全融合方法,在实现大数据融合的同时,有效防止隐私数据的泄露,在确保数据安全的前提下促进了信息的共享,拓宽了大数据融合技术的应用广度和深度。此外,上述大数据安全融合方法实施简单、实现成本低,利于在业内推广应用。
【附图说明】
[0009]图1示出本发明第一实施例提供的大数据安全融合方法的流程示意图。
【具体实施方式】
[0010]需要说明的是,依照本发明所公开的各实施例,第一方在第一数据库中存储第一数据集,第二方在第二数据库中存储第二数据集。
[0011]第一、第二数据集分别记录不同的信息,例如多个用户分别在不同场合的活动信息。第一、第二数据集具有信息的交集,例如,用户的身份信息,其可以提取出来作为关联字段。
[0012]本发明提供对第一、第二数据集进行大数据融合的各种实施方式。
[0013]如图1所示,本发明第一实施例提供一种大数据安全融合方法,其包括如下步骤:步骤S10、第一方与第二方就关联字段、各自所需的数据项以及排序规则进行协商。
[0014]具体地,第一方与第二方进行协商会话,并就关联字段、各自所需的数据项以及排序规则达成一致。
[0015]各自所需的数据项包括第一方期望在数据融合中从第二方间接获得的数据项,以及第二方期望在数据融合中从第一方间接获得的数据项。通过各自所需的数据项,在协商会话中可以确定第一方、第二方分别关心哪些用户的相关信息,并进一步就这些用户的身份信息达成一致。
[0016]关联字段能够表示第一、第二数据集中的信息交集部分,其可直接取自下列信息中的任一个或多个:用户的身份信息;用户的所持卡信息;和/或,唯一地确定用户的其他标识信息。
[0017]排序规则确定在后续的融合过程中,按照何种顺序来对具体的待融合数据集进行排序。一旦确定,这种排序规则不能被随意改变,除非通过再次的协商会话进行变更。依照所确定的排序规则进行排序,第一、第二待融合数据集中各数据项之间的对应关系也能够被确定。
[0018]协商会话可以由第一方或第二方发起,另一方进行响应。或者,协商会话可以由不同于第一方和第二方的一个独立的实体模块来发起,第一方、第二方收到指令后,直接进行协商会话,协商会话完成后,通知该实体模块。
[0019]步骤S20、基于各自所需的数据项分别从第一数据集、第二数据集中筛选出第一待融合数据集、第二待融合数据集。
[0020]具体地,基于协商会话所确定的各自所需的数据项,可以从第一数据集中筛选出第一待融合数据集,以及从第二数据集中筛选出第二待融合数据集。可以理解,第一待融合数据集与第二待融合数据集具有数量相同的数据项,且第一待融合数据集中的每个数据项都能够在第二待融合数据集中找到与之对应的数据项,反之亦然。
[0021]步骤S30、依据排序规则分别对第一待融合数据集、第二待融合数据集进行排序,并将关联字段对应的数据分别从第一待融合数据集、第二待融合数据集中剔除。
[0022 ]该步骤S30具体包括排序步骤和剔除步骤。
[0023]依照一种具体实现,排序步骤可以包括:第一方、第二方分别依据排序规则对第一待融合数据集、第二待融合数据集进行排序。
[0024]剔除步骤可以包括:第一方、第二方分别将关联字段对应的数据分别从第一待融合数据集、第二待融合数据集中剔除。
[0025]通过执行剔除步骤,第一、第二待融合数据集不再包括用户身份信息,从而有效地屏蔽了隐私信息;而通过执行排序步骤,第一、第二待融合数据集中的数据项之间已具有明确的对应关系。
[0026]步骤S40、第一方、第二方分别将第一待融合数据集、第二待融合数据集提交到第三方架设的计算平台,以形成已融合数据集。
[0027]具体地,第一方将执行排序步骤和剔除步骤之后得到的第一待融合数据集通过专用通信线路提交到第三方架设的计算平台,同时,第二方执行类似操作。其中,第三方计算平台分别独立于第一方以及第二方。
[0028]随后,依照执行上述排序步骤所得到的先后顺序,将第一待融合数据集中的数据项与第二待融合数据集中的数据项一一对应地进行结合来生成新的数据项,进而形成已融合数据集。
[0029]所形成的已融合数据集同时包括来自第一方的用户活动信息以及来自第二方的用户活动信息,但不包括用户身份信息,因此,对第三方来说,其无法获知是哪个用户进行了这些活动。
[0030]步骤S50、第三方计算平台对已融合数据集进行分析计算,生成结果数据集。
[0031]通过该步骤S50,第三方计算平台可以对已融合数据集进行分析计算,生成结果数据集,结果数据集可以是分析统计的结果,其完全不同于第一、第二待融合数据集。结果数据集可以反馈给第一方、第二方,而第一方、第二方从结果数据集无法还原出原始数据。
[0032]进一步地,在上述分析计算完成后,第三方计算平台可以删除第一待融合数据集、第二待融合数据集,从而更有利于保护数据的安全性与隐私性。
[0033]该实施例所提供的大数据安全融合方法,在实现大数据融合的同时,屏蔽了用户的身份信息,从而有效防止隐私数据的泄露。这种大数据融合方法安全可靠,实现简单。
[0034]根据上述实施例进一步改进的实现方式,在步骤SlO中还可以包括:第一方向第二方提出第一数据集中涉及用户隐私信息的字段或需要保护的字段。与此相应地,步骤S30还包括:将该涉及用户隐私信息的字段或需要保护的字段所对应的数据从第一待融合数据集中副除。
[0035]类似地,第二方也可以向第一方提出第二数据集中涉及用户隐私信息的字段或需要保护的字段。
[0036]这种改进实现方式,提供对用户隐私信息的强化保护,特别适合在对数据保护要求较高的场合中使用。
[0037]上述说明仅针对于本发明的优选实施例,并不在于限制本发明的保护范围。本领域技术人员可作出各种变形设计,而不脱离本发明的思想及附随的权利要求。
【主权项】
1.一种大数据安全融合方法,用于将第一方存储的第一数据集与第二方存储的第二数据集进行融合,所述方法包括如下步骤: a)、所述第一方与所述第二方就关联字段、各自所需的数据项以及排序规则进行协商; b)、基于所述各自所需的数据项分别从所述第一数据集、第二数据集中筛选出第一待融合数据集、第二待融合数据集; C)、依据所述排序规则分别对所述第一待融合数据集、第二待融合数据集进行排序,并将所述关联字段对应的数据分别从所述第一待融合数据集、第二待融合数据集中剔除; d)、所述第一方、第二方分别将所述第一待融合数据集、第二待融合数据集提交到第三方计算平台,以形成已融合数据集; e)、所述第三方计算平台对所述已融合数据集进行分析计算,生成结果数据集。2.根据权利要求1所述的方法,其特征在于,所述第三方计算平台分别独立于所述第一方以及所述第二方。3.根据权利要求1所述的方法,其特征在于,所述步骤e)还包括: 在所述分析计算完成后,将所述第一待融合数据集、第二待融合数据集从所述计算系统中删除。4.根据权利要求1所述的方法,其特征在于,所述第一数据集、第二数据集分别记录多个用户的不同活动信息,所述关联字段包括: 用户的身份信息; 用户的所持卡信息;和/或 唯一地确定用户的标识信息。5.根据权利要求4所述的方法,其特征在于,所述步骤a)还包括: 所述第一方向所述第二方提出所述第一数据集中涉及用户隐私信息的字段; 所述步骤c)还包括: 将所述涉及用户隐私信息的字段所对应的数据从所述第一待融合数据集中剔除。
【专利摘要】本发明涉及一种大数据安全融合方法,包括:第一方与第二方就关联字段、各自所需的数据项以及排序规则进行协商;基于各自所需的数据项分别从第一数据集、第二数据集中筛选出第一待融合数据集、第二待融合数据集;依据排序规则分别对第一待融合数据集、第二待融合数据集进行排序,并将关联字段对应的数据分别从第一待融合数据集、第二待融合数据集中剔除;将第一待融合数据集、第二待融合数据集提交到第三方计算平台,以形成已融合数据集;第三方计算平台对已融合数据集进行分析计算,生成结果数据集。其在实现大数据融合的同时,有效防止隐私数据的泄露,在确保数据安全的前提下促进了信息的共享。
【IPC分类】G06F21/62
【公开号】CN105590066
【申请号】CN201510868103
【发明人】周雍恺, 柴洪峰, 何朔, 何东杰, 刘国宝, 才华
【申请人】中国银联股份有限公司
【公开日】2016年5月18日
【申请日】2015年12月2日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1