大数据的安全管理方法、装置和设备与流程

文档序号:22125412发布日期:2020-09-04 17:14阅读:334来源:国知局
大数据的安全管理方法、装置和设备与流程

本发明实施例涉及大数据处理技术领域,具体涉及大数据的安全管理方法、装置和设备。



背景技术:

目前大数据安全技术主要针对大数据存储安全、权限/访问安全、大数据共享溯源的领域。针对“大数据内容安全领域”缺少相关的技术手段。

大数据开发、测试、处理、分析过程中,数据处理人员必须使用真实的数据进行处理、使用真实的进行数据分析的情况。大量的人员使用真实数据进行处理可能造成数据泄露,违反法律和法规的要求。比如:对身份证的清洗,必须拿到身份证全集,包括所有可能的脏数据和干净的数据进行清洗才能保证dt过程是可靠、完整的、有效的,但是这样存在数据泄露的问题。此外,在数据分析过程中,比如精准营销,也需要真实的客户信息进行处理,才能完成有效的客户画像。如何在保证大数据安全的前提下,可以使用真实数据是一种亟待解决的问题。



技术实现要素:

本发明实施例的目的在于提供大数据的安全管理方法、装置和设备,用以解决现有大数据平台使用真实数据时容易泄露关键数据的问题。

为实现上述目的,本发明实施例主要提供如下技术方案:

第一方面,本发明实施例提供了一种大数据的安全管理方法,包括:获取原始数据;判断所述原始数据的属性是否符合预设的脱敏数据属性,且判断所述原始数据的属性是否符合预设的混排数据属性;如果所述原始数据的属性符合所述预设的脱敏数据属性,则对所述原始数据通过脱敏算法得到脱敏数据,并在安全岛中存储所述原始数据,以及所述原始数据和所述脱敏数据之间的映射关系信息;如果所述原始数据的属性符合所述预设的混排数据属性,则对所述原始数据通过混排算法得到混排数据,并在所述安全岛中存储所述原始数据,以及所述原始数据和所述混排数据之间的映射关系信息。

根据本发明的一个实施例,所述混排算法用于对所述原始数据按列进行随机排序生成所述混排数据。

根据本发明的一个实施例,所述脱敏算法用于对所述原始数据进行遮蔽脱敏、数据仿真脱敏、泛化脱敏和数据一致性脱敏中的至少一种。

根据本发明的一个实施例,所述混排算法用于对所述原始数据的数据全集进行混排,或者对所述原始数据的部分数据进行混排。

第二方面,本发明实施例还提供一种大数据的安全管理装置,包括:获取模块,用于获取原始数据;安全岛;处理模块,用于判断所述原始数据的属性是否符合预设的脱敏数据属性,且判断所述原始数据的属性是否符合预设的混排数据属性;如果所述原始数据的属性符合所述预设的脱敏数据属性,则对所述原始数据通过脱敏算法得到脱敏数据,并在所述安全岛中存储所述原始数据,以及所述原始数据和所述脱敏数据之间的映射关系信息;如果所述原始数据的属性符合所述预设的混排数据属性,则对所述原始数据通过混排算法得到混排数据,并在所述安全岛中存储所述原始数据,以及所述原始数据和所述混排数据之间的映射关系信息。

根据本发明的一个实施例,所述混排算法用于对所述原始数据按列进行随机排序生成所述混排数据。

根据本发明的一个实施例,所述脱敏算法用于对所述原始数据进行遮蔽脱敏、数据仿真脱敏、泛化脱敏和数据一致性脱敏中的至少一种。

根据本发明的一个实施例,所述混排算法用于对所述原始数据的数据全集进行混排,或者对所述原始数据的部分数据进行混排。

第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的大数据的安全管理方法。

第四方面,本发明实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的大数据的安全管理方法。

本发明实施例提供的技术方案至少具有如下优点:

本发明实施例提供的大数据的安全管理方法、装置和设备,确保敏感信息不会出现在日常的大数据相关的开发、测试、数据处理和分析中,同时保证了这些过程与拥有敏感信息时同样的算法和程序,并且当确需要敏感信息时,可以获取到对应的敏感信息。

附图说明

图1为本发明实施例的大数据的安全管理方法的流程图。

图2为本发明一个示例中大数据平台的主体架构图。

图3为本发明一个示例中安全岛中数据的示意图。

图4为本发明一个示例中脱敏区数据的示意图。

图5(a)-图5(c)为本发明一个示例中映射区数据的示意图。

图6为本发明实施例的大数据的安全管理装置的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

在本发明的描述中,需要理解的是,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”和“连接”应做广义理解,例如可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

图1为本发明实施例的大数据的安全管理方法的流程图。如图1所示,本发明实施例的大数据的安全管理方法,包括:

s1:获取原始数据。

具体地,从数据源处获取原始数据,可以是批量或者实时获取原始数据。此处的原始数据即为真实数据。

s2:判断原始数据的属性是否符合预设的脱敏数据属性,且判断原始数据的属性是否符合预设的混排数据属性。

具体地,当采集到原始数据以后,根据预先设定好的脱敏规则和混排规则判断哪种属性的数据需要进行脱敏,哪种属性的数据需要进行混排。

s3:如果原始数据的属性符合预设的脱敏数据属性,则对原始数据通过脱敏算法得到脱敏数据,并在安全岛中存储原始数据,以及原始数据和脱敏数据之间的映射关系信息。其中,安全岛设置在大数据平台中做为特殊安全控制的区域,或者独立于所述大数据平台的存储设备中。贴源区可以与安全岛数据同时生成或者异步生成。

s4:如果原始数据的属性符合预设的混排数据属性,则对原始数据通过混排算法得到混排数据,并在安全岛中存储原始数据,以及原始数据和混排数据之间的映射关系信息;

需要说明的是,本发明并不限定步骤s3和步骤s4之间的先后执行关系,即可以是先执行步骤s3,后执行步骤s4;也可以是先执行步骤s4,后执行步骤s3;还可以是同时执行步骤s3和步骤s4。

图2为本发明一个示例中大数据平台的主体架构图。如图2所示,对批量或者实时数据,当从数据源读取数据进入贴源层时,除了通过静态脱敏/混排/映射/脱敏api进入安全岛的数据全部为脱敏后的数据,主要是用脱敏或者混排算法实现;进去安全岛的数据为脱敏前的数据和脱敏前后数据的映射表。

混排算法是指对数据库的敏感、单列数据进行处理的一种方法,主要特点是,数据集合不发生变化,但是对数据进行重新随机排序,如:数据库中的人名为:张三、李四、赵五,处理之后只是数据的排序发生了变化,变成了:李四、赵五、张三。

其中,混排实现方法有两种:1.对数据全集进行混排。2.部分数据进行混排。比如:每1000条数据,在本1000条数据内进行混排。

混排的优势有:对数据处理的清洗的算法完整度不产生影响:举例,如:会员卡号清洗“1112222”,“111222”。清洗规则包含两种:全角转半角,去掉不必要的空格。对数据的分布不产生影响:如交易金额混排,对交易金额的分布不产生影响。

数据清洗、联通:开发人员对数据进行清洗、标准化、联通操作,开发、测试、处理、分析均在蓝色区域完成,并生成ods层。

安全岛清洗:使用数据清洗、联通步骤产生的程序,对安全岛的数据进行处理,并生成安全岛的ods层。

数据聚合:开发人员输出到ods层的数据进行聚合,输出到数据聚合层。

汇总分析型结果:使用聚合层数据生成需要的结果。

对针对个体的客户画像(确需使用敏感数据的场景):关联安全区+反向映射区+脱敏区的数据,获得真实的敏感信息,如:客户资料、客户行踪轨迹、客户生物识别信息等。

图3为本发明一个示例中安全岛中数据的示意图。如图3所示,原始数据包括四组数据,从上到下是人名为张三、李四、赵五和王六的四组数据。

图4为本发明一个示例中脱敏区数据的示意图。如图4所示,脱敏区数据包括四组数据,从上到下是人名为李四、王六和张三、赵五的四组数据。

图5(a)-图5(c)为本发明一个示例中映射区数据的示意图。如图(a)-图5(c)所示,映射区分别存储了混排前与混排后在姓名之间的映射关系、身份证之间的映射关系、地址之间的映射关系。

本发明实施例提供的大数据的安全管理方法,确保敏感信息不会出现在大数据日常的开发、测试、数据处理和分析中,同时保证了这些过程与拥有敏感信息时同样的算法和程序,并且当确需要敏感信息时,可以获取到对应的敏感信息。

图6为本发明实施例的大数据的安全管理装置的结构框图。如图6所示,本发明实施例的大数据的安全管理装置,包括:获取模块100、安全岛200和处理模块300。

其中,获取模块100用于获取原始数据。

处理模块300用于判断原始数据的属性是否符合预设的脱敏数据属性,且判断原始数据的属性是否符合预设的混排数据属性。如果原始数据的属性符合预设的脱敏数据属性,则对原始数据通过脱敏算法得到脱敏数据,并在安全岛中存储原始数据,以及原始数据和脱敏数据之间的映射关系信息;如果原始数据的属性符合预设的混排数据属性,则对原始数据通过混排算法得到混排数据,并在安全岛中存储原始数据,以及原始数据和混排数据之间的映射关系信息。

根据本发明一个实施例,混排算法用于对原始数据按列进行随机排序生成混排数据。

根据本发明一个实施例,脱敏算法用于对原始数据进行遮蔽脱敏、数据仿真脱敏、泛化脱敏和数据一致性脱敏中的至少一种。

根据本发明一个实施例,混排算法用于对原始数据的数据全集进行混排,或者对原始数据的部分数据进行混排。

需要说明的是,本发明实施例的大数据的安全管理装置的具体实施方式与本发明实施例的大数据的安全管理方法的具体实施方式类似,具体参见大数据的安全管理方法部分的描述,为了减少冗余,不做赘述。

另外,本发明实施例的大数据的安全管理装置的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。

本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的大数据的安全管理方法。

本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的大数据的安全管理方法。

在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(digitalsignalprocessor,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。

存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。

其中,非易失性存储器可以是只读存储器(read-onlymemory,简称rom)、可编程只读存储器(programmablerom,简称prom)、可擦除可编程只读存储器(erasableprom,简称eprom)、电可擦除可编程只读存储器(electricallyeprom,简称eeprom)或闪存。

易失性存储器可以是随机存取存储器(randomaccessmemory,简称ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,简称sram)、动态随机存取存储器(dynamicram,简称dram)、同步动态随机存取存储器(synchronousdram,简称sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,简称ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,简称esdram)、同步连接动态随机存取存储器(synchlinkdram,简称sldram)和直接内存总线随机存取存储器(directrambusram,简称drram)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合属性的存储器。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1