一种基于数据脱敏的大数据构造存储方法及系统与流程

文档序号:17863947发布日期:2019-06-11 23:03阅读:416来源:国知局
一种基于数据脱敏的大数据构造存储方法及系统与流程

本发明涉及大数据处理技术领域,特别是涉及一种基于数据脱敏的大数据构造存储方法。



背景技术:

随着信息技术与互联网技展和普及与互联网技术的发展和普及,云计算数据存储的安全性问题已引起学术界和商业界的广泛关注,如何确保数据存储的安全成为关注的焦点,信息的安全问题日益突出。现在,主流的关于数据的安全存储基本上是围绕着数据保密存储,安全审计,密文访问控制等三个领域展开,现在主流的安全存储技术主要包括同态加密技术、基于vmm保护技术,其中,同态加密技术关注的是数据处理安全,同态加密提供了一种对加密数据进行处理的功能,也就是说,其他人可以对加密数据进行处理,但是处理过程不会泄露任何原始内容,同时,拥有密钥的用户对处理过的数据进行解密后,得到的正好是处理后的结果;基于vmm保护技术的显著特点是将云端的操作系统和分布式文件系统进行了隔离,数据加解密由虚拟机监控系统来完成,实现了操作系统和用户数据的隔离。

清华大学薛矛在其发表在计算机学报的期刊“一种云存储环境下的安全存储系统”中提出了一种新的安全云存储系统架构,基于这套架构,文中设计并实现了一个安全云存储系统corslet,corslet可以直接架在已有的云存储系统之上而无需对其进行任何改变,同时提供端到端的数据私密性保护、完整性保护以及访问权限控制等功能.corslet使用简单,用户只需在客户端存放他们的身份证书即可,该架构使得用户在不可信的云存储服务提供商、不可信的网络环境下,依然能够得到对数据安全性与完整性的保护,并使数据的访问控制更加高效可靠,同时保证用户无法进行超出其权限的操作。

然而,上述现有技术虽然同时提供端到端的数据私密性保护、完整性保护以及访问权限控制等功能,实现了一个安全的存储系统,可以存储数据,但是在当今的大数据环境中,数据量如此庞大的情况下,使用用户如此之多,依然存在很多风险,一方面,一旦corslet系统被恶意攻击者攻破,那就可能造成其存储的数据信息泄露,存在用户密钥信息泄露的危险;另一方面,云平台强大的计算能力并没有得到充分利用,重要信息存在corslet系统中,增加了corslet系统和用户的负担,性能会显著降低,也增加了信息泄露的风险。



技术实现要素:

为克服上述现有技术存在的不足,本发明之目的在于提供一种基于数据脱敏的大数据构造存储方法及系统,以实现既能利用云平台强大的存储能力,也能减轻云服务器的负担,并通过加密方法把用户私密数据存储在客户端,极大减少用户私密数据泄露风险的目的。

为达上述及其它目的,本发明提出一种基于数据脱敏的大数据构造存储方法,包括如下步骤:

步骤s1,通过敏感信息扫描引擎机制,抓取大数据平台中的不同用户数据,并将抓取的数据分为公有数据和用户私有数据;

步骤s2,将所述用户私有数据通过用户终端进行加密,并将形成的密钥存储于所述用户终端;

步骤s3,对所述公有数据通过云服务器端进行数据脱敏后进行加密,将产生的密钥和加解密规则存储于用户终端,将加密后的密文存储于云服务器端。

优选地,于步骤s1中,执行数据库表结构解析、对抓取的数据格式进行解析分析,获取文本内容并发现其中的敏感数据及其位置信息,将抓取的数据分为公有数据和用户私有数据。

优选地,于步骤s2中,使用对称加密机制对用户私有数据进行加密保存于所述用户终端上,并将产生的密钥也保存于所述用户终端上。

优选地,步骤s3进一步包括:

步骤s300,将所述公有数据进行脱敏处理,得到标识数据;

步骤s301,将脱敏处理后的标识数据通过加解密规则进行加密,将生成的密钥存储于用户终端,加密后的密文存储于云服务器端,同时将加解密规则也存储于用户终端。

优选地,于步骤s300中,利用极值归一化方法对所述公有数据进行脱敏处理。

优选地,于步骤s300中,于所述公有数据的一组数列中找出最大和最小的两个端值max0和min0,利用一线性变换公式,对数列中的每个值k进行换算,得到新的数值k/和新的最大最小值max/和min/,得到数据脱敏处理后的数据a。

优选地,所述线性变换公式如下:

为达到上述目的,本发明还提供一种基于数据脱敏的大数据构造存储系统,包括:

数据分类单元,用于通过敏感信息扫描引擎机制,抓取大数据平台中的不同用户数据,将抓取的数据分为公有数据和用户私有数据;

私有数据处理单元,用于将所述用户私有数据通过用户终端进行加密,并将形成的密钥存储于所述用户终端;

公有数据处理单元,用于对所述公有数据通过云服务器端进行数据脱敏后进行加密,将产生的密钥和加解密规则存储于用户终端,将加密后的密文存储于云服务器端。

优选地,所述数据分类单元通过执行数据库表结构解析、对抓取的数据格式进行解析分析,获取文本内容并发现其中的敏感数据及其位置等信息,将抓取的数据分为公有数据和用户私有数据。

优选地,所述公有数据处理单元进一步包括:

脱敏处理单元,用于将所述公有数据进行脱敏处理,得到标识数据;

加密处理单元,用于将脱敏处理后的标识数据通过加解密规则进行加密,将生成的密钥存储于用户终端,加密后的密文存储于云服务器端,同时将加解密规则也存储于用户终端。

与现有技术相比,本发明一种基于数据脱敏的大数据构造存储方法及系统通过将大数据信息通过敏感信息扫描引擎机制分为公有数据和用户私有数据,通过对称加密算法将用户私有信息及密钥存储在用户终端,将公有数据通过数据脱敏后,通过将加解密规则和密钥分离存储的方法将脱敏后的公共数据存储在云服务器上,这样,即使有恶意攻击者窃取用户公有数据,但是由于数据和加解密规则两部分分别存储于云端和终端,任一部分的泄露,都不会导致密钥的泄露,这样,既能利用云平台强大的存储能力,也能减轻云服务器的负担,而通过加密方法把用户私密数据存储在客户端,极大减少了用户私密数据泄露的风险,本发明提供了一种新型的大数据构造存储技术,保证了数据的安全存储。

附图说明

图1为本发明一种基于数据脱敏的大数据构造存储方法的步骤流程图;

图2为本发明一种基于数据脱敏的大数据构造存储系统的系统架构图;

图3为本发明具体实施例中公有数据处理单元203的细部结构图;

图4为本发明具体实施例中基于数据脱敏的大数据构造存储流程图;

图5为本发明具体实施例中基于数据脱敏的大数据构造结果存储结构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。

针对现有技术存在的问题,如果加密位置在客户端,数据的安全性能得到保证,但客户端的计算负荷就会大大加重,而云平台强大的计算能力却没有得到充分利用;如果加密位置在云端,云平台的计算能力能够得到充分发挥,但用户数据却可能泄漏给云服务提供商。为保护数据存储的安全性,本发明通过改进加密位置,通过已经成熟的数据脱敏技术将用户个人标识信息和公共数据进行分离,在通过流式计算的思想加载到云服务端和用户终端,将公共数据脱敏处理后存储在云服务器端,将用户个人标识私密数据存储在用户端,这样,既能利用云平台强大的存储能力,也能减轻云服务器的负担,而通过加密方法把用户私密数据存储在客户端,极大减少了用户私密数据泄露的风险,保证了数据的安全存储。

图1为本发明一种基于数据脱敏的大数据构造存储方法的步骤流程图。如图1所示,本发明一种基于数据脱敏的大数据构造存储方法,包括如下步骤:

步骤s1,通过敏感信息扫描引擎机制,抓取大数据平台中的不同用户数据,将抓取的数据分为公有数据和用户私有数据。

具体地,执行数据库表结构解析、对抓取的数据格式进行解析分析,获取文本内容并发现其中的敏感数据及其位置等信息,将数据分为公有数据和用户私有数据,用户私有数据为敏感数据,其他的为公共数据。在本发明具体实施例中,可预先定义敏感词汇,然后根据定义的敏感词汇对抓取的数据进行解析分析,将其分为公有数据和用户私有数据。

步骤s2,将用户私有数据通过用户终端进行加密,并将密钥存储于用户终端。

具体地,于步骤s2中,将用户私有数据通过用户终端进行加密,使用对称加密机制对用户私有数据进行加密,以加密数据量较大的用户私有数据文件,保证加解密运算具有高速度和低复杂性。对称加密体制的des(dataencryptionstandard,数据加密标准)所有保密性均依赖于密钥。加密和解密使用相同的密钥,将密钥存储在用户终端。用户在终端可以通过密钥解密获得私有数据。也就是说,于步骤s2中,可通过对称加密算法将用户私有数据进行加密并保存在终端上,即将用户私有数据经加密产生的密文存储在用户终端上,同时将产生的加密机密密钥也保存在用户终端上。

步骤s3,对公有数据通过云服务器端进行数据脱敏后进行加密,产生的密钥和加解密规则存储于用户终端,加密后的密文存储于云服务器端。

具体地,步骤s3进一步包括:

步骤s300,将所述公有数据进行脱敏处理,得到标识数据。

在本发明具体实施例中,可通过极值归一化方法对公有数据进行脱敏处理,具体地,在公有数据的一组数列中,找出最大和最小的两个端值max0和min0,利用如下线性变换公式:

对数列中的每个值进行换算,得到新的数值k/和新的最大最小值max/和min/,这样就得到了数据脱敏处理后的数据a。

步骤s301,将脱敏处理后的标识数据通过加解密规则进行加密,将生成的密钥存储于用户终端,加密后的密文存储于云服务器端,同时将加解密规则也存储于用户终端。

具体地,以数据脱敏后的数据a为标识数据为例,将脱敏处理后的数据a在云端进行加密,设计加解密规则b和数据a相分离的加密方法,将密钥的生成分解成加解密规则b和数据a,将其分别存储在云端和终端,将数据a根据加解密规则b生成密钥f,密钥f存储于用户终端,数据a和密钥f根据加解密规则b进行加密运算,产生密文a1,同时,将加解密规则b通过终端标识加密,生成加密后的加解密规则b1,将加密后的加解密规则b1放在用户终端存储器存储,加密后的数据密文a1放在云服务器端存储。

当用户需要获取公有数据时,用户则可以从云服务器端下载数据密文a1,以及从用户终端获得终端标识的加解密规则b(这里的加解密规则b需先获取b1,对b1进行解密获得)数据密文a1通过密钥f和加解密规则b进行解密,则可以获得脱敏之后的数据a,再通过上述线性变换公式则可以得到公有数据。

图2为本发明一种基于数据脱敏的大数据构造存储系统的系统架构图。如图2所示,本发明一种基于数据脱敏的大数据构造存储系统,包括:

数据分类单元201,用于通过敏感信息扫描引擎机制,抓取大数据平台中的不同用户数据,将抓取的数据分为公有数据和用户私有数据。

具体地,数据分类单元201通过执行数据库表结构解析、对抓取的数据格式进行解析分析,获取文本内容并发现其中的敏感数据及其位置等信息,将数据分为公有数据和用户私有数据,用户私有数据为敏感数据,其他的为公共数据。

私有数据处理单元202,用于将私有数据通过用户终端进行加密,并将密钥存储于用户终端。

具体地,私有数据处理单元202将用户私有数据通过用户终端进行加密,使用对称加密机制对用户私有数据进行加密,以加密数据量较大的用户私有数据文件,保证加解密运算具有高速度和低复杂性。对称加密体制的des(dataencryptionstandard,数据加密标准)所有保密性均依赖于密钥。加密和解密使用相同的密钥,将密钥存储在用户终端。用户在终端可以通过密钥解密获得私有数据。也就是说,私有数据处理单元202可通过对称加密算法将用户私有数据进行加密并保存在终端上,即将用户私有数据经加密产生的密文存储在用户终端上,同时将产生的加密机密密钥也保存在用户终端上。

公有数据处理单元203,用于对公有数据通过云服务器端进行数据脱敏后进行加密,产生的密钥和加解密规则存储于用户终端,加密后的密文存储于云服务器端。

具体地,如图3所示,公有数据处理单元203进一步包括:

脱敏处理单元2031,用于将所述公有数据进行脱敏处理,得到标识数据。

在本发明具体实施例中,脱敏处理单元2031可通过极值归一化方法对公有数据进行脱敏处理,具体地,在公有数据的一组数列中,找出最大和最小的两个端值max0和min0,利用如下线性变换公式:

对数列中的每个值进行换算,得到新的数值k/和新的最大最小值max/和min/,这样就得到了数据脱敏处理后的数据a。

加密处理单元2032,用于将脱敏处理后的标识数据通过加解密规则进行加密,将生成的密钥存储于用户终端,加密后的密文存储于云服务器端,同时将加解密规则也存储于用户终端。

具体地,以数据脱敏后的数据a为标识数据为例,加密处理单元2032将脱敏处理后的数据a在云端进行加密,设计加解密规则b和数据a相分离的加密方法,将密钥的生成分解成加解密规则b和数据a,将其分别存储在云端和终端,将数据a根据加解密规则b生成密钥f,密钥f存储于用户终端,将数据a和密钥f根据加解密规则b进行加密运算,产生密文a1,同时,将加解密规则b通过终端标识加密,生成加密后的加解密规则b1,将加密后的加解密规则b1放在用户终端存储器存储,而加密后的数据密文a1放在云服务器端存储。

图4为本发明具体实施例中基于数据脱敏的大数据构造存储流程图,图5为本发明具体实施例中基于数据脱敏的大数据构造结果存储结构图。如图4及图5所示,该基于数据脱敏的大数据构造存储过程如下:

步骤一,通过敏感信息扫描引擎机制,抓取大数据平台中的不同用户数据,具体地,执行数据库表结构解析、对抓取的数据格式进行解析分析,获取文本内容并发现其中的敏感数据及其位置等信息,将数据分为公有数据和用户私有数据,用户私有数据为敏感数据,其他的为公共数据;

步骤二,在用户终端,将用户私有数据通过终端进行加密,使用对称加密机制对用户私有数据进行加密,加密数据量较大的用户私有数据文件,以保证加解密运算具有高速度和低复杂性,对称加密体制的des所有保密性均依赖于密钥,加密和解密使用相同的密钥,将密钥存储在用户终端。用户在终端可以通过密钥解密获得私有数据。

步骤三,在云服务器端,通过极值归一化对公共数据进行脱敏处理,在一组数列中,找出最大和最小的两个端值max0和min0,利用线性变换公式对数列中的每个值进行换算,得到新的数值k/和新的最大最小值max/和min/,这样就得到了数据脱敏处理后的数据a,将脱敏处理后的数据a在云端进行加密,设计加解密规则b和数据a相分离的加密方法。将密钥的生成分解成加解密规则b和数据a,将其分别存储在云端和终端,将数据a根据加解密规则b生成密钥f,密钥f存储于用户终端,将数据a和密钥f根据加解密规则b进行加密运算,产生密文a1,密钥规则b通过终端标识加密,生成加解密规则b1,并将加解密规则b1放在用户终端存储器存储,数据密文a1放在云服务器端存储。当用户从云服务器下载数据密文a1,以及用户操作终端获得终端标识的加解密规则b1后,先根据密钥f对b1进行解密得到加解密规则b,然后将数据密文a1通过密钥f以及加解密规则b进行解密,则可以获得脱敏之后的数据a,在通过线性变换公式则可以得到公有数据,其中若有任何一部分步骤操作失败,则得不到相应数据。

综上所述,本发明一种基于数据脱敏的大数据构造存储方法及系统通过将大数据信息通过敏感信息扫描引擎机制分为公有数据和用户私有数据,通过对称加密算法将用户私有信息及密钥存储在用户终端,将公有数据通过数据脱敏后,通过将加解密规则和密钥分离存储的方法将脱敏后的公共数据存储在云服务器上,这样,即使有恶意攻击者窃取用户公有数据,但是由于数据和加解密规则两部分分别存储于云端和终端,任一部分的泄露,都不会导致密钥的泄露,这样,既能利用云平台强大的存储能力,也能减轻云服务器的负担,而通过加密方法把用户私密数据存储在客户端,极大减少了用户私密数据泄露的风险,本发明提供了一种新型的大数据构造存储技术,保证了数据的安全存储。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1