一种基于大数据信息系统的高安全性脱敏方法与流程

文档序号：11155335阅读：453来源：国知局

本发明涉及一种基于大数据信息系统的高安全性脱敏方法。

背景技术：

目前随着我国信息化建设不断深化，企业的信息化业务系统越来越依赖于信息通信系统，信息通信系统的安全性和可靠性将直接影响到企业数据信息的安全保密性；然而，数据资源中往往包含大量的敏感信息，一旦泄露或遭到非法利用，将会给个人甚至是国家带来无法弥补的损失。

数据库通过用户、角色和权限技术保护数据的安全，但是由于现在大部分应用并没有充分利用数据库的这种保护机制，而是通过应用控制数据的访问，如应用操作人员虽然以不同的身份登录到应用，但都是通过一个数据库用户连接到数据库，这样虽然可以对通过应用访问数据库的用户进行存取访问限制，但无法控制直接通过数据库用户登录到数据库的数据存取。

DBA可以通过程序方式批量处理一些敏感数据达到保护敏感数据的目的，不仅操作繁琐复杂，而且现有计算机硬件以及破解软件的算法越来越先进，传统的脱敏算法会很容易被破解。一旦脱敏算法被破解，那么经过批量还原处理就可以获得真实数据，造成敏感数据的严重泄露。

另一方面，由于信息化不断深入，业务系统的数据量越来越大，数据产生速度越来越快，短短几天内的数据量就能达到10年前全部的信息容量。其中敏感信息的数据量也是飞速增长，达到PB量级，传统的脱敏技术面对如此大容量的敏感数据时，很难有效的速度处理与解决敏感数据脱敏问题。

同时，随着大数据分析的成熟和价值挖掘的深入，从看似安全的数据中还原出用户的敏感、隐私信息已不再困难。传统的安全技术已无法直接使用，如何在大数据量的交换、共享及使用等过程中实现对敏感数据的精准定位和保护，达到数据安全、可靠、受控使用的目标，是数据产生者和管理者亟待解决的技术问题。

技术实现要素：

本发明的目的是提供一种基于大数据信息系统的高安全性脱敏方法，能够根据复合分层式脱敏算法对信息系统中的敏感数据进行脱敏，从而实现大数据环境下的信息安全。

一种基于大数据信息系统的高安全性脱敏方法，其特别之处在于，包括如下步骤：

(1)在敏感数据脱敏使用前进行预处理，具体是：

根据规则的安全规范要求，分别对各个系统的敏感信息数据字段进行标注，并且对脱敏的强度和目标进行定义和模式识别与匹配；

把业务数据源中的大数据通过抽取集成到服务器建立的hadoop集群中，将脱敏数据库分布式存储于HDFS中，进行权限路径配置，查询及使用数据只能从HDFS的脱敏数据库中获取；

对脱敏数据库中存储的敏感数据进行重要性的排序，划分敏感等级；

敏感数据合规性检查，对敏感数据进行数据清理，消除重复值，缺失值，异常值；

(2)使用复合分层式脱敏算法模型对敏感数据进行加密；

(3)在敏感数据脱敏使用后进行溯源审计，具体是：

持续对脱敏系统的运行情况进行监控和审计，及时发现异常并做出响应；

在审计日志中对敏感字段的增删查改进行实时记录反馈，并对异常的进行有效追踪访问IP、端口及权限。

步骤(2)中复合分层式脱敏算法模型包括：

系统通过客户配置的参数将数据库的全部SQL语句进行分析，首先在分布式的脱敏数据库中查验敏感字段，然后识别出敏感字段进行策略配置；

脱敏策略配置，采用智能推荐方式进行脱敏策略的配置：一种是基于默认参数配置的数据脱敏算法，一种是基于用户自定义脱敏策略以更改合适的参数配置脱敏算法；

脱敏模型，根据敏感字段对应的每个数据长度，首先解析出单个数据长度，将数据长度按照预制拆分密钥K1，将敏感数据明文M分层成为3段短长短的明文数据M1，M2和M3；

采用RSA运算单元，对短明文M1进行加密，得到密文C1，保存密钥K4；

采用AES运算单元，对长明文M2进行加密，得到密文C2，保存密钥K3；

采用DES运算单元，对短明文M3进行加密，得到密文C3，保存密钥K2；

利用AES运算模块，对分别对密钥K2、K3、K4进行运算得到加密密钥K22、K33和K44，彻底删除原始密钥K2、K3、K4，并保存对密钥进行加密的密钥K6；

使用乱序重排密钥K5，将密文C1，C2和C3进行移位排列，移位后组合起来后形成最终脱敏信息密文C；

使用方查询获取所需脱敏信息的敏感字段与脱敏信息密文C；

使用方使用对密钥进行加密的密钥K6，对加密密钥K22、K33和K44解密，得到运算单元密文的密钥K2、K3、K4；

使用方利用乱序重排密钥K5，将脱敏信息密文C还原重组为密文C1，C2和C3；

使用方利用密钥K4、K3和K2分别对密文C1，C2和C3进行解密，得到明文M1、M2和M3；

按照拆分排序密钥K1，将明文M1、M2和M3获取为明文M。

本发明方法提出了一种基于大数据信息系统安全的高安全性脱敏方法，该方法以复合分层式脱敏算法为核心，用来实现在非法入侵信息系统以及利用权限与破解传统脱敏算法漏洞的访问敏感信息的防护。本发明的有益效果一方面在于该模型架构融合了多个脱敏算法的优点，有效地降低了敏感数据的危险系数，大大地提高了敏感数据的安全性与破解难度系数，实现了敏感数据的脱敏保护；另一方面在于该模型算法能够充分发挥脱敏模型中各个运算单元的效率特点，提高脱敏处理速率。

本发明的优点还在于：

(1)本发明方法有效地将基于大数据的敏感信息进行了分布式的处理与脱敏，更好的适应当今大数据信息技术的环境。

(2)本发明方法使用的新型复合分层脱敏模型算法，该模型算法能够充分发挥脱敏模型中各个运算单元的效率特点，提高脱敏处理速率。

(3)本发明方法提出了一种新型的复合分层脱敏算法模型架构，该模型架构不仅融合了多个脱敏算法的优点，而且该架构安全复杂系数更高，使得算法模型的安全性更高，鲁棒性更强。有效地降低了敏感数据的危险系数，提高了敏感数据的安全性与破解难度系数，实现了敏感数据的脱敏，保护敏感数据安全与可靠。

附图说明

图1是大数据环境下的整个信息安全系统的架构示意图；

图2是敏感数据脱敏总体逻辑架构图；

图3是对敏感数据使用复合分层式脱敏算法模型的流程图；

图4是对经过复合分层式脱敏算法后的敏感数据进行还原恢复流程图；

图5是本发明的基于大数据信息系统的高安全性脱敏方法技术与传统的基于大数据的信息安全系统敏感信息脱敏方法技术的速度和安全性比较示意图。

具体实施方式

本发明的脱敏算法围绕在使用前的预处理，使用中的防护，使用后的溯源审计三个部分进行阐述。

本发明在敏感数据脱敏使用前的预处理方法，包括如下几个内容：

根据规则的安全规范要求，分别对各个系统的敏感信息数据字段进行标注，并且对脱敏的强度和目标进行定义和模式识别与匹配。

把业务数据源中的大数据通过抽取集成到服务器建立的hadoop(大数据行业通用术语，是指一种分布式系统基础架构)集群中，将脱敏数据库分布式存储于HDFS(HDFS为大数据行业通用术语，是指分布式文件系统)中，进行权限路径配置，查询及使用数据只能从HDFS的脱敏数据库中获取。

对脱敏数据库中存储的敏感数据进行重要性的排序，划分敏感等级。

敏感数据合规性检查，对敏感数据进行数据数据清理，消除重复值，缺失值，异常值。

本发明设计新型的复合分层式脱敏算法模型，该算法的破解难度系数更高，使得敏感数据的安全系数更高。该算法包括以下几个发明内容：

系统通过客户配置的参数将数据库的全部SQL语句进行分析，首先在分布式的脱敏数据库中查验敏感字段，然后识别出敏感字段进行策略配置。

脱敏策略配置，采用智能推荐方式进行脱敏策略的配置：一种基于默认参数配置的数据脱敏算法，一种是基于用户自定义脱敏策略以更改合适的参数配置脱敏算法。

脱敏模型，根据敏感字段对应的每个数据长度，首先解析出单个数据长度，将数据长度按照预制拆分密钥K1，将敏感数据明文M分层成为3段短长短的明文数据M1，M2和M3。

由于RSA具备安全性极高，可靠性高难破解，但是加密速度较慢的特点，采用RSA运算单元，对短明文M1进行加密，得到密文C1，保存密钥K4。

由于AES具备加密速度快的特点，采用AES运算单元，对长明文M2进行加密，得到密文C2，保存密钥K3。

由于DES具备极高安全性，但是速度较慢特点，采用DES运算单元，对短明文M3进行加密，得到密文C3，保存密钥K2。

利用AES运算模块，对分别对密钥K2、K3、K4进行运算得到加密密钥K22、K33和K44，彻底删除原始密钥K2、K3、K4，并保存对密钥进行加密的密钥K6。

使用乱序重排密钥K5，将密文C1，C2和C3进行移位排列，移位后组合起来后形成最终脱敏信息密文C。

使用方查询获取所需脱敏信息的敏感字段与脱敏信息密文C。

使用方使用对密钥进行加密的密钥K6，对K22、K33和K44解密，得到运算单元密文的密钥K2、K3、K4。

使用方利用乱序重排密钥K5，将脱敏信息密文C还原重组为密文C1，C2和C3。

使用方利用密钥K4、K3和K2分别对密文C1，C2和C3进行解密，得到明文M1、M2和M3。

按照拆分排序密钥K1，将明文M1、M2和M3获取为明文M。

使用后的溯源审计包括以下几个内容：

持续对脱敏系统的运行情况进行监控和审计，及时发现异常并做出响应。

在审计日志中对敏感字段的增删查改进行实时记录反馈，并对异常的进行有效追踪访问IP，端口及权限。

实施例1：

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,对本发明实施例中的技术方案进行清楚、完整地描述。通过参考附图描述的实施例是示例性的，仅用于解释本发明而不能理解为对本发明的限制。

本发明实施例一方面公开了信息系统安全的脱敏方法。结合图1，该方法包括如下步骤：

结合附图1所示，首先由业务系统的源数据经过kettle数据抽取工具，传输到服务器物理机的oracle数据库中。

对此物理机的oracle数据库设置防火墙外部无法访问，通过kettle和sqoop将全部的数据抽取到hadoop的hive数据库中。

使用hadoop的一个namenode管理多个分布式的slave物理机，将hive数据库中的大数据分布式存储slave物理机的HDFS中，并由每个分布式物理机的datanode服从进行各自监督管理。

为了说明信息系统安全的脱敏算法实施，本发明实施案例二下面结合图2和图3来进行介绍。

在本实施敏感数据脱敏算法的过程中，首先要对敏感数据进行数据治理。根据安全规则的定义，将数据库中的数据表进行敏感字段标识，关联匹配到数据库中的每一张数据表中去。

按照附图2所示，对敏感数据进行清理，将敏感数据中的异常值，重复值，缺省值进行数据预处理。同时对敏感字段的重要程度进行重要等级排序，分为了非常重要类型I，比较重要类型II，普通重要类型III。

在数据进行治理完成后进入数据脱敏算法，首先要从数据库的数据表选取敏感数据，其伪代码如下所示。

按照附图3所示，对敏感信息明文字段进行策略配置。在策略配置的过程中，得到敏感字段对应的数据类型和数据长度，例如一个敏感字段为A，其字段对应的数据长度为A(i，i_n)，可以选择默认策略长度m，视为密钥K1，其中那么可以把一个敏感数据长度拆分为A₁(i，i_m)，A₂(i，i_m，m-n)，A₃(i，i_m-n，n)三个短长短的敏感数据。也可以用户自定义策略长度m。

上诉步骤中的三个A₁(i，i_m)，A₂(i，i_m，m-n)，A₃(i，i_m-n，n)长度对应的敏感信息数据为M1，M2，M3。根据RSA加密算法的特点：

RSA的算法涉及三个参数，n、e1、e2。

其中，n是两个大质数p、q的积，n的二进制表示时所占用的位数，就是所谓的密钥长度。

e1和e2是一对相关的值，e1可以任意取，但要求e1与(p-1)*(q-1)互质；再选择e2，要求(e2*e1)mod((p-1)*(q-1))＝1。

(n，e1),(n，e2)就是密钥对。其中(n，e1)为公钥，(n，e2)为私钥。RSA是一种非对称密码算法，其安全系数十分高，但是由于都是大数计算，使得RSA无论是软件还是硬件实现速度都是很慢，速度一直是RSA的缺陷，只适用于少量数据加密。采用较短的明文M1进行加密得到短密文C1，保留其加密与解密密钥M4。

AES加密过程是在一个4×4的字节矩阵上运作，这个矩阵又称为“状态(state)”，其初值就是一个明文区块(矩阵中一个元素大小就是明文区块中的一个Byte)。(Rijndael加密法因支持更大的区块，其矩阵行数可视情况增加)加密时，各轮AES加密循环(除最后一轮外)均包含4个步骤：

1 AddRoundKey—矩阵中的每一个字节都与该次轮密钥(round key)做XOR运算；每个子密钥由密钥生成方案产生。

2 SubBytes—通过个非线性的替换函数，用查找表的方式把每个字节替换成对应的字节。

3 ShiftRows—将矩阵中的每个横列进行循环式移位。

4 MixColumns—为了充分混合矩阵中各个直行的操作。这个步骤使用线性转换来混合每列的四个字节。

由于AES具有加密速度快的算法特点，采用长的明文M3进行加密得到短密文C3，保留其密钥M3。

DES其入口参数有三个：key、data、mode。key为加密解密使用的密钥，data为加密解密的数据，mode为其工作模式。当模式为加密模式时，明文按照64位进行分组，形成明文组，key用于对数据加密，当模式为解密模式时，key用于对数据解密。根据DES算法具有极高安全性和密码生命周期短、运算速度较慢的特点，采用短的明文M2进行加密得到短密文C2，保留其密钥M2。

得到了三种密文的密钥K2，K3，K4，对三种密钥进行AES运算单元的加密过程，形成了新的套嵌密钥K22，K33，K44，将原始的密钥K2，K3，K4进行删除，同时将这个密钥K6保存。

接着把的密文信息C1，C2，C3带入策略排序运算模块，此策略运算模块可以使用默认或者用户自定义密钥K5，将C1，C2，C3的顺序重新排列。本实施案例可举例：将密文信息排列为C2，C3，C1，然后进行合并存储，完成脱敏的流程，并存储起来。

对于开发人员，测试人员，或者DBA等人员通过权限访问到脱敏数据库内部时候，非敏感数据可以继续获得，而敏感数据已经脱敏，则无法获得数据内容。当外网用户通过终端，TCP/IP连接并破解安全权限，进行非法入侵破解后，想要访问的查询敏感数据的时候只能在脱敏数据库中获得，此时已经将敏感数据进行了脱敏，而无法破解，实现了信息系统的安全保护。

当内部人员需要使用脱敏数据完成工作目标与任务的时候，本实施案例三结合附图4进行如下介绍：

按照附图4所示使用人员通过权限分配PING在内网机(Local Area Network，LAN)中查询相关数据库，在数据库中获得包含敏感数据的数据表，通过数据表获取脱敏密文信息数据C，使用密钥K5，将C进行重新排列组合，然后进行拆分，最终拆分成为短密文信息C1，长密文信息C2，短密文信息C3。

获取服务器上存储的密钥K22，K33，K44，以及通过权限配置获得AES运算单元的密钥K6，通过K6把密钥K22，K33，K44解密还原成K2，K3,K4三个破解密文的原始密钥。

将短密文信息C1，结合RSA运算单元的密钥K4，进行解密还原得到短明文信息M1。

将长密文信息C2，结合AES运算单元的密钥K3，进行解密还原得到长明文信息M2。

将短密文信息C3，结合DES运算单元的密钥K2，进行解密还原得到短明文信息M3。

短明文信息M1，长明文信息M2，短明文信息M3通过结合密钥K1，通过数据编码，进行组合合并，最终还原成为原始的敏感明文信息数据M。

结合附图5，本发明的基于大数据的复合分层式脱敏算法相对已有的数据脱敏算法和基于大数据的脱敏算法具备更好的安全性和速度性。

以上实施方式仅仅是为了说明本发明的原理而采用的示例性方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，为了简明它们并没有在细节中提供，因此这些变型和改进也视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张吉生;吴旻荣;沙卫国;于烨;柴育峰;党引;郭景维;张波;康乐;任东晓;冯国礼
技术所有人：国家电网公司;国网宁夏电力公司信息通信公司;国网宁夏电力公司
我是此专利的发明人

上一篇：一种获取已安装应用程序列表的方法、装置及系统与制造工艺
上一篇：一种音频文件的播放方法及装置与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。