一种基于代理的数据动态快速脱敏实现方法与流程

文档序号：17697443发布日期：2019-05-17 21:44阅读：805来源：国知局

本发明属于信息安全技术领域，尤其涉及一种基于代理的数据动态快速脱敏实现方法。

背景技术：

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据库安全技术之一，数据库安全技术主要包括：数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括：拖库、刷库、撞库。

大数据环境已经逐步应用于了各大企业。企业敏感数据的所有权和使用权缺乏明确界定和管理，可能造成用户隐私信息的泄露和企业内部数据的泄露，直接造成企业声誉和经济的双重损失。从外部来看，数据即价值，大数据平台中复杂、敏感、全面的数据无疑会吸引更多的潜在攻击者。同时，数据的大量汇集，使得黑客成功攻击一次就能获得更多数据，极大降低了黑客的进攻成本。因此，大数据将有可能成为网络攻击的显著目标。大数据平台安全能力的严重缺失和风险的普遍存在，导致大数据平台本身是脆弱的，对企业数据安全造成了极大的风险，对企业来说是难以忽视的风险点。

在大数据环境，数据多是以nosql的存储形式，各种类型的数据也并非是脱敏后进行存储。在访问数据时，对所访问的数据进行敏感检测同时进行脱敏，是大数据环境下实现数据安全访问的重要保障。

技术实现要素：

本发明的目的是提供一种基于代理的数据动态快速脱敏实现方法，用于数据安全与脱敏领域，实现在数据被访问时，进行快速动态脱敏。

本发明提供了一种基于代理的数据动态快速脱敏实现方法，包括：

步骤1，将数据中格式统一的数据单独拆分出来，得到拆分字典集合；所述格式统一的数据包括11位数字数据、2位汉字数据、3位汉字数据、多余10个字符的文本数据中的多种；

步骤2，对所述拆分字典集合中的敏感信息进行分类与识别，得到敏感数据；所述敏感信息包括身份证号、手机号、银行卡号、姓名、社保号码中的多种；

步骤3，基于脱敏算法对所述敏感数据进行动态脱敏，在动态脱敏过程中将敏感数据类别与每个敏感数据类别下的数据数量，进行负载均衡处理，以使动态脱敏的效率达到最高。

进一步地，所述步骤1包括：

将数据进行整体划分，区分出文字、数字、英文字母；

基于上述划分结果，统计每一段的长度，并将长度与划分结果进行组合，将划分结果作为拆分字典的key；

将数据存入其格式所对应的key下，得到拆分字典集合。

进一步地，所述步骤3包括：

统计敏感字段的数量，记为m；统计每种敏感字段下数据的总数量，累计结果，记为n；

将每一个敏感字段与之对应的数据，放至待处理库；

初始化m/2条异步线程，为其设置如下状态：每条线程每次处理该敏感数据时，只处理n/m条数据，不足时不取其他类别；并将其置为空闲状态；

当某条线程处于空闲状态时，去待处理去库中取一个的敏感字段进行脱敏处理，直至该敏感字段下所有数据全部处理完毕，将该敏感字段及其数据移出待处理库。

借由上述方案，通过基于代理的数据动态快速脱敏实现方法，可用于对敏感数据的脱敏工作，实现在数据被访问时，进行快速动态脱敏，为构建安全可信的数据使用环境奠定了坚实的基础。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明一种基于代理的数据动态快速脱敏实现方法的整体流程图；

图2为本发明一种基于代理的数据动态快速脱敏实现方法的数据拆分算法流程图；

图3为本发明一种基于代理的数据动态快速脱敏实现方法的数据归类算法流程图；

图4为本发明一种基于代理的数据动态快速脱敏实现方法的数据脱敏算法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例提供了一种基于代理的数据动态快速脱敏实现方法，包括：

步骤1，将数据中格式统一的数据单独拆分出来，得到拆分字典集合；所述格式统一的数据包括11位数字数据、2位汉字数据、3位汉字数据、多余10个字符的文本数据中的多种。

步骤2，对所述拆分字典集合中的敏感信息进行分类与识别，得到敏感数据；所述敏感信息包括身份证号、手机号、银行卡号、姓名、社保号码中的多种。

该基于代理的数据动态快速脱敏实现方法，可用于对敏感数据的脱敏工作，实现在数据被访问时，进行快速动态脱敏，为构建安全可信的数据使用环境奠定了坚实的基础。

下面对本发明作进一步详细说明。

如图1所示的整体流程图，该方法包括数据的动态拆分、归类及脱敏过程。

参图2所示，数据的动态拆分算法，是对数据的一种拆解，旨在将数据拆分开来，实现快速分类与有针对性的脱敏。即将数据中，格式统一的数据单独拆分出来，包括：11位数字数据、2位汉字数据、3位汉字数据、多于10个字符的文本数据等。为后续有针对性的脱敏处理，做好充分准备。具体步骤包括：

(1)将数据进行整体划分，即区分出文字、数字、英文字母三种；

(2)针对上述划分结果，统计每一段的长度，并将长度与划分结果进行组合，如“3位汉字”、“11位数字”、“10以下英文字母”等，将划分结果作为拆分字典的key；

(3)将数据存入其格式所对应的key下，得到拆分字典集合。

参图3所示，数据的归类算法，是将数据拆分后的结果，即拆分字典集合，进行归类与识别，包括常见的敏感信息：身份证号、手机号、银行卡号、姓名、社保号码等，并对其做好标记。

参图4所示，数据的脱敏算法，是指将归类后的敏感数据，有针对性的使用脱敏算法进行动态脱敏。将敏感数据类别与每个敏感数据类别下的数据数量，进行有效的负载均衡处理，使动态脱敏的效率达到最高。具体步骤包括：

(1)统计敏感字段的数量，记为m；统计每种敏感字段下数据的总数量，累计结果，记为n；

(2)将每一个敏感字段与之对应的数据，放至待处理库；

(3)初始化m/2条异步线程，为其设置如下状态：每条线程每次处理该敏感数据时，只处理n/m条数据，不足时不取其他类别；并将其置为空闲状态；

(4)当某条线程处于空闲状态时，去待处理去库中取一个的敏感字段进行脱敏处理，直至该敏感字段下所有数据全部处理完毕，将该敏感字段及其数据移出待处理库。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨国玉;白西让
技术所有人：中国大唐集团科学技术研究院有限公司
我是此专利的发明人

上一篇：一种无公害叶绿素大米的生产制备方法与流程
上一篇：一种抗菌抑菌机织面料的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。