一种政务大数据脱敏处理方法及装置与流程

文档序号:16579228发布日期:2019-01-14 17:49阅读:669来源:国知局
一种政务大数据脱敏处理方法及装置与流程

本公开涉及大数据信息安全领域,具体涉及一种政务大数据脱敏处理方法及装置。



背景技术:

政务大数据广泛分布在教育、企业管理、社保、民政、安全等多个方向的领域,政务大数据的数量大,且多源异构、隐私性与机密性强、附加价值高,因为数据的受众广泛、互联网环境复杂混乱,所以企业及公民的隐私信息外泄和被爬虫软件抓取、泄露的风险很大,而且与泄露的隐私相关的隐私信息很容易导致泄露,数据的安全稳定性难以控制。

政务大数据脱敏是指对政务大数据中某些敏感信息(如:统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、ip地址、联系地址)通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的数据,现有的方法中均无法实现跨系统、在不同的平台间的数据脱敏。



技术实现要素:

为解决上述问题,本公开提供一种政务大数据脱敏处理方法及装置,将政务大数据的数据实体进行序列化转化为xml序列化对象,能够实现跨系统、在不同的平台间的数据脱敏、保障企业及公民的隐私信息安全。

为了实现上述目的,根据本公开的一方面,提供一种政务大数据脱敏处理方法,所述方法包括以下步骤:

步骤1,读取政务大数据的数据实体;

步骤2,将政务大数据的数据实体进行序列化转化为xml序列化对象;

步骤3,遍历读取xml序列化对象得到各个字段节点;

步骤4,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏。

进一步地,在步骤1中,所述政务大数据的数据实体至少包括统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、ip地址、联系地址。

进一步地,在步骤2中,将政务大数据的数据实体进行序列化转化为xml序列化对象包括以下子步骤,

步骤2.1,根据政务大数据的数据实体统一社会信用代码或身份证号码创建xml文件的根节点对象,并将该根节点对象插入xml文件的文档对象中,其中,如果政务大数据为企业信息则以统一社会信用代码作为xml文件的根节点对象,如果政务大数据为自然人信息则以身份证号码作为xml文件的根节点对象;

步骤2.2,判断政务大数据的数据实体中是否还有下一行数据,如果存在下一行数据,转至步骤2.3,如果不存在下一行数据,转至步骤2.7;

步骤2.3,获得政务大数据的数据实体中的数据实体名,设为t,创建以t为元素名的父节点对象,所述数据实体名为统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、ip地址、联系地址;

步骤2.4,判断政务大数据的数据实体中是否还有下一个数据实体名,如果存在下一个数据实体名,设为第x个数据实体名,从政务大数据的数据实体中取出存在下一个数据实体名的行中第x个数据值,定义为y,转至步骤2.5继续执行;如果不存在下一个数据实体名,将父节点对象插入根节点对象中,并将y存储到数组a中,转至步骤2.2继续执行,所述数组a,即数组a[i][j]为20行20列的数组,i、j范围为0~19;

步骤2.5,创建以数据实体名为元素名的子节点对象;并将数据实体名与数组a中第一列的数据进行比对,如果数组a的第一列数据中没有与数据实体名相匹配的数据,则以y作为子节点的文本值,插入子节点对象中,转至步骤2.7;若数组a的第一列数据中存在相匹配的数据,转至步骤2.6继续执行;

步骤2.6,将创建的子节点对象插入父节点对象中,转至步骤2.7继续执行;

步骤2.7,得到xml序列化对象。

进一步地,在步骤3中,遍历读取xml序列化对象得到各个字段节点的遍历方法为深度优先搜索,所述xml序列化对象由多个字段节点组成,字段节点之间的结构为树状结构或者线性结构。

例如,树状结构的xml序列化对象中baseinfo字段节点为根节点,与根节点连接的第二层节点由多个person节点组成,与第二层的person节点连接的第三层节点又包括name、age、clients节点,与第三层的clients节点连接的第四层节点又包括中多个book构成,与第四层的clients节点连接的第五层节点在book中又包括isbn和title,即每层能够有多个节点与上一层的其中一个节点进行连接。

例如,线性结构的xml序列化对象中baseinfo字段节点为根节点,第二层节点由一个person子节点构成,与第二层的person节点连接的第三层节点由一个clients节点构成,与第三层的clients节点连接的第四层节点由一个book组成,与第四层的clients节点连接的第五层节点由一个title组成,即每层只有一个节点与上一层连接。

进一步地,在步骤4中,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏的方法为:

步骤4.1,根据预置的数据脱敏规则设定的敏感数据类型判断字段节点的数据是否属于敏感数据;所述预置的数据脱敏规则为统一社会信用代码、身份证号码、电话号码的数据生成规则,设定统一社会信用代码、身份证号码、电话号码为敏感数据类型。

步骤4.2,按照变换规则替换敏感数据类型的字段节点的数据,直到xml序列化对象中所有敏感信息键-值对的敏感字段替换完毕;所述变换规则属于现有技术中的任何一种,如直接替换、变位替换,所谓直接替换就是用新生字段直接替换敏感字段,所谓变位替换就是将新生字段的位置变换打乱以后替换敏感字段,例如对于身份证号,可以将新生字段的身份证号的第一位数字和第二位数字换位以后再替换敏感字段的身份证号。

本发明还提供了一种政务大数据脱敏处理装置,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在所述装置的以下单元中:

数据实体读取单元,用于读取政务大数据的数据实体;

序列化单元,用于将政务大数据的数据实体进行序列化转化为xml序列化对象;

节点遍历单元,用于遍历读取xml序列化对象得到各个字段节点;

数据脱敏单元,用于通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏。

本公开的有益效果为:本发明提供一种政务大数据脱敏处理方法及装置,有很强的兼容性,能够方便的进行跨系统、跨平台测试运行,支持现有的数据库中的敏感数据直接脱敏不需要进行改变现有的数据库存储规则,能够实现跨系统、在不同的平台间的数据脱敏、保障企业及公民的隐私信息安全性与可靠性。

附图说明

通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:

图1所示为一种政务大数据脱敏处理方法的流程图;

图2所示为一种政务大数据脱敏处理装置图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种政务大数据脱敏处理方法的流程图,下面结合图1来阐述根据本公开的实施方式的一种政务大数据脱敏处理方法。

本公开提出一种政务大数据脱敏处理方法,具体包括以下步骤:

步骤1,读取政务大数据的数据实体;

步骤2,将政务大数据的数据实体进行序列化转化为xml序列化对象;

步骤3,遍历读取xml序列化对象得到各个字段节点;

步骤4,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏。

进一步地,在步骤1中,所述政务大数据的数据实体至少包括统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、ip地址、联系地址。

进一步地,在步骤2中,将政务大数据的数据实体进行序列化转化为xml序列化对象包括以下子步骤,

步骤2.1,根据政务大数据的数据实体统一社会信用代码或身份证号码创建xml文件的根节点对象,并将该根节点对象插入xml文件的文档对象中,其中,如果政务大数据为企业信息则以统一社会信用代码作为xml文件的根节点对象,如果政务大数据为自然人信息则以身份证号码作为xml文件的根节点对象;

步骤2.2,判断政务大数据的数据实体中是否还有下一行数据,如果存在下一行数据,转至步骤2.3;如果不存在,转至步骤2.7;

步骤2.3,获得政务大数据的数据实体中的数据实体名,设为t,创建以t为元素名的父节点对象,所述数据实体名为统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、ip地址、联系地址;

步骤2.4,判断政务大数据的数据实体中是否还有下一个数据实体名,如果存在,设为第x个数据实体名,从政务大数据的数据实体中取出该行中第x个数据值,定义为y,转至步骤2.5继续执行;如果不存在下一个数据实体名,将父节点对象插入根节点对象中,并将y存储到数组a中,转至步骤2.2继续执行,所述数组a,即数组a[i][j]为20行20列的数组,i、j范围为0~19;

步骤2.5,创建以数据实体名为元素名的子节点对象;并将数据实体名与数组a中第一列的数据进行比对,如果数组a的第一列数据中没有与数据实体名相匹配的数据,则以y作为子节点的文本值,插入子节点对象中,转至步骤2.7;若数组a的第一列数据中存在相匹配的数据,转至步骤2.6继续执行;

步骤2.6,将创建的子节点对象插入父节点对象中,转至步骤2.7继续执行;

步骤2.7,得到xml序列化对象。

进一步地,在步骤3中,遍历读取xml序列化对象得到各个字段节点的遍历方法为深度优先搜索,所述xml序列化对象由多个字段节点组成,字段节点之间的结构为树状结构或者线性结构。

例如,树状结构的xml序列化对象中baseinfo字段节点为根节点,与根节点连接的第二层节点由多个person节点组成,与第二层的person节点连接的第三层节点又包括name、age、clients节点,与第三层的clients节点连接的第四层节点又包括中多个book构成,与第四层的clients节点连接的第五层节点在book中又包括isbn和title,即每层能够有多个节点与上一层的其中一个节点进行连接。

例如,线性结构的xml序列化对象中baseinfo字段节点为根节点,第二层节点由一个person子节点构成,与第二层的person节点连接的第三层节点由一个clients节点构成,与第三层的clients节点连接的第四层节点由一个book组成,与第四层的clients节点连接的第五层节点由一个title组成,即每层只有一个节点与上一层连接。

例如,xml序列化对象的具体形式为:

进一步地,在步骤4中,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏的方法为:

步骤4.1,根据预置的数据脱敏规则设定的敏感数据类型判断字段节点的数据是否属于敏感数据;所述预置的数据脱敏规则为统一社会信用代码、身份证号码、电话号码的数据生成规则,设定统一社会信用代码、身份证号码、电话号码为敏感数据类型。

步骤4.2,按照变换规则替换敏感数据类型的字段节点的数据,直到xml序列化对象中所有敏感信息键-值对的敏感字段替换完毕;所述变换规则属于现有技术中的任何一种,如直接替换、变位替换,所谓直接替换就是用新生字段直接替换敏感字段,所谓变位替换就是将新生字段的位置变换打乱以后替换敏感字段,例如对于身份证号,可以将新生字段的身份证号的第一位数字和第二位数字换位以后再替换敏感字段的身份证号。

优选地,将xml序列化对象进行数据脱敏后反序列为政务大数据的代码如下例子:

本公开的实施例提供的一种政务大数据脱敏处理装置,如图2所示为本公开的一种政务大数据脱敏处理装置图,该实施例的一种政务大数据脱敏处理装置包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种政务大数据脱敏处理装置实施例中的步骤。

所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在所述装置的以下单元中:

数据实体读取单元,用于读取政务大数据的数据实体;

序列化单元,用于将政务大数据的数据实体进行序列化转化为xml序列化对象;

节点遍历单元,用于遍历读取xml序列化对象得到各个字段节点;

数据脱敏单元,用于通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏。

所述一种政务大数据脱敏处理装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种政务大数据脱敏处理装置,可运行的装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种政务大数据脱敏处理装置的示例,并不构成对一种政务大数据脱敏处理装置的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种政务大数据脱敏处理装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种政务大数据脱敏处理装置运行装置的控制中心,利用各种接口和线路连接整个一种政务大数据脱敏处理装置可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种政务大数据脱敏处理装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1