本发明涉及一种新的数据脱敏算法——基于哈希算法的高仿真数据脱敏算法。
背景技术:
大数据分析需要将大量的数据进行整合,从而得以充分的从数据中挖掘隐藏的价值,挖掘出的信息将为业务部门提供有效的决策依据,从而提高生产效率,创造价值。
但是,用于进行数据分析的数据中可能包括个人隐私数据以及敏感信息,例如身份证信息,酒店入住纪录,用户支付信息等,这些数据一旦泄露将涉及个人隐私安全。现有的大数据平台一般通过用户认证,权限管理以及数据加密等方式确保数据安全。可是,以上方式并不能完全保证数据不被获取,破解。一方面,任何数据存储流通环节中的参与人员,均可能存在导致数据泄漏的风险。另一方面,那些没有访问用户数据权限的人员,也可能有存在对该数据进行分析与挖掘的需求,数据的访问权限的限制,将导致数据价值无法得到充分利用。
数据脱敏需要对数据进行漂白,消除数据中的敏感内容。与此同时,在对数据进行脱敏的同时,需保证脱敏后的数据可用性,并在一定范围内保证恶意攻击者无法将数据与具体用户关联到一起,从而保证用户数据的隐私性。数据脱敏方案是大数据平台整体数据安全解决方案的重要组成部分,是构建安全可靠的大数据平台必不可少的功能特性。
技术实现要素:
发明目的:本发明针对数据脱敏的需求,提出一种新的数据脱敏算法——基于哈希算法的高仿真数据脱敏算法。既保证了消除数据中的敏感内容,使得数据与原始数据相似,也保留了数据脱的原始特征,保证脱敏后的可用性。
技术方案:本发明使用的脱敏算法括三个部分:获取脱敏预处理,哈希计算及返回脱敏结果。脱敏预处理:首先对需要的数据进行逻辑整理,分析出脱敏数据的逻辑结构,并在计算机中定义相关的数据结构进行存储。构成数据模型库。随后将需要脱敏的数据在数据模型库中的相关数据数据结构中检索出数据的存储信息,以供数据脱敏之用。哈希计算:将数据与处理中查找出的位置信息作为换,改变哈希计算的计算形式。返回脱敏结果:根据哈希计算出的结果,可以从数据预处理环节的中定义的数据模型库的对应的数据结构中找出脱敏后的结果。
有益效果:本发明的显著优点是利用自定义数据结构与哈希算法进行数据脱敏,可以在高效的情况下脱敏出高仿真的脱敏数据。
附图说明
图1是本发明的总体结构图。
图2是本发明的数据处理流程图。
图3是以地址为例的数据脱敏流程。
图4数据脱敏结果结果。
图5是地址脱敏结果示意图。
图6是身份证前6位脱敏结果示意图。
图7是数据结构示意图。
图8是地址数据信息的逻辑关系图。
具体实施方式
1.分析需脱敏数据的数据特征,构造自定义数据模型。
根据脱敏需求,首先针对需脱敏数据的特点,对其定义一套数据模型,抽象出一套共有的数据结构,以姓名为例,我们可将拆分成:姓+名。我们在进行姓名脱敏的时候需要对与字分别进行脱敏处理。首先,收集姓氏与名数据,分别建立姓氏库与名库。对于以上两个库中的数据都分配一个唯一的id。以id值为key值,类似的数据可以构造如下的键值对:
{
“key_0”:
“value_0”
}
设这样的键值对中key值为k,value值为v,构成这样的键值对为d,那么所有的键值对构成集合。
d={k:v}
d={d1,d2,…,dn}
其结构如图7所示:
键值对的形式可以覆盖大部分需脱敏数据的数据特点,然而,并非所有的待脱敏数据都可以键值对的形式展现,有些数据需要构造树形数据结构,这样的数据具有一定的层次结构,成嵌套关系:
a{b1,b2,…bn}
b{c1,c2,…cn}
……
例如针对省市区县数据的脱敏就需要先构造具有省,市,区的层次结构的地址数据信息,如图8所示。
2.对需脱敏数据进行解析,解析其需要脱敏的数字特征。
对于需要脱敏的单条数据data,针对其数据特点,选定其对应的数据模型model,对于每一项需要脱敏数据的特点,找出其标签值oritag,oritag往往对应1中键值对的key值:
oritag=getoritag(model,data)
3.利用哈希算法对2生成的数字特征进行哈希计算,生成脱敏后的数字特征。
对于每一项需要脱敏的数据项在集合d中找出对应的子项di,找出对应的key值传入哈希函数计算出脱敏后的key值。
我们定义如下一个哈希函数:
h=h(x,α),x∈[k1,k2,…,kn],
x代表输入的原始标签信息,即2中的oritag,同时也为1中所述的key值,α代表周期因子,取值随机化,哈希函数的计算值将随着α的输入而产生变化。通过哈希函数计算我们可以获得脱敏后的的id信息。
4.利用3生成的数字特征,以及步骤1构造的自定义数据模型生成高仿真的脱敏数据。
利用3生成的脱敏后的数据存储信息,根据其对应的数据模型,检索生成新的脱敏数据。由于新数据来自于真实数据构成的模型,所以脱敏数据高度仿真。
1.一种基于哈希算法的高仿真数据脱敏算法,其特征在于定义一种新的数据脱敏方式——利用哈希算法进行数据脱敏,利用被脱敏数据的数据特征,结合上述两点实现数据的高仿真脱敏。
2.一种基于哈希算法的高仿真数据脱敏算法,其特征在于提出使用使用哈希算法应用于数据脱敏,即使用不可逆的哈希算法对进数据脱敏,对权利要求1进行数据的某些特征进行哈希计算。
3.一种基于哈希算法的高仿真数据脱敏算法,其特征在于利用真实数据来生成脱敏结果,即使用真实数据对权利要求1中的数据进行数据生成。
4.一种基于哈希算法的高仿真数据脱敏算法,其特征在于提出一种灵活的数据脱敏框架,其主要步骤如下:
步骤1:分析需脱敏数据的数据特征,构造自定义数据模型;
步骤2:对需脱敏数据进行解析,利用步骤1的构造的数据模型解析出脱敏数据的数字特征;
步骤3:利用哈希算法对步骤2生成的数字特征进行哈希计算,生成脱敏后的数字特征;
步骤4:利用步骤3生成的数字特征,以及步骤1构造的自定义数据模型生成高仿真的脱敏数据。