一种基于互补映射的数据库汉语姓名脱敏方法

文档序号:10471428阅读:353来源:国知局
一种基于互补映射的数据库汉语姓名脱敏方法
【专利摘要】本发明提出了一种基于互补映射的数据库汉语姓名脱敏的新方法。一般的数据库处理汉语姓名的方法是直接去除姓名项或者乱码代替,这样带来数据库的严重信息损失。本方法的特点有效保障了数据唯一性和可标识别性,使得数据库在处理过程中无信息损失。首先通过对数据库中的汉语姓名分解成单个汉字,然后将汉字编码得到编码数据,之后采用两步初等变换方法将编码次序置乱,最后使用互补映射得到脱敏码,组合得到汉语姓名的全部脱敏结果。大量的数据库实验证明,这种方法十分有效,并且能够达到数据库无损脱敏的技术要求。
【专利说明】
-种基于互补映射的数据库汉语姓名脱敏方法
技术领域
[0001] 本发明主要用于数据库隐私保护,具体表现为一种设及汉字编码、数据置乱和互 补映射等概念的数据库汉语姓名转换方法。
【背景技术】
[0002] 姓名脱敏方法是隐私保护方法研究的重要问题。在运个信息爆炸的时代,隐私保 护成了大数据应用的技术壁垒,如何保护数据库中的隐私信息是亟待攻克的技术难题。隐 私是指不愿为他人所知悉的个人信息。包括个人的内在思想、外在生活方式、身体状况、家 庭关系和背景、生活环境与空间等与公共利益无关的个人事务和情况。2013年4月1日,国家 工业和信息化部编制的《信息安全技术、公共及商用服务信息系统个人信息保护指南》正式 实施。指南明确将个人信息分为个人一般信息和个人敏感信息;同时要求,处理个人信息应 当具有特定的、明确的和合理的目的,应当在个人信息主体知情的情况下获得个人信息主 体的同意。对于个人一般信息的处理可W建立在默许同意的基础上,只要个人信息主体没 有明确表示反对,便可收集和利用;但对于个人敏感信息,则需要建立在明示同意的基础 上,在收集和利用之前,必须首先获得个人信息主体明确的授权。在运些个人敏感信息中, 姓名是一个重要且备受用户或者公众关注的信息。从中华上下五千年历史的角度来看,姓 名是文化脉承的重要方式之一,是W血脉传承为根基的社会人文标识,是人们在社会关系 中必不可少的符号,是个人在社会人文交流中必须的用于信息表达、交流及传播的工具。在 大数据领域,设及的个人敏感信息常在百万条W上,多则数千万甚至几亿条,要征得运些个 体的同意,然后再进行统计和使用,是不能的事情。因此姓名脱敏成了数据库隐私保护的重 要的技术问题。
[0003] 姓名汉字编码是姓名脱敏的重要技术。当前汉字编码方法非常多,比如区位码、内 码、外码W及ASCII码等等。本专利选择1981年国家标准局公布的《信息交换用汉字编码字 符集基本集》(简称汉字标准交换码)。该套汉字标准交换码共分两级,一级3755个字,二级 3008个字,共6763个汉字。运种汉字标准交换码是计算机的内部码,可W为各种输入输出设 备的设计提供统一的标准,使各种系统之间的信息交换有共同一致性,从而使信息资源的 共享得W保证。就大数据中的姓名信息脱敏而言,脱敏的效率是必须考虑的重要因素,因此 不宜采用过于复杂的编码技术。与那些复杂的编码技术不同,汉字标准交换码的主要优点 就在于使用起来简单高效。
[0004] 数据置乱是姓名信息脱敏的必不可少的步骤。数据置乱是信息脱敏的一项常用技 术,其目的是将数据置换成阅读者难W识别其原有分布规律的数据,同时保持数据的大小、 规模不发生改变。
[0005] 补码映射是姓名信息脱敏的保障技术。补码思想基于互补守恒原理,两个量互补 是指它们之和总是一个常数。本专利中每个汉字对应四位区位码,因此我们指定原码和补 码之和为定常数9999。

【发明内容】

[0006] 本发明的目的在于提出一种基于互补映射的数据库汉语姓名脱敏方法,W减少数 据库中汉语姓名的信息存在为目的,W保障数据真实性为原则。同时,本发明要求脱敏方法 是可逆的,即要能从脱敏库还原原始数据库。本专利发明的方法,整个脱敏过程完全由计算 机自动完成的,用户只需要输入原始数据库,就可让计算机自动对数据库汉语姓名进行脱 敏,最终得到脱敏后的数据库。
[0007] 本发明的技术方案如下:
[000引步骤1,对汉语姓名的汉字分解,根据字节分割姓名,N= {XI,X2,X3,…,Xk};
[0009] 步骤2,对汉字进行编码,本专利采用国家标准汉字码,Ul = c(Xl),i = l,2,…,k.
[0010] 步骤3,对每个汉字对应码采用初等变换矩阵分两步置乱VI = 1 (m),i = 1,2,…,k;
[0011] 步骤4,将置乱后的汉字编码用互补映射得到补码,互补映射为: Ei = F(vi) = 9999-vi,i = l,2,...,k,例如:F(8021) =9999-8021 = 1978;
[001^ 步骤5,将补码组合生成脱敏姓名数据E =趾2...Ek。
【附图说明】
[0013] 读者在参照附图阅读了本发明的【具体实施方式】W后,将会更清楚地了解本发明的 各个方面。说明书附图为1000条数据的脱敏结果,前面Ξ列为原始数据,后面Ξ列为脱敏后 的数据。 图1至图19均是方法发明的应用实例图,我们从数据库中选择了 1000条数据作为隐私 保护的对象,第一列为数据库中的汉语姓名,是敏感信息属性,为了保护隐私,用"某"或者 "某某'隐去名字,仅留下姓,后面2至4列依次分别是"性那年龄""出生日撕',第五列对应 脱敏后的姓名代码,后面6至8列依次分别是"性别""年龄""出生日期",从图1至图19可W看 出,脱敏后已经很难识别出个人信息了,达到了数据脱敏的目的。
【具体实施方式】
[0014] 步骤1,首先从输入的数据库记录中提取姓名字段,将对应字段的姓名进行汉字分 解,得到单个汉字,如"公孙聚云"=Γ公","抓V'聚V'云"}。
[001引步骤2,给出每个汉字的唯一标识码,实例如2511 = CΓ公"),4379 = CΓ抓'),3059 = c("聚"),5238 = c("云"),在具体实施的过程中,如果碰到目前码表库里没有的生僻汉 字,自动加码,即在现有码库中最大码加上1为该生僻汉字的对应码。
[0016]步骤3,将已经编码好的汉字对应码置乱,实施时,置乱方式如下:例如汉字"孙"对 应编码为4379,现将4379置乱,将4379看成4维向量,用四阶初等矩阵来完成置乱,本专利采 用:1)对分交换:

结果是:9743 = 1 (4379)即为置乱码。
[0017] 步骤4,在应用时仅需要直接用9999减去置乱码即可生成单个汉字的补码。 例如:0256 = F(9743) =9999-9743。
[0018] 步骤5,具体实施时,组码不改变次序,采用直接组合而成。 例如:通过实施前面的步骤:"公"-->8874,"孙"-->0256,"聚"-->0469,"云"-->1647, 那么"公孙聚云"对应脱敏数据为:8874025604691647。
【主权项】
1. 一种基于互补映射的数据库汉语姓名脱敏方法,其特征在于: 对数据库汉语姓名脱敏时,要求保护如下方法步骤,其步骤具体如下: 步骤1,对汉语姓名的汉字分解,根据字节分割姓名,N={xi,X2,X3, . . .,Xk); 步骤2,对汉字进行编码,本专利采用国家标准汉字码,Ui = c(xi),i = l,2,. . .,k.实例 如: 胆:2108;弹:2115;蛋:2116; 步骤3,对每个汉字对应码采用初等变换矩阵分两步置乱Vi = 1 (m),i = 1,2,. . .,k; 步骤4,将置乱后的汉字编码用互补映射得到补码,互补映射为: Ei = F(vi) = 9999-vi,i = l,2, · · ·,k,例如:F(8021)=9999-8021 = 1978; 步骤5,将补码组合生成脱敏姓名数据EiEiEs. . .Ek。2. 根据基于互补映射的数据库汉语姓名脱敏方法,专利权利要求保护置乱码的变换方 法,具体如下: 要求保护对步骤3中置乱码的方法为: vi = m*P*Q,i = l,2,…,k 第一次采用初等矩阵pS:第二次采用初等矩阵Q为: 实例如:2108置乱为8021 ;2115置乱为5121 ;2116置乱为6121。3. 根据基于互补映射的数据库汉语姓名脱敏方法,专利权利要求保护互补码的生成方 法,具体如下: Ei = F(vi) = 9999_vi,i = 1,2,· · ·,k; 即要求Ei和vi互补,Ei+vi = 9999。
【文档编号】G06F21/62GK105825141SQ201610072405
【公开日】2016年8月3日
【申请日】2016年2月2日
【发明人】罗建峰, 袁玉波
【申请人】上海健晴信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1