一种双层过滤式的数据脱敏方法和系统与流程

文档序号:15446937发布日期:2018-09-14 23:28阅读:226来源:国知局
本发明涉及数据分析的
技术领域
,特别是一种双层过滤式的数据脱敏方法和系统。
背景技术
:医院业务系统积累了大量患者病历信息,这些数据对病人是个人及疾病的隐私数据,如果这些敏感数据被泄露,不但会给医院带来经济和声誉上的损失,还会威胁到患者的财产和个人安全。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境中安全地使用脱敏后的真实数据集。加密和删除敏感数据是数据脱敏的两种常用方法,这两种方法都有一定的缺陷。加密脱敏能够保证数据的一致性,但不同加密算法生成的数据仿真性较差,破解了加密数据就相当于得到了用户的原始数据,因此安全等级不高;删除敏感数据是通过删除或替换部分关键数据达到脱敏效果的脱敏方法,脱敏过程为数据带来了一定程度的信息损坏,不能保障了数据唯一性和可标识别性。公开号为cn106295400a的发明专利公开了一种蒙版式数据脱敏方法及相关设备,其中方法包括建立敏感字段规则库、定位敏感字段、生成脱敏数据蒙版、调用脱敏数据等步骤,可以实现大批量、高仿真的。该方法是设置内置的敏感字段识别规则已达到识别、生成和脱敏处理目标的目的,不能够通过人工干预和系统自学习的方法,自动增减敏感字段数据库中的内容。技术实现要素:为了解决上述的技术问题,本发明提出一种双层过滤式的数据脱敏方法和系统,采用双层过滤式脱敏,同时满足单向脱敏和高仿真的脱敏过程需求。强化了脱敏过程的人为控制能力,对机器脱敏过程的进行监管和学习干预。本发明的第一目的是提供了一种双层过滤式的数据脱敏方法,包括提取待识别数据,还包括以下步骤:步骤1:提取所述待识别数据中的敏感字段;步骤2:生成仿真数据库;步骤3:对数据进行脱敏处理。优选的是,所述步骤1包括以下子步骤:步骤11:识别所述敏感字段;步骤12:校对识别结果。在上述任一方案中优选的是,所述步骤11包括根据常规规则判断所述敏感字段。在上述任一方案中优选的是,所述步骤11还包括利用分词统计模型检查方式分析数据是否为所述敏感字段,并确定所述敏感字段类别。在上述任一方案中优选的是,所述分词统计模型包括模型字符类型分析参数s1、模型字符长度分析参数s2、模型词频数量分析参数s3和模型词频位置分析参数s4中至少一种。在上述任一方案中优选的是,所述模型字符类型分析参数s1是指带判定字段s的字符占比评价的得分,计算公式为s1=[100-absc1-c/100,其中,c1为待比较的字段字符比例,c为模型的字段字符比例。在上述任一方案中优选的是,所述模型字符长度分析参数s2的计算公式为s2=[abs(sl1-l1)/max(sl1,l1)+abs(sl2-l2)/max(sl2,l2)]×le1+[abs(sl3-l3)/max(sl3,l3)+abs(sl4-l4)/max(sl4,l4)]×le2×n+[abs(sl5-l5)/max(sl5,l5)+abs(sl6-l6)/max(sl6,l6)]×le2×(1-n),其中,sl1和sl2为所述带判定字段s经过长度计算得出的该字段的最小长度和最大长度,sl3和sl4为出现的最多字符长度和对应占比,sl5和sl6为次多字符长度和对应占比,le1和le2为长度权重系数,n代表le1所占比例,le1+le2=1。在上述任一方案中优选的是,所述模型词频数量分析参数s3是指根据不同的统计模型计算累加值pn,pn的计算公式为pn=p(n)/{∑[p(1)-p(n)]/n},其中,n为模型中参数的项数。在上述任一方案中优选的是,所述模型词频位置分析参数s4是指判断分词在字段中的出现位置和出现的几率。在上述任一方案中优选的是,所述步骤12包括通过人工方式和/或程序自学习方式指定敏感字段,并通过所述指定敏感字段进行数据分词和统计分析。在上述任一方案中优选的是,所述步骤12还包括通过学习获取数据特征,形成新的敏感字段识别模型,完善敏感字段识别效果。在上述任一方案中优选的是,所述步骤2为根据所述敏感字段清单,生成所需转换的仿真数据。在上述任一方案中优选的是,所述步骤2还包括通过人工方式和/或程序自学习方式核查仿真数据生成内容,筛选和/或剔除部分所述仿真数据,调整仿真数据生成规则的相应参数。在上述任一方案中优选的是,所述步骤3为当发现所述敏感字段后,从所述仿真数据库中取出所述仿真数据替换所述敏感字段,并记录元数据和仿真数据的对照关系,所述元数据是所述敏感字段的值。在上述任一方案中优选的是,所述步骤3还为当所有的税局经过过滤式脱敏转换后,彻底清除元数据和仿真数据的对照关系,保证所述数据的单项脱敏,不可回溯原始数据。在上述任一方案中优选的是,所述步骤3还包括人工方式和/或程序自学习方式确认脱敏结果后,允许下载或者授权访问脱敏数据。本发明的第二目的是提供了一种双层过滤式的数据脱敏系统,包括用于提取待识别数据的数据提取模块,还包括以下模块:敏感字段提取模块:用于提取所述待识别数据中的敏感字段;仿真数据生成模块:用于生成仿真数据库;数据脱敏模块:用于对数据进行脱敏处理。优选的是,所述敏感字段提取模块包括以下子模块:敏感数据识别子模块:用于识别所述敏感字段;敏感数据校对子模块:用于校对识别结果。在上述任一方案中优选的是,所述敏感数据识别子模块具有根据常规规则判断所述敏感字段的功能。在上述任一方案中优选的是,所述敏感数据识别子模块还具有利用分词统计模型检查方式分析数据是否为所述敏感字段,并确定所述敏感字段类别的功能。在上述任一方案中优选的是,所述分词统计模型包括模型字符类型分析参数s1、模型字符长度分析参数s2、模型词频数量分析参数s3和模型词频位置分析参数s4中至少一种。在上述任一方案中优选的是,所述模型字符类型分析参数s1是指带判定字段s的字符占比评价的得分,计算公式为s1=[100-absc1-c/100,其中,c1为待比较的字段字符比例,c为模型的字段字符比例。在上述任一方案中优选的是,所述模型字符长度分析参数s2的计算公式为s2=[abs(sl1-l1)/max(sl1,l1)+abs(sl2-l2)/max(sl2,l2)]×le1+[abs(sl3-l3)/max(sl3,l3)+abs(sl4-l4)/max(sl4,l4)]×le2×n+[abs(sl5-l5)/max(sl5,l5)+abs(sl6-l6)/max(sl6,l6)]×le2×(1-n),其中,sl1和sl2为所述带判定字段s经过长度计算得出的该字段的最小长度和最大长度,sl3和sl4为出现的最多字符长度和对应占比,sl5和sl6为次多字符长度和对应占比,le1和le2为长度权重系数,n代表le1所占比例,le1+le2=1。在上述任一方案中优选的是,所述模型词频数量分析参数s3是指根据不同的统计模型计算累加值pn,pn的计算公式为pn=p(n)/{∑[p(1)-p(n)]/n},其中,n为模型中参数的项数。在上述任一方案中优选的是,所述模型词频位置分析参数s4是指判断分词在字段中的出现位置和出现的几率。在上述任一方案中优选的是,所述敏感数据校对子模块用于通过人工方式和/或程序自学习方式指定敏感字段,并通过所述指定敏感字段进行数据分词和统计分析。在上述任一方案中优选的是,所述敏感数据校对子模块还用于通过学习获取数据特征,形成新的敏感字段识别模型,完善敏感字段识别效果。在上述任一方案中优选的是,所述仿真数据生成模块用于根据所述敏感字段清单,生成所需转换的仿真数据。在上述任一方案中优选的是,所述仿真数据生成模块还用于通过人工方式和/或程序自学习方式核查仿真数据生成内容,筛选和/或剔除部分所述仿真数据,调整仿真数据生成规则的相应参数。在上述任一方案中优选的是,所述数据脱敏模块用于当发现所述敏感字段后,从所述仿真数据库中取出所述仿真数据替换所述敏感字段,并记录元数据和仿真数据的对照关系,所述元数据是所述敏感字段的值。在上述任一方案中优选的是,所述数据脱敏模块还用于当所有的税局经过过滤式脱敏转换后,彻底清除元数据和仿真数据的对照关系,保证所述数据的单项脱敏,不可回溯原始数据。在上述任一方案中优选的是,所述数据脱敏模块还用于包括人工方式和/或程序自学习方式确认脱敏结果后,允许下载或者授权访问脱敏数据。本发明提出了一种双层过滤式的数据脱敏方法和系统,每个阶段过程都由自动处理和机器学习两层模块方式进行过滤处理,结合了机器自动识别和处理能力,加入机器学习校正的双重特点,对数据进行双层过滤式脱敏;数据脱敏处理遵循单向脱敏和高仿真性脱敏原则,使脱敏数据保持高可用性的同时,完全脱离数据源的敏感隐私内容。用于优化医院数据脱敏的处理进程、提高数据处理的仿真度,实现敏感隐私数据的可靠保护。附图说明图1为按照本发明的双层过滤式的数据脱敏方法的一优选实施例的流程图。图2为按照本发明的双层过滤式的数据脱敏系统的一优选实施例的模块图。图3为按照本发明的双层过滤式的数据脱敏系统的如图4所示实施例的项目结构图。图4为按照本发明的双层过滤式的数据脱敏方法的表关系集获取的一实施例的流程图。具体实施方式下面结合附图和具体的实施例对本发明做进一步的阐述。实施例一本发明提供了一种双层过滤式的仿真数据脱敏方法及相关系统。每个阶段过程都由自动处理和机器学习两层模块方式进行过滤处理,结合了机器自动识别和处理能力,加入机器学习校正的双重特点,对数据进行双层过滤式脱敏;数据脱敏处理遵循单向脱敏和高仿真性脱敏原则,使脱敏数据保持高可用性的同时,完全脱离数据源的敏感隐私内容。用于优化医院数据脱敏的处理进程、提高数据处理的仿真度,实现敏感隐私数据的可靠保护。如图2所示,双层过滤式仿真数据脱敏系统包括数据提取模块200、敏感字段提取模块210、仿真数据生成模块220和数据脱敏模块230,其中,敏感字段提取模块210包括敏感数据识别子模块211和敏感数据校对子模块212。如图1所示,执行步骤100,识别敏感字段。根据正则表达式等常规规则判断电话、邮箱等规则的敏感字段;利用分词统计规则检查方式,分析其他数据是否是敏感字段,并确定敏感字段类别(姓名、地址等)。执行步骤110,识别结果校正。通过人工方式和/或程序自学习方式指定一些敏感字段,让系统可以根据指定的敏感字段,进行数据分词和统计分析,进而学习获得其数据特征,形成新的敏感字段识别模型,进而完善敏感字段识别效果。执行步骤130,生成仿真数据库。根据敏感字段清单,生成所需转换的仿真数据。执行步骤140,仿真数据审核。通过人工方式和/或程序自学习核查方式仿真数据生成内容,可以筛选、剔除部分仿真数据,调整仿真数据生成规则相应参数。执行步骤150,数据脱敏处理。读取原始数据,当发现敏感字段时,从仿真数据库中取出仿真数据替换敏感数据,并记录元数据和仿真数据的对照关系,保证相同的元数据转换为相同的仿真数据值,所有数据经过过滤式的脱敏转换完成后,彻底清除元数据和仿真数据的对照关系。保证数据的单向脱敏,不可回溯原始数据。元数据是所述敏感字段的值。执行步骤160,脱敏核实确认。通过人工方式和/或程序自确认方式确认脱敏结果后,允许下载或授权访问脱敏数据。实施例二本发明的目的在于提供一套新的数据脱敏方法及系统,采用双层过滤式脱敏,同时满足单向脱敏和高仿真的脱敏过程需求。强化了脱敏过程的人为控制能力,对机器脱敏过程的进行监管和学习干预。从智能化程度上能够自动识别敏感数据,并逐步通过数据进一步自我完善识别规则;从隐私安全上杜绝了通过脱敏数据逆运算获得原始隐私数据的可能;从数据利用上能够有效保证数据关联和利用,是一种高仿真的数据脱敏方法;从管理上强化了脱敏过滤过程的人工干预过程,提升了脱敏过程的管理和监控能力。在双层过滤式脱敏中,上层是通过系统进行自动识别和处理,下层是机器学习可以校正相关模型,对系统处理结果进行干预。在脱敏的各个过程都依次采用这样类似过滤审查的脱敏方式。单项脱敏,指的是数据经过脱敏后,不能够反向逆运算还原为原始数据,得以保护数据隐私。如图3所示,在将原始数据变成脱敏数据的过程中,共包括三个阶段,每个阶段都分为系统处理层和人工校正层。在第一阶段中,通过正则表达式等常规内置固定规则可以判断邮箱、手机号、身份证号码等格式规范的字段。对于其他类型字段采取分词方式,结合词库和词频分布统计进行判断。所有数据通过规则判断是否归属某种敏感字段类型,并获得一个判定得分s,以此获得敏感字段的判定级别,判定级别如表1所示。判定级别得分范围级别说明a70-100绝对敏感数据。b40-69一般敏感,允许对规则模型适当修正。c0-40允许人工强制变更判定为敏感/非敏感类型。表1人工对敏感字段数据范围做校正,核实确认的敏感字段会根据新的数据做一定权重的模型校正,使模型更加准确和完善。可以把无法识别的c类字段,添加为新的敏感字段,同时会根据该敏感字段以及数据库中的数据进行自我学习建立新的敏感字段模型。在第二阶段中根据第一阶段扫描到的敏感字段数据范围生成仿真数据库,仿真数据库遵循相应规则以及仿生词库自动生成对应敏感字段数据的仿生词库表。人工可以核查仿真数据生成内容,可以筛选、剔除部分仿真数据,调整仿真数据生成规则相应参数,导入部分新的词库,来优化仿生词库。在第三阶段中系统会将待脱敏的全部数据,采用过滤式进行脱敏,遇到敏感字段,自动利用第二阶段生成仿生数据样本替换,过程中保证不同表相同类别的敏感字段转换后保持一致。例如第一次将患者表中的患者姓名“张青山”转换为“李三水”,那么再后续脱敏过程中,所有的患者“张青山”将全部转换为“李三水”,保证脱敏数据的连续性。脱敏完成后,将原来的转换对应关系删除,保证数据的单向脱敏后,由人工复核后下发脱敏数据应用。实施例三以姓名模型为例介绍分词统计模型一、模型字符类型分析参数(s1)序号模型代码字符比例(0-100)1xm001c表2如表2所示,待判定字段s经过分词计算可得出字符数比例c1,进而获得s的字符占比评价得分s1=[100-abs(c1-c)]/100,s1参数代表待判定字段汉字和字符分布与判定模型的相似度百分比。二、模型字符长度分析参数(s2)表3如表3所示,待判定字段s经过长度计算可得出该字段的最小长度sl1、最大长度sl2,出现的最多字符长度sl3和对应占比sl4,次多字符的长度sl5和对应占比sl6,le1,le2代表长度权重系数,初始le1占60%,le2占40%。s2=[abs(sl1-l1)/max(sl1,l1)+abs(sl2-l2)/max(sl2,l2)]×le1+[abs(sl3-l3)/max(sl3,l3)+abs(sl4-l4)/max(sl4,l4)]×le2×n+[abs(sl5-l5)/max(sl5,l5)+abs(sl6-l6)/max(sl6,l6)]×le2×(1-n)s2参数代表待判定字段长度分布与判定模型的相似度百分比。总结字段数据的长度分布获得若干相关参数,计算相似度。三、模型词频数量分析参数(s3)表4如表4所示,将待判定字段s,经过最小分词后,计算每个词出现频率百分比最高的前n项f(n),并与模型中的参数的前n项f(n)做对比。如果f(n)中的一项词在f(n)中找到将累加pn为判定字段的相似度,系数pn=p(n)/{∑[p(1)-p(n)]/n},其中,n为模型中参数的项数。四、模型词频位置分析参数(s4)表5如表5所示,词频位置分析参数是为了判断分词或字出现的在字段中的位置,s4的计算方式与s3计算公式一致,只不过改为判断最先位置和出现几率。实施例四对于无法识别的c类字段,通常会使用人工对敏感字段数据范围进行校正,把c类字段添加为新的敏感字段,同时会根据该敏感字段以及数据库中的数据进行自我学习建立新的敏感字段模型,核实确认的敏感字段会根据新的数据做一定权重的模型校正,使模型更加准确和完善。如图4所示,执行步骤400,读取数据。执行步骤410,手动设置敏感字段。例将user表中职称(zc)字段设置为敏感字段。执行步骤420,,获取zc字段样本数据,如教授、副教授等执行步骤430,分析数据分析。字符分析:汉字100%;词频分析:教授50%,副教授50%;分词分析:教授80%,副20%;长度分析:2字50%,3字50%;等。执行步骤440生成新模型(职称),评分权重:字符分析占比20%、词频分析占比40%、分词分析占比40%。执行步骤450,完成敏感字段新模型的建立。为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1