数据表中隐私数据的发现与分类方法

文档序号:8412635阅读:438来源:国知局
数据表中隐私数据的发现与分类方法
【技术领域】
[0001] 本发明涉及数据处理技术领域,尤其涉及一种数据表中隐私数据的发现与分类方 法。
【背景技术】
[0002] IT(Information Technology,信息产业)技术日新月异,IT技术的不断发展,各 行各业企事业单位的信息化程度也越来越高,因此,信息在一个企业当中越发凸显其重要 性。一个企业或者个人的信息价值也随着整个行业的发展而不断提升。也正因为如此,近 年来数据泄漏、销售企业数据获利等事件越发频繁。虽然数据的泄漏并不一定会对企业造 成直接的经济损失,但是间接损失和影响是巨大的。比如因信息泄漏没有兑现承诺让服务 级别下降,导致流失大批量的优质客户,或者需要承担法律责任。
[0003] 对于IT安全措施,早期更多是针对网络安全、操作系统安全等措施。而现在,针对 信息安全和保障,在国际上已经有很成熟的法律法案,针对数据本身的安全监控、审计、脱 敏、保护等技术和产品也在逐渐普及。
[0004] 在实际应用中,在一个企业的应用系统中,数据库中的表的数量少的几百张,多的 几万张,一张表中的字段数量少则几十多则几百。也就是说,一个企业的应用系统中少则几 万个字段,多则上亿个字段,每个字段都是一种数据定义。
[0005] 企业的应用系统中的信息非常多,如果将其中的关键信息区别出来专门对待的 话,成本和效率将会是个无法控制。梳理企业的应用系统中的关键数据、敏感信息的工作就 变得很重要,并且非常艰难。
[0006] 因此,开发一种高效率的发现企业的应用系统中的关键数据的方法,是一个亟待 解决的问题。

【发明内容】

[0007] 本发明的实施例提供了一种数据表中隐私数据的发现与分类方法,以实现有效地 提取数据表中的关键数据。
[0008] 为了实现上述目的,本发明采取了如下技术方案
[0009] 一种数据表中隐私数据的发现与分类方法,包括:
[0010] 预先设定各个隐私数据种类对应的隐私数据分析规则;
[0011] 提取数据表中的采样数据;
[0012] 按照设定的隐私数据种类分析顺序和所述各个隐私数据种类对应的隐私数据分 析规则,对所述采样数据进行隐私数据分析,根据分析结果发现所述采样数据中的隐私数 据种类。
[0013] 所述的预先设定各个隐私数据种类对应的隐私数据分析规则,包括:
[0014] 选取身份证号码、邮政编码、营业执照号、组织机构代码、纳税人识别号、电子邮件 地址、企业名称、电话号码、中文姓名和地址共10种隐私数据种类,分别设定所述10种隐私 数据种类对应的隐私数据分析规则,构造隐私数据种类对应的数据字典,该数据字典中存 储了对应的隐私数据种类中的典型数据。
[0015] 所述的预先设定各个隐私数据种类对应的隐私数据分析规则,包括:
[0016] 针对每个隐私数据种类设置一个或者多个计数器;
[0017] 将所述中文姓名种类的隐私数据划分为姓名、姓氏和名字三个子类,并对姓名、姓 氏和名字三个子类分别设置一个计数器,针对所用到的姓氏字典设置一个数组计数器;
[0018] 将所述电话号码种类的隐私数据划分为混合电话号码、移动电话号码、固话号码 和疑似电话号码四个子类,并对移动电话号码、固话号码和疑似电话号码分别设置一个计 数器;
[0019] 将所述中国地址种类的隐私数据划分为省、市、县、镇、村和街道/路六个级别,根 据所述六个级别衍生出21个子类,分别是:省、省到市、省到县、省到镇、省到村、省到路、 市、市到县、市到镇、市到村、市到路、县、县到镇、县到村、县到路、镇、镇到村、镇到路、村、村 到路、路;对省/直辖市/自治区、地市/自治州、县、乡/镇、村和道路六个级别分别设置一 个计数器;
[0020] 将其余七种隐私数据每种类型分别设置一个计数器
[0021] 所述的提取数据表中的采样数据之前,还包括:
[0022] 读取所述数据表所在的数据库的元数据,该元数据包括每个数据表的数据表名、 数据中存储的数据的描述信息,以及每个数据表中的每个字段的字段名、数据类型定义、数 据长度精度限制信息,根据所述元数据判断出所述数据库中需要进行隐私数据分析的数据 表和数据表中需要进行隐私数据分析的字段;
[0023] 根据所述数据表中每个字段的字段类型和长度精度,确定每个字段需要匹配的一 个或者多个隐私数据分析规则。
[0024] 所述的提取数据表中的采样数据,包括:
[0025] 设置数据表的采样行数规则为:提取数据表的前N行,从数据表的第N+1行开始提 取M%。比率的数据行;当所述数据表中的全部数据记录的行数小于等于所述采样行数阈值 N,则提取所述数据表中的全部记录行数的数据作为采样数据;当所述数据表中的数据记录 的行数大于所述采样行数阈值,则提取所述数据表中的排列在前列的所述采样行数阈值N 的行数,以及排列在所述采样行数阈值的行数后面的全部数据记录的行数的设定比率M%。 作为采样数据。
[0026] 所述的按照设定的隐私数据种类分析顺序和所述各个隐私数据种类对应的隐私 数据分析规则,对所述采样数据进行隐私数据分析,根据分析结果发现所述采样数据中的 隐私数据种类,包括:
[0027] 选取所述采样数据中的第一张数据表的第一行数据记录的数据,对所述第一行数 据记录的数据进行拆分,得到多个字段的数据,选取第一个字段的数据,当所述第一字段的 类型为数值类型的字段,且长度为6位或以上,没有小数位,则依次按照邮政编码、营业执 照号和电话号码对应的隐私数据分析规则,对所述第一个字段的数据进行隐私数据分析;
[0028] 当所述第一字段的类型为字符串类型的字段,且长度大于等于2,则依次按照身份 证号码、邮政编码、营业执照号、纳税人识别号、组织机构代码、电子邮件地址、企业名称、电 话号码、中文姓名和地址对应的隐私数据分析规则,对所述第一个字段的数据进行隐私数 据分析;
[0029] 当所述第一个字段的数据和某个隐私数据分析规则匹配时,则将所述某个隐私数 据分析规则对应的隐私数据种类的计数器的计数值加一;
[0030] 选取第二个字段的数据,按照所述第一个字段的数据的隐私数据的分析过程,对 所述第二个字段的数据进行隐私数据分析,依次类推,对所述第一行数据记录中的每个字 段的数据进行隐私数据分析;
[0031] 选取所述采样数据中的第二行数据记录的数据,按照所述第一行数据记录的数据 的隐私数据的分析过程,对所述第二行数据记录的数据进行隐私数据分析,依次类推,对所 述采样数据中的所有数据表中的所有行数据记录的数据进行隐私数据分析;
[0032] 读取某个数据表中的每一个字段对应的隐私数据种类的计数器的计数值,当某个 字段对应的某个隐私数据种类的计数器的计数值达到设定的隐私数据判定阈值,则判断该 字段的数据类型为所述某个隐私数据种类。
[0033] 当按照电话号码对应的隐私数据分析规则,对字段的数据进行隐私数据分析时, 包括:
[0034] 当进行移动电话号码分析时,判断字段的数据格式为:国际字冠间隔符国家代码 间隔符移动电话号码本体,国际字冠为〇〇、+或者没有,国家代码为86或没有,中间的间隔 符为空格或者没有,移动电话号码本体长度为11位,并且从数字的最右边数起的第 9-11位匹配移动电话号码数据字典中包括的移动电话号码的前三位字符,则将移动电话号 码对应的计数器的计数值+1 ;
[0035] 当进行固话电话分析时,对字段的数据中除了 +号以外的符号都换成 得到符号转换后的字段的数据,对所述符号转换后的字段的数据按照设定的正则表达 式进行匹配,所述设定的正则表达式为:((((〇〇|\+) ? 86(\+|_) ? )|\+) ? (0) ? (10|2\d{l}|[3-9]\d{2})_? )? [2-8]\d{6,7}(_? \d{2,4})?,当所述正则表达式匹配 成功,且上述正则表达式能够成功获取固定电话区号,那么将所述获取的区号去匹配固定 电话区号数据字典,若匹配成功则将固话电话对应的计数器的计数值+1 ;
[0036] 当进行疑似电话号码分析时,判断字段的数据是否满足日期格式,该日期格式包 括:[四位年份]+ [两位月份]+ [两位天],[两位天]+ [两位月份]+ [四位年份],[两位 月份]+ [两位天]+ [四位年份],如果是,则判定该字段的数据不为电话号码,针对该字段数 据电话号码判断逻辑结束;否则,则将疑似电话号码对应的计数器的计数值+1 ;
[0037] 当所述采样数据中所述字段的数据全部分析完成后,对各计数器值进行分析:
[0038] 当所述移动电话号码对应的计数器的计数值占该字段整体有效行数总值占比达 上限阀值,而固定电话计数值的占比小于下限阀值时,则判断所述字段的数据类型为移动 电话号码;
[0039] 当所述固话电话对应的计数器的计数值占该字段整体有效行数总值占比达上限 阀值,而移动电话计数器的占比小于下限阀值时,则判断所述字段的数据类型为固话电 话;
[0040] 当移动电话和固定电话计数值的占比分别都大于下限阀值,且两个
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1