数据表中隐私数据的发现与分类方法

文档序号：8412635阅读：438来源：国知局

数据表中隐私数据的发现与分类方法
【技术领域】
[0001] 本发明涉及数据处理技术领域，尤其涉及一种数据表中隐私数据的发现与分类方法。
【背景技术】
[0002] IT(Information Technology，信息产业）技术日新月异，IT技术的不断发展，各行各业企事业单位的信息化程度也越来越高，因此，信息在一个企业当中越发凸显其重要性。一个企业或者个人的信息价值也随着整个行业的发展而不断提升。也正因为如此，近年来数据泄漏、销售企业数据获利等事件越发频繁。虽然数据的泄漏并不一定会对企业造成直接的经济损失，但是间接损失和影响是巨大的。比如因信息泄漏没有兑现承诺让服务级别下降，导致流失大批量的优质客户，或者需要承担法律责任。
[0003] 对于IT安全措施，早期更多是针对网络安全、操作系统安全等措施。而现在，针对信息安全和保障，在国际上已经有很成熟的法律法案，针对数据本身的安全监控、审计、脱敏、保护等技术和产品也在逐渐普及。
[0004] 在实际应用中，在一个企业的应用系统中，数据库中的表的数量少的几百张，多的几万张，一张表中的字段数量少则几十多则几百。也就是说，一个企业的应用系统中少则几万个字段，多则上亿个字段，每个字段都是一种数据定义。
[0005] 企业的应用系统中的信息非常多，如果将其中的关键信息区别出来专门对待的话，成本和效率将会是个无法控制。梳理企业的应用系统中的关键数据、敏感信息的工作就变得很重要，并且非常艰难。
[0006] 因此，开发一种高效率的发现企业的应用系统中的关键数据的方法，是一个亟待解决的问题。

【发明内容】

[0007] 本发明的实施例提供了一种数据表中隐私数据的发现与分类方法，以实现有效地提取数据表中的关键数据。
[0008] 为了实现上述目的，本发明采取了如下技术方案
[0009] 一种数据表中隐私数据的发现与分类方法，包括：
[0010] 预先设定各个隐私数据种类对应的隐私数据分析规则；
[0011] 提取数据表中的采样数据；
[0012] 按照设定的隐私数据种类分析顺序和所述各个隐私数据种类对应的隐私数据分析规则，对所述采样数据进行隐私数据分析，根据分析结果发现所述采样数据中的隐私数据种类。
[0013] 所述的预先设定各个隐私数据种类对应的隐私数据分析规则，包括：
[0014] 选取身份证号码、邮政编码、营业执照号、组织机构代码、纳税人识别号、电子邮件地址、企业名称、电话号码、中文姓名和地址共10种隐私数据种类，分别设定所述10种隐私数据种类对应的隐私数据分析规则，构造隐私数据种类对应的数据字典，该数据字典中存储了对应的隐私数据种类中的典型数据。
[0015] 所述的预先设定各个隐私数据种类对应的隐私数据分析规则，包括：
[0016] 针对每个隐私数据种类设置一个或者多个计数器；
[0017] 将所述中文姓名种类的隐私数据划分为姓名、姓氏和名字三个子类，并对姓名、姓氏和名字三个子类分别设置一个计数器，针对所用到的姓氏字典设置一个数组计数器；
[0018] 将所述电话号码种类的隐私数据划分为混合电话号码、移动电话号码、固话号码和疑似电话号码四个子类，并对移动电话号码、固话号码和疑似电话号码分别设置一个计数器；
[0019] 将所述中国地址种类的隐私数据划分为省、市、县、镇、村和街道/路六个级别，根据所述六个级别衍生出21个子类，分别是：省、省到市、省到县、省到镇、省到村、省到路、市、市到县、市到镇、市到村、市到路、县、县到镇、县到村、县到路、镇、镇到村、镇到路、村、村到路、路；对省/直辖市/自治区、地市/自治州、县、乡/镇、村和道路六个级别分别设置一个计数器；
[0020] 将其余七种隐私数据每种类型分别设置一个计数器
[0021] 所述的提取数据表中的采样数据之前，还包括：
[0022] 读取所述数据表所在的数据库的元数据，该元数据包括每个数据表的数据表名、数据中存储的数据的描述信息，以及每个数据表中的每个字段的字段名、数据类型定义、数据长度精度限制信息，根据所述元数据判断出所述数据库中需要进行隐私数据分析的数据表和数据表中需要进行隐私数据分析的字段；
[0023] 根据所述数据表中每个字段的字段类型和长度精度，确定每个字段需要匹配的一个或者多个隐私数据分析规则。
[0024] 所述的提取数据表中的采样数据，包括：
[0025] 设置数据表的采样行数规则为：提取数据表的前N行，从数据表的第N+1行开始提取M%。比率的数据行；当所述数据表中的全部数据记录的行数小于等于所述采样行数阈值 N，则提取所述数据表中的全部记录行数的数据作为采样数据；当所述数据表中的数据记录的行数大于所述采样行数阈值，则提取所述数据表中的排列在前列的所述采样行数阈值N 的行数，以及排列在所述采样行数阈值的行数后面的全部数据记录的行数的设定比率M%。作为采样数据。
[0026] 所述的按照设定的隐私数据种类分析顺序和所述各个隐私数据种类对应的隐私数据分析规则，对所述采样数据进行隐私数据分析，根据分析结果发现所述采样数据中的隐私数据种类，包括：
[0027] 选取所述采样数据中的第一张数据表的第一行数据记录的数据，对所述第一行数据记录的数据进行拆分，得到多个字段的数据，选取第一个字段的数据，当所述第一字段的类型为数值类型的字段，且长度为6位或以上，没有小数位，则依次按照邮政编码、营业执照号和电话号码对应的隐私数据分析规则，对所述第一个字段的数据进行隐私数据分析；
[0028] 当所述第一字段的类型为字符串类型的字段，且长度大于等于2,则依次按照身份证号码、邮政编码、营业执照号、纳税人识别号、组织机构代码、电子邮件地址、企业名称、电话号码、中文姓名和地址对应的隐私数据分析规则，对所述第一个字段的数据进行隐私数据分析；
[0029] 当所述第一个字段的数据和某个隐私数据分析规则匹配时，则将所述某个隐私数据分析规则对应的隐私数据种类的计数器的计数值加一；
[0030] 选取第二个字段的数据，按照所述第一个字段的数据的隐私数据的分析过程，对所述第二个字段的数据进行隐私数据分析，依次类推，对所述第一行数据记录中的每个字段的数据进行隐私数据分析；
[0031] 选取所述采样数据中的第二行数据记录的数据，按照所述第一行数据记录的数据的隐私数据的分析过程，对所述第二行数据记录的数据进行隐私数据分析，依次类推，对所述采样数据中的所有数据表中的所有行数据记录的数据进行隐私数据分析；
[0032] 读取某个数据表中的每一个字段对应的隐私数据种类的计数器的计数值，当某个字段对应的某个隐私数据种类的计数器的计数值达到设定的隐私数据判定阈值，则判断该字段的数据类型为所述某个隐私数据种类。
[0033] 当按照电话号码对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，包括：
[0034] 当进行移动电话号码分析时，判断字段的数据格式为：国际字冠间隔符国家代码间隔符移动电话号码本体，国际字冠为〇〇、+或者没有，国家代码为86或没有，中间的间隔符为空格或者没有，移动电话号码本体长度为11位，并且从数字的最右边数起的第 9-11位匹配移动电话号码数据字典中包括的移动电话号码的前三位字符，则将移动电话号码对应的计数器的计数值+1 ;
[0035] 当进行固话电话分析时，对字段的数据中除了 +号以外的符号都换成得到符号转换后的字段的数据，对所述符号转换后的字段的数据按照设定的正则表达式进行匹配，所述设定的正则表达式为：（（（(〇〇|\+) ? 86(\+|_) ? )|\+) ? (0) ? (10|2\d{l}|[3-9]\d{2})_? )? [2-8]\d{6,7}(_? \d{2,4})?，当所述正则表达式匹配成功，且上述正则表达式能够成功获取固定电话区号，那么将所述获取的区号去匹配固定电话区号数据字典，若匹配成功则将固话电话对应的计数器的计数值+1 ;
[0036] 当进行疑似电话号码分析时，判断字段的数据是否满足日期格式，该日期格式包括：[四位年份]+ [两位月份]+ [两位天]，[两位天]+ [两位月份]+ [四位年份]，[两位月份]+ [两位天]+ [四位年份]，如果是，则判定该字段的数据不为电话号码，针对该字段数据电话号码判断逻辑结束；否则，则将疑似电话号码对应的计数器的计数值+1 ;
[0037] 当所述采样数据中所述字段的数据全部分析完成后，对各计数器值进行分析：
[0038] 当所述移动电话号码对应的计数器的计数值占该字段整体有效行数总值占比达上限阀值，而固定电话计数值的占比小于下限阀值时，则判断所述字段的数据类型为移动电话号码；
[0039] 当所述固话电话对应的计数器的计数值占该字段整体有效行数总值占比达上限阀值，而移动电话计数器的占比小于下限阀值时，则判断所述字段的数据类型为固话电话；
[0040] 当移动电话和固定电话计数值的占比分别都大于下限阀值，且两个

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄晓涛;
技术所有人：海量云图（北京）数据技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。