数据表中隐私数据的发现与分类方法_3

文档序号：8412635阅读：来源：国知局

、元件、组件和/或它们的组。应该理解，当我们称元件被"连接"或"耦接"到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的"连接"或"耦接"可以包括无线连接或耦接。这里使用的措辞"和/或"包括一个或更多个相关联的列出项的任一单元和全部组合。
[0074] 本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。
[0075] 为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。
[0076] 实施例一
[0077] 本发明实施例提供了一种有效的、能显著提高准确率的方法，能让企业单位在自身众多复杂的系统当中，找到关键数据并进行分类，便于进一步采取相应的措施。
[0078] 该实施例提供了一种数据表中隐私数据的发现与分类方法的处理流程如图1所示，包括如下的处理步骤：
[0079] 步骤S110、预先设定各个隐私数据种类对应的隐私数据分析规则和计数器。
[0080] 本发明实施例的隐私数据发现和分类的基本原理是对采样数据中的字段的数据进行扫描和分析，得到字段的数据的特征，然后对字段的数据进行归类。同一个字段的数据，需要经过所有隐私数据种类的特征规则算法的分析统计，最终根据相似度来判断它有最有可能是哪一种类型的隐私数据。上述隐私数据可以称为私密数据或敏感信息。
[0081] 本发明实施例选取身份证号码、邮政编码、营业执照号（工商注册号）、组织机构代码、纳税人识别号、电子邮件地址、企业名称、电话号码、中文姓名和地址共10种隐私数据种类，分别设定10种隐私数据种类对应的隐私数据分析规则，该隐私数据分析规则在后面的数据分析过程中将详细描述。
[0082] 针对每个隐私数据种类设置一个或者多个计数器。比如，将所述中文姓名种类的隐私数据划分为姓名、姓氏和名字三个子类，并对姓名、姓氏和名字三个子类分别设置一个计数器。
[0083] 将中国地址种类的隐私数据划分为省、市、县、镇、村和街道/路六个级别，根据所述六个级别衍生出21个子类，分别是：省、省到市、省到县、省到镇、省到村、省到路、市、市到县、市到镇、市到村、市到路、县、县到镇、县到村、县到路、镇、镇到村、镇到路、村、村到路、路。
[0084] 对省、市、县、镇、村和街道/路分别设置一个计数器。
[0085] 将电话号码种类的隐私数据划分为：混合电话号码、移动电话号码、固话号码和疑似电话号码四个子类，分别设置移动电话号码、固话号码和疑似电话号码对应的计数器。
[0086] 构造每种隐私数据种类对应的数据字典，该数据字典中存储了对应的隐私数据种类中的典型数据。比如，固话区号字典中存储了中国绝大部分固定电话号码的区号，中文姓氏数据字典中存储了中国绝大多数的姓氏。
[0087] 步骤S120、根据数据库的元数据，获取需要进行隐私数据分析的数据表，以及数据表中的字段类型。
[0088] 读取所述数据表所在的数据库的元数据，该元数据包括每个数据表的数据表名、数据中存储的数据的描述信息，以及每个数据表中的每个字段的字段名、数据定义、数据限制信息，根据所述元数据判断出所述数据库中需要进行隐私数据提取的数据表和数据表中需要进行隐私数据提取的字段，以及每个字段的字段类型，该字段类型包括数值类型的字段和字符串类型的字段。
[0089] 根据所述数据表中每个字段的字段类型，确定每个字段需要匹配的一个或者多个隐私数据分析规则。
[0090] 数值类型的字段，必须满足以下条件：长度需要大于等于6,没有小数位。数值类型的字段只需要分析电话号码、邮政编码和工商注册号的隐私数据分析规则。字符串类型的字段必须大于等于2,需要分析所有的隐私数据分析规则。
[0091] 步骤S130、提取需要进行隐私数据分析的数据表中的采样数据。
[0092] 设置数据表的采样行数阈值，当所述数据表中的全部数据记录的行数小于所述采样行数阈值，则提取所述数据表中的全部记录行数的数据作为采样数据；当所述数据表中的数据记录的行数大于或者等于所述采样行数阈值，则提取所述数据表中的排列在前列的所述采样行数阈值的行数，以及排列在所述采样行数阈值的行数后面的全部数据记录的行数的设定比率作为采样数据。
[0093] 比如，上述采样行数阈值为1000,采样率缺省为取前1000行，后面从1001行开始取千分之一，每1000行取一行，采样率可根据实际情况配置选择。
[0094] 步骤S140、按照设定的隐私数据种类分析顺序和各个隐私数据种类对应的隐私数据分析规则，对采样数据进行隐私数据分析，根据分析结果发现采样数据中的隐私数据种类和所在位置。
[0095] 选取采样数据中的第一行数据记录的数据，对所述第一行数据记录的数据进行拆分，得到多个字段的数据，选取第一个字段的数据，当所述第一字段的类型为数值类型的字段，且长度为6位或以上没有小数位，则依次按照邮政编码、营业执照号和电话号码对应的隐私数据分析规则，对所述第一个字段的数据进行隐私数据分析，根据分析结果提取所述采样数据中的隐私数据种类。
[0096] 当所述第一字段的类型为字符串类型的字段，且长度大于等于2,则依次按照身份证号码、邮政编码、营业执照号、纳税人识别号、组织机构代码、电子邮件地址、企业名称、电话号码、中文姓名和地址对应的隐私数据分析规则，对所述第一个字段的数据进行隐私数据分析，当所述第一个字段的数据和某个隐私数据分析规则分析时，则将所述第一个字段对应的所述某个隐私数据分析规则对应的隐私数据种类的计数器的计数值加一；选取第二个字段的数据，按照所述第一个字段的数据的隐私数据的分析过程，对所述第二个字段的数据进行隐私数据分析，依次类推，对所述第一行数据记录中的每个字段的数据进行隐私数据分析；
[0097] 选取所述采样数据中的第二行数据记录的数据，按照所述第一行数据记录的数据的隐私数据的分析过程，对所述第二行数据记录的数据进行隐私数据分析，依次类推，对所述采样数据中的所有行数据记录的数据进行隐私数据分析；
[0098] 读取每一个字段对应的隐私数据种类的计数器的计数值，当某个字段对应的某个隐私数据种类的计数器的计数值达到设定的隐私数据判定阈值，则判断所述某个字段的数据类型为所述某个隐私数据种类。
[0099] 下面分别介绍各种隐私数据种类对应的隐私数据分析规则。
[0100] 规则与算法
[0101] 统一规则：
[0102] 1.输入值为空值、空串或者空格均不计入阀值统计。
[0103] 2.全角字符预先在调用层转换成半角处理；
[0104] 3.以下每种隐私数据类型的内部的算法规则，若无特别说明，均为顺序执行且不可忽略，即某条规则校验失败则后面的规则无需校验，该种隐私数据类型判断失败。
[0105] 4.字典检索加速方法，本发明实施例提供的一种根据关键字的hash值检索得到完整关键词的示意图如图2所示，针对字典值超过100个的字典建议开始使用此方法：
[0106] a)将字典中的每一个数据分别使用hash算法生成hash值；
[0107] b)将字典中所有数值的hash值分别取特定数值的余数，而每个具体的余数值都对应一个槽位用于存放对应的hash值，该槽位为第一级别，比如取39的余数对应会有0到 38余数值总共39个一级槽位；
[0108] c)将所述hash值根据其特定值的余数，按顺序放入对应所述槽位；
[0109] d)这样即完成多级hashmap索引的第一级别的构建；
[0110] e)将所述第一个槽位的hash值取出再次取非上述特定数值因子的数值的余数，同时会得到对应多个二级槽位，这里举例取37的余数，那么每个上述的一级槽位会对应有最多37个二级槽位；
[0111] f)将所述每个一级槽位的hash值再分别按顺序装入对应的所述二级槽位，完成多级hashmap索引的第二级别的构建；
[0112] g)再将上述某个二级槽位的hash值取出，并计算其非上述所有特定数值因子的数值的余数，对应得到若干个三级槽位，举例这里取34的余数，那么每个上述的二级槽位会对应有最多34个三级槽位；
[0113] h)将所述每个二级槽位的hash值再分别按顺序装入对应的所述三级槽位，完成多级hashmap索引的第三级别的构建；
[0114] i)如此重复，直到每个槽位中的hash值数量小于等于特定阀值数量，即完成整个多级hashmap索引的构建；
[0115] j)字生成的索引结构留着内存中待用
[0116] k)字段数据在使用所述字典的hashmap索引结构进行匹配查找时，需要将所述字段数据用同样的hash算法生成

完整全部详细技术资料下载

当前第3页1 2 3 4 5