数据表中隐私数据的发现与分类方法_4

文档序号：8412635阅读：来源：国知局

hash值在索引中匹配搜索
[0117] 当按照身份证号码对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，身份证号码对应的隐私数据分析规则如下：
[0118] 1.数据长度为18或者15
[0119] 2. 18位的情况：
[0120] a)第7~14位为有效年份数字，18600101至当前日期之间
[0121] b)第18位的校验位能够计算校验通过，满足ISO 7064:1983. MODl 1-2校验
[0122] 3. 15 位情况：
[0123] a)第7~12位为有效年份数字
[0124] 4.当采样数据中所述字段的数据全部分析完成后，如果身份证号码的计数器的计数值大于进行分析的所述字段的数据的总数量的设定比例（比如，80% )，则判定所述字段的数据类型为身份证号码。
[0125] 当按照邮政编码对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，邮政编码对应的隐私数据分析规则如下：
[0126] 1.数据长度为6
[0127] 2.只存在阿拉伯数字
[0128] 3.数据能够在邮政编码字典DICT_CN_ZIPCODE当中找到
[0129] 4.当采样数据中所述字段的数据全部匹配完成后，如果邮政编码的计数器的计数值大于进行分析的所述字段的数据的总数量的设定比例（比如，60% )，则判定所述字段的数据类型为邮政编码。
[0130] 当按照营业执照号（工商注册号）对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，营业执照号（工商注册号）对应的隐私数据分析规则如下：
[0131] 1.长度为15位
[0132] 2.第15位末尾满足GB/T 17710-1999中的规定的"MOD 11，10"校验算法
[0133] 3.前六位能够在行政区划码字典DICT_CN_DIVCODE当中找到
[0134] 4.当采样数据中所述字段的数据全部分析完成后，如果营业执照号的计数器的计数值大于进行分析的所述字段的数据的总数量的设定比例（比如，60% )，则判定所述字段的数据类型为营业执照号。
[0135] 当按照组织机构代码对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，组织机构代码对应的隐私数据分析规则如下：
[0136] 1.判断格式为，前面有8位数字或者字母，然后去除特殊字符，剩余1位数字
[0137] 2.第9位末尾满足校验算法：
[0138] C9 = Il-MOD( Σ Ci (i = I ^ 8) Xffi, 11)
[0139] 式中：MOD--代表求余函数；
[0140] i 代表代码字符从左至右位置序号；
[0141] Ci一一代表第i位上的代码字符的值（具体代码字符见附表）；
[0142] C9 代表校验码；
[0143] Wi--代表第i位上的加权因子，其数值见下表：
[0144]
【主权项】
1. 一种数据表中隐私数据的发现与分类方法，其特征在于，包括：预先设定各个隐私数据种类对应的隐私数据分析规则；提取数据表中的采样数据；按照设定的隐私数据种类分析顺序和所述各个隐私数据种类对应的隐私数据分析规贝1J，对所述采样数据进行隐私数据分析，根据分析结果发现所述采样数据中的隐私数据种类。
2. 根据权利要求1所述的数据表中隐私数据的发现与分类方法，其特征在于，所述的预先设定各个隐私数据种类对应的隐私数据分析规则，包括：选取身份证号码、邮政编码、营业执照号、组织机构代码、纳税人识别号、电子邮件地址、企业名称、电话号码、中文姓名和地址共10种隐私数据种类，分别设定所述10种隐私数据种类对应的隐私数据分析规则，构造隐私数据种类对应的数据字典，该数据字典中存储了对应的隐私数据种类中的典型数据。
3. 根据权利要求2所述的数据表中隐私数据的发现与分类方法，其特征在于，所述的预先设定各个隐私数据种类对应的隐私数据分析规则，包括：针对每个隐私数据种类设置一个或者多个计数器；将所述中文姓名种类的隐私数据划分为姓名、姓氏和名字三个子类，并对姓名、姓氏和名字三个子类分别设置一个计数器，针对所用到的姓氏字典设置一个数组计数器；将所述电话号码种类的隐私数据划分为混合电话号码、移动电话号码、固话号码和疑似电话号码四个子类，并对移动电话号码、固话号码和疑似电话号码分别设置一个计数器；将所述中国地址种类的隐私数据划分为省、市、县、镇、村和街道/路六个级别，根据所述六个级别衍生出21个子类，分别是：省、省到市、省到县、省到镇、省到村、省到路、市、市到县、市到镇、市到村、市到路、县、县到镇、县到村、县到路、镇、镇到村、镇到路、村、村到路、路；对省/直辖市/自治区、地市/自治州、县、乡/镇、村和道路六个级别分别设置一个计数器；将其余七种隐私数据每种类型分别设置一个计数器。
4. 根据权利要求2所述的数据表中隐私数据的发现与分类方法，其特征在于，所述的提取数据表中的采样数据之前，还包括：读取所述数据表所在的数据库的元数据，该元数据包括每个数据表的数据表名、数据中存储的数据的描述信息，以及每个数据表中的每个字段的字段名、数据类型定义、数据长度精度限制信息，根据所述元数据判断出所述数据库中需要进行隐私数据分析的数据表和数据表中需要进行隐私数据分析的字段；根据所述数据表中每个字段的字段类型和长度精度，确定每个字段需要匹配的一个或者多个隐私数据分析规则。
5. 根据权利要求2所述的数据表中隐私数据的发现与分类方法，其特征在于，所述的提取数据表中的采样数据，包括：设置数据表的采样行数规则为：提取数据表的前N行，从数据表的第N+1行开始提取M%。比率的数据行；当所述数据表中的全部数据记录的行数小于等于所述采样行数阈值N，则提取所述数据表中的全部记录行数的数据作为采样数据；当所述数据表中的数据记录的行数大于所述采样行数阈值，则提取所述数据表中的排列在前列的所述采样行数阈值N的行数，以及排列在所述采样行数阈值的行数后面的全部数据记录的行数的设定比率M%。作为采样数据。
6. 根据权利要求3或4或5所述的数据表中隐私数据的发现与分类方法，其特征在于，所述的按照设定的隐私数据种类分析顺序和所述各个隐私数据种类对应的隐私数据分析规则，对所述采样数据进行隐私数据分析，根据分析结果发现所述采样数据中的隐私数据种类，包括：选取所述采样数据中的第一张数据表的第一行数据记录的数据，对所述第一行数据记录的数据进行拆分，得到多个字段的数据，选取第一个字段的数据，当所述第一字段的类型为数值类型的字段，且长度为6位或以上，没有小数位，则依次按照邮政编码、营业执照号和电话号码对应的隐私数据分析规则，对所述第一个字段的数据进行隐私数据分析；当所述第一字段的类型为字符串类型的字段，且长度大于等于2,则依次按照身份证号码、邮政编码、营业执照号、纳税人识别号、组织机构代码、电子邮件地址、企业名称、电话号码、中文姓名和地址对应的隐私数据分析规则，对所述第一个字段的数据进行隐私数据分析；当所述第一个字段的数据和某个隐私数据分析规则匹配时，则将所述某个隐私数据分析规则对应的隐私数据种类的计数器的计数值加一；选取第二个字段的数据，按照所述第一个字段的数据的隐私数据的分析过程，对所述第二个字段的数据进行隐私数据分析，依次类推，对所述第一行数据记录中的每个字段的数据进行隐私数据分析；选取所述采样数据中的第二行数据记录的数据，按照所述第一行数据记录的数据的隐私数据的分析过程，对所述第二行数据记录的数据进行隐私数据分析，依次类推，对所述采样数据中的所有数据表中的所有行数据记录的数据进行隐私数据分析；读取某个数据表中的每一个字段对应的隐私数据种类的计数器的计数值，当某个字段对应的某个隐私数据种类的计数器的计数值达到设定的隐私数据判定阈值，则判断该字段的数据类型为所述某个隐私数据种类。
7. 根据权利要求6所述的数据表中隐私数据的发现与分类方法，其特征在于，当按照电话号码对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，包括：当进行移动电话号码分析时，判断字段的数据格式为：国际字冠间隔符国家代码间隔符移动电话号码本体，国际字冠为〇〇、+或者没有，国家代码为86或没有，所述间隔符为空格或者没有，移动电话号码本体长度为11位，并且从数字的最右边数起的第9-11位匹配移动电话号码数据字典中包括的移动电话号码的前三位字符，则将移动电话号码对应的计数器的计数值+1 ; 当进行固话电话分析时，对字段的数据中除了 +号以外的符号都换成得到符号转换后的字段的数据，对所述符号转换后的字段的数据按照设定的正则表达式进行匹配，所述设定的正则表达式为：（（（(〇〇|\+) ? 86(\+|_) ? )|\+) ? (0) ? (10|2\d{l}|[3-9]\d{2})_? )? [2-8]\d{6,7}(_? \d{2,4})?，当所述正则表达式匹配成功，且上述正则表达式能够成功获取固定电话区号，那么将所述获取的区号去匹配固定电话区号数据字典，若匹配成功则

完整全部详细技术资料下载

当前第4页1 2 3 4 5