数据表中隐私数据的发现与分类方法_5

文档序号：8412635阅读：来源：国知局

将固话电话对应的计数器的计数值+1 ; 当进行疑似电话号码分析时，判断字段的数据是否满足日期格式，该日期格式包括： [四位年份]+[两位月份]+[两位天]，[两位天]+[两位月份]+[四位年份]，[两位月份]+[两位天]+[四位年份]，如果是，则判定该字段的数据不为电话号码，针对该字段数据电话号码判断逻辑结束；否则，则将疑似电话号码对应的计数器的计数值+1; 当所述采样数据中所述字段的数据全部分析完成后，对各计数器值进行分析：当所述移动电话号码对应的计数器的计数值占该字段整体有效行数总值占比达上限阀值，而固定电话计数值的占比小于下限阀值时，则判断所述字段的数据类型为移动电话号码；当所述固话电话对应的计数器的计数值占该字段整体有效行数总值占比达上限阀值，而移动电话计数器的占比小于下限阀值时，则判断所述字段的数据类型为固话电话；当移动电话和固定电话计数值的占比分别都大于下限阀值，且两个计数值占比之和达到上限阀值时，则判断所述字段的数据类型为混合电话号码；当所述移动电话和固定电话计数器的计数值的占比均小于下限值，且疑似电话号码对应的计数器的计数值相对该字段整体有效行数总值的占比大于设定比例，则判断所述字段的数据类型为疑似电话号码；当所述移动电话号码对应的计数器、所述固话电话对应的计数器和所述疑似电话号码对应的计数器三个计数器的计数值总值不大于设定的电话号码判断阈值时，则判断所述字段的数据类型不为电话号码。
8. 根据权利要求6所述的数据表中隐私数据的发现与分类方法，其特征在于，当按照中文姓名对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，包括：将中文姓名分成姓名、姓氏和名字三个子类，分别设置姓名、姓氏和名字对应的计数器，设置姓氏字典中所有姓氏组成的数组对应的计数器；当所述字段的数据的最左边的字符匹配姓氏字典中包含的姓氏，并且所述字段的数据中在所述姓氏的右边还有字符，则将姓名对应的计数器的计数值加1，将所述字典姓氏对应的数组计数器的计数值加1，并将所述姓名对应的统计值加1 ; 当所述字段的数据的最左边的字符匹配姓氏字典中包含的姓氏，并且所述字段的数据中在所述姓氏的右边没有字符，则将姓氏对应的计数器的计数值加1，将所述字典姓氏对应的数组计数器的计数值加1，并将所述姓氏对应的统计值加1 ; 当所述采样数据中所述字段的数据全部分析完成后，所述姓氏计数器的计数值、所述数组计数器大于进行分析的所述字段的数据的总数量的设定比例，并且，统计值大于设定数值的姓氏的数量大于设定的数量阈值，则判定所述字段的数据类型为姓氏；当所述采样数据中所述字段的数据全部分析完成后，如果姓名计数器的计数值大于进行分析的所述字段的数据的总数量的设定比例，统计所有所述字段的数据中重复的数据，当重复的数据占所有所述字段的数据的比例小于设定的阈值，则判定所述字段的数据类型为姓名。
9. 根据权利要求8所述的数据表中隐私数据的发现与分类方法，其特征在于，当按照中文姓名对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，包括：当判定某个字段的数据类型为姓氏后，对所述某个字段所在的数据记录行中的其它字段的数据进行单字拆分，将每个单字分别在名字字典中进行匹配，当每个单字都匹配名字字典中包括的名字时，则将名字对应的计数器的计数值加I; 当所述其它字段的数据全部分析完成后，如果名字计数器的计数值大于进行匹配的所述其它字段的数据的总数量，则判定所述其它字段的数据类型为名字。
10. 根据权利要求6所述的数据表中隐私数据的发现与分类方法，其特征在于，当按照地址对应的隐私数据分析规则，对字段的数据进行隐私数据分析时，包括：使用正向最大匹配法对字段的数据进行中文分词，获得所述字段的数据中的地址分词，生成所述地址分词的hash值；判断所述字段的数据中是否包含设定的街道/路的关键字，如果包含，则将所述地址分词的hash值分别在街道/路字典、省字典、市字典、县字典、镇字典和村字典对应的 hashmap索引结构进行检索；否则，将所述地址分词的hash值分别在省字典、市字典、县字典、镇字典和村字典对应的hashmap索引结构进行检索；当所述地址分词的hash值在某个地址字典对应的hashmap索引结构中检索到，则将所述某个地址字典对应级别的计数器的计数值加1，当所述采样数据中所述字段的数据全部分析完成后，根据所述六个子类对应的计数器的计数值确定所述某个字段的数据类型。
11. 根据权利要求10所述的数据表中隐私数据的发现与分类方法，其特征在于，所述的当所述地址分词的hash值在某个地址字典对应的hashmap索引结构中检索到，则将所述某个地址字典对应级别的计数器的计数值加1，包括：使用中文分词正向最大匹配法对所述字段的数据进行分词，根据六个级别的中文地址字典的内容重新组织生成另一套地址分词字典，所述地址分词字典包括：15字字典、13字字典、12字字典、11字字典、10字字典、9字字典、8字字典、7字字典、6字字典、5字字典、 4字字典、3字字典、2字字典，并生成所述地址分词字典中每个字典对应的hashmap索引结构；从所述字段的数据由左至右取出连续的15个中文字并生成hash值，长度不够15字的取最大连续中文字，将所述15个中文字对应的hash值在15字字典的hashmap索引结构中匹配；若所述15个中文字对应的hash值没有在15字字典的hashmap索引结构中匹配到，那么将所述15个中文字最右边去除两个单字，得到一个13字的中文字符串并生成hash值，将所述13个中文字对应的hash值在13字字典的hashmap索引结构进行匹配；若所述13个中文字对应的hash值没有在13字字典中的hashmap索引结构匹配到，那么将所述13字中文字符串最右边去除一个单字，得到一个12字的中文字符串并生成hash 值，将所述12个中文字对应的hash值在12字字典的hashmap索引结构进行匹配，如此重复循环，直到所述字段的数据的某个中文字的hash值在某个地址分词字典的hashmap索引结构中匹配成功，则将所述hash值对应的中文字符串为一个有效中文地址分词，并记录下来，不进行后续的hash值在地址分词字典的hashmap索引结构中的匹配操作；若所述字段的数据的所有中文字的hash值在所有地址分词字典的hashmap索引结构中都没有匹配成功，则获得所述字段的数据的一个中文单字，将所述字段的数据左边去除获得的所述有效中文地址分词或者中文单字，得到剩余中文字符串，按照所述字段的数据在所有地址分词字典的hashmap索引结构中的匹配过程，将所述剩余中文字符串在所有地址分词字典的hashmap索引结构中进行匹配，获得若干有效中文地址分词、单字、数字或特殊字符；从所述有效中文地址分词从左到右取词，生成所述中文地址分词的hash值，将所述中文地址分词的hash值在各个地址分词字典对应的hashmap索引结构中进行检索，当所述某个地址分词字典对应的hashmap索引结构中检索到所述中文地址分词的hash值，将所述某个地址分词字典对应级别的计数器的计数值加1 ;重复执行上述处理过程，直到所有有效中文地址分词在各个地址分词字典对应的hashmap索引结构中都检索完毕；选取所述采样数据中的下一个数据记录中的所述字段的数据，对所述下一个数据记录中的所述字段的数据进行隐私数据匹配，直到所述采样数据中所有所述字段的数据都进行了隐私数据匹配。
12. 根据权利要求11所述的数据表中隐私数据的发现与分类方法，其特征在于，所述的采样数据中所述字段的数据全部匹配完成后，根据所述六个级别对应的计数器的计数值确定所述某个字段的数据类型，包括：当所述六个级别对应的计数器的计数值之和大于等于进行匹配的所述字段的数据的总数量的1〇〇%，则判断所述字段的数据类型为地址。
13. 根据权利要求12所述的数据表中隐私数据的发现与分类方法，其特征在于，所述方法还包括：当判断所述字段的数据类型为地址后，获取六个级别对应的6个地址字典分别对应的特征标识位，并计算所述每个特征标志位的计数器的计数值在所述整个字段数据总量所占的百分比，获取大于特定百分比的特征标志位的最宽的区间，将所述最宽的区间中包含的级别对应子类作为该字段最终的隐私数据类型特征。
【专利摘要】本发明实施例提供了一种数据表中隐私数据的发现与分类方法。该方法主要预先设定各个隐私数据种类对应的隐私数据分析规则；提取数据表中的采样数据；按照设定的隐私数据种类分析顺序和所述各个隐私数据种类对应的隐私数据分析规则，对所述采样数据进行隐私数据分析，根据分析结果发现所述采样数据中的身份证号码、邮政编码、营业执照号、组织机构代码、纳税人识别号、电子邮件地址、企业名称、电话号码、中文姓名和地址共10种隐私数据种类，高效率地将企业应用数据库的数据表中的关键数据找出来并归类，能够极大地减小了工作量、缩短工作时间。
【IPC分类】G06F17-30
【公开号】CN104731976
【申请号】CN201510175993
【发明人】黄晓涛
【申请人】海量云图（北京）数据技术有限公司
【公开日】2015年6月24日
【申请日】2015年4月14日

完整全部详细技术资料下载

当前第5页1 2 3 4 5