中文姓名数据的发现与分类方法_2

文档序号:8412636阅读:来源:国知局
中的某个字段对应的姓名计数器、姓氏计数器、名字计数器和/或数组计数器的计数值,判断所述某个字段的数据类型是否为中文姓名,包括:
[0035]当判定某个字段的数据类型为姓氏后,对所述某个字段所在的数据记录行中的其它字段的数据进行单字拆分,将每个单字分别在名字字典中进行匹配,当每个单字都匹配名字字典中包括的名字时,则将名字对应的计数器的计数值加I ;
[0036]当所述其它字段的数据全部分析完成后,如果名字计数器的计数值大于进行匹配的所述其它字段的数据的总数量,则判定所述其它字段的数据类型为名字。
[0037]由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过预先设定中文姓名对应的数据分析规则,对采样数据进行数据分析,可以自动、有效地发现企业应用数据库的数据表中的中文姓名数据种类,高效率地将企业应用数据库的数据表中的中文姓名关键数据找出来并归类。
[0038]本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0039]为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本发明实施例提供的一种中文姓名数据的发现与分类方法的处理流程示意图;
[0041]图2为本发明实施例提供的一种根据关键字的hash值检索得到完整关键词的示意图。
【具体实施方式】
[0042]下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0043]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0044]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0045]为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
[0046]实施例一
[0047]本发明实施例提供了一种有效的、能显著提高准确率的方法,能让企业单位在自身众多复杂的系统当中,找到关键数据并进行分类,便于进一步采取相应的措施。
[0048]该实施例提供了一种中文姓名数据的发现与分类方法的处理流程如图1所示,包括如下的处理步骤:
[0049]步骤S110、预先设定中文姓名对应的数据分析规则和计数器。
[0050]本发明实施例的隐私数据发现和分类的基本原理是对采样数据中的字段的数据进行扫描和分析,得到字段的数据的特征,然后对字段的数据进行归类。同一个字段的数据,需要经过所有隐私数据种类的特征规则算法的分析统计,最终根据相似度来判断它有最有可能是哪一种类型的隐私数据。上述隐私数据可以称为私密数据或敏感信息。
[0051]常见的隐私数据种类为身份证号码、邮政编码、营业执照号(工商注册号)、组织机构代码、纳税人识别号、电子邮件地址、企业名称、电话号码、中文姓名和地址共10种隐私数据种类。本发明实施例将所述中文姓名种类的隐私数据划分为姓名、姓氏和名字三个子类,并对姓名、姓氏和名字三个子类分别设置姓名计数器、姓氏计数器和名字计数器,设定所述姓名、姓氏和名字三个子类分别对应的数据分析规则。
[0052]针对所用到的姓氏字典设置一个数组计数器,即姓氏字典中的每一个姓氏值都对应使用所述数组中的一个特定元素作为计数器。
[0053]构造中文姓名对应的数据字典,该数据字典中存储了中文姓名数据种类中的典型数据,其中姓氏字典包括中国绝大多数的姓氏,名字字典包括中国取名的常用字等。
[0054]步骤S120、根据数据库的元数据,获取需要进行隐私数据分析的数据表,以及数据表中的字段类型。
[0055]读取所述数据表所在的数据库的元数据,该元数据包括每个数据表的数据表名、数据中存储的数据的描述信息,以及每个数据表中的每个字段的字段名、数据定义、数据限制信息,根据所述元数据判断出所述数据库中需要进行隐私数据提取的数据表和数据表中需要进行隐私数据提取的字段,以及每个字段的字段类型,该字段类型包括数值类型的字段和字符串类型的字段。
[0056]根据所述数据表中每个字段的字段类型和长度精度,确定需要匹配中文姓名对应的隐私数据分析规则的字段。
[0057]步骤S130、提取需要进行隐私数据分析的数据表中的采样数据。
[0058]设置数据表的采样行数阈值,当所述数据表中的全部数据记录的行数小于所述采样行数阈值,则提取所述数据表中的全部记录行数的数据作为采样数据;当所述数据表中的数据记录的行数大于或者等于所述采样行数阈值,则提取所述数据表中的排列在前列的所述采样行数阈值的行数,以及排列在所述采样行数阈值的行数后面的全部数据记录的行数的设定比率作为采样数据。
[0059]比如,上述采样行数阈值为1000,采样率缺省为取前1000行,后面从1001行开始取千分之一,每1000行取一行,采样率可根据实际情况配置选择。
[0060]步骤S140、按照所述中文姓名对应的数据分析规则,对所述采样数据进行中文姓名数据分析,根据分析结果发现所述采样数据中的中文姓名。
[0061]隐私数据种类发现规则与算法中的统一规则如下:
[0062]1.输入值为空值、空串或者空格均不计入阀值统计。
[0063]2.全角字符预先在调用层转换成半角处理;
[0064]3.以下每种隐私数据类型的内部的算法规则,若无特别说明,均为顺序执行且不可忽略,即某条规则校验失败则后面的规则无需校验,该种隐私数据类型判断失败。
[0065]4.字典检索加速方法,本发明实施例提供的一种根据关键字的hash值检索得到完整关键词的示意图如图2所示,针对字典值超过100个的字典建议开始使用此方法:
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1