一种半结构化数据中个人标识信息识别方法与系统与流程

文档序号：37625728发布日期：2024-04-18 17:39阅读：10来源：国知局

本发明属于信息安全，具体涉及一种半结构化数据中个人标识信息识别方法与系统。

背景技术：

1、个人标识信息是指在可以在一定环境下对以对个体进行标识的个人信息，例如手机号、姓名、身份证号、性别等，对此，个人标识信息识别系统可以在海量的数据中识别到个人信息，避免个人信息泄露，守护个人数据安全。

2、现有的个人标识信息识别系统往往会在数据表中按字段分别抽取样本或者只是根据字段名进行匹配，对匹配的字段内容进行信息标记。此类系统依赖于待处理的数据有着较好的结构化程度，但在许多平台中，虽然数据存储于数据库的二维表中，但其结构化程度并不高，例如在公共数据开放平台中，数据主体差异大，数据表的结构化程度也天差地别，许多字段中字段名并没有约束字段内容。

3、现有技术如公开号为cn112835903a的中国发明专利申请公开了一种敏感数据识别的方法及设备，该发明根据数据库信息选择待识别的数据库表；对所述待识别的数据库表进行敏感数据识别，得到初始敏感数据类型；根据预先设置的误匹配的数据类型对所述初始敏感数据类型进行重新识别，得到目标敏感数据识别结果。从而避免了识别出非预期的敏感信息类型，提高敏感信息识别的准确度。又如公开号为cn110209892a的中国发明专利申请公开了一种敏感信息识别方法、装置、电子设备及存储介质，该方法从数据库的数据库表中获取待识别字段；若所述待识别字段中至少一信息包括汉字字符串，且若所述汉字字符串包括满足第一预设规律的字符串，确定所述字符串是否与预设的语料库中的至少一字符串模板匹配；若所述字符串与预设的语料库中的任意一字符串模板不匹配，确定所述字符串对应的哈希值；确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串；确定所述目标字符串与所述字符串的相似度；若所述目标字符串与所述字符串的相似度超过预设值，确定所述待识别字段包括敏感字段。

4、现有的个人信息标识技术缺陷如下：（1）基础识别算法待改进；（2）面对字段名不可信的情况，现有字段级的识别框架无法完善的识别到上述情况中少量的个人信息，也会导致个人信息泄露。

技术实现思路

1、本发明的发明目的是提供一种半结构化数据中个人标识信息识别方法与系统，能够高效的对其中包含的个人标记信息进行识别，帮助相关从业人员了解数据表中的个人信息情况。

2、为实现上述发明目的，本发明的技术方案如下：

3、一种半结构化数据中个人标识信息识别方法，包括数据表读取和识别结果汇总保存，还包括数据预处理和靶向识别，所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段，所述靶向识别包括预设模板识别和最小覆盖识别，具体流程如下，

4、将待识别的数据表进行数据预处理，对拆分完成后的字段逐个进行识别，

5、识别时，首先分析字段描述信息，判定是否符合预设模板识别的要求，若符合，则进行预设模板识别，若不符合，则采用最小覆盖识别模块进行识别。

6、半结构化信息中个人标识信息的存在形式多样，其中有些按信息种类独立保存在相应的字段中，这些字段的字段名描述准确，字段中内容单一（简称常规字段），例如在“姓名”字段中保存的单个个人姓名，亦或是在“联系方式”字段中保存的单个手机号，但也有部分个人信息以自由文本的形式保存在某些特殊的字段中（简称自由文本字段），例如在“事件详情”字段中实际内容为“2020年5月1日李某（电话123xxxxxxxx）与王某（电话456xxxxxxxx）发生争执...”其中不仅有多个人的姓名、还有手机号信息。对于这种自由文本字段的记录中包含几类个人信息的情况，现有的个人标识信息识别系统的基础识别算法并未对此作出适应。同时半结构化数据种类繁多，可能出现的数据类型是未知的，其中许多信息的数字特征极其相似，一个字段中的个人信息不仅与字段内容有关，也与字段描述有关，例如同样是代码“1”，当字段描述为“性别”时，该内容代表“男性”，当字段描述为“学历”时代表“本科”，然而当前的识别系统中的基础识别算法并没有能够妥善处理这类情况。此外，虽然有些个人标识信息识别系统也采用了深度学习的方法进行人名、地址识别，但由于半结构化信息缺乏上下文，这导致会将深度学习模型不能较好的发挥应有的识别准确率。

7、本发明在识别时首先会对待识别数据表按字段切分，在识别时以记录行为单位，能够应对混合的字段内容，有着更好的个人信息识别能力；采用靶向识别流程，对个人标识信息的探测、识别更加精确，该方法采用更加严密的识别框架，采用更细的识别粒度，对每个字段中的每条数据进行检测，即使个人标识信息混杂在非个人信息中，也能被系统识别到，确保个人标识信息不遗漏。另一方面，通过预设模板识别与最小覆盖识别，又能最大程度上减少系统运行的资源消耗，提高效率。

8、在上述的一种半结构化数据中个人标识信息识别方法中，所述预设模板识别通过预设模板的方式识别常规字段，所述最小覆盖识别处理预设模板无法处理的非常规字段。

9、在上述的一种半结构化数据中个人标识信息识别方法中，所述预设模板识别和最小覆盖识别还包括人名类、地址类信息识别，具体如下，

10、将字段名作为额外的信息补充添加到字段记录行的内容中进行预处理，再将信息输入深度学习模型进行个人信息识别。

11、由于在常规字段的表格型数据缺少上下文信息导致的深度学习模型识别率差的问题，本发明将字段名做为额外的信息补充添加到字段记录行的内容中，再将信息输入深度学习模型进行个人信息识别。

12、在上述的一种半结构化数据中个人标识信息识别方法中，所述最小覆盖识别还包括统一编码信息识别，具体如下，

13、对于有编码规则的个人信息，对用于匹配的正则表达式加入零宽断言机制，该零宽断言机制如下：

14、在正则表达式首部加入“(?<![\da-za-z]|(?:\d\.))”这个字符元组表示一旦匹配到的字符串前面匹配到了英文字母、数字、数字加小数点时，丢弃当前匹配到的字符串；

15、在正则表达式尾部加入“(?![\da-za-z\-])”，这个字符元组表示一旦匹配到的字符串后面匹配到了英文字母或数字点时，丢弃当前匹配到的字符串。

16、对于手机号、身份证号、银行卡号这些有编码规则的个人信息，对用于匹配的正则表达式进行改进，加入“零宽断言”机制，使得识别算法既能在常规字段中识别到这三类信息，也能在自由文本字段识别到个人信息。

17、在上述的一种半结构化数据中个人标识信息识别方法中，所述最小覆盖识别还包括类别型信息识别，具体如下，

18、对于特定个人信息类别预先设置识别数据库，将个人信息类别与字段名检索表达式、参照标准和内容正则表达式相对应，

19、识别时首先对字段名按预设的字段名检索表达式进行检索，对于匹配成功的字段，采用内容正则表达式进行匹配，对该字段中匹配到的内容，进行相应的个人信息标记。

20、在上述的一种半结构化数据中个人标识信息识别方法中，所述预设模版识别包括将预设类别和关键词与结构化指标相对应的预设模版，该预设模版识别依次包括模版匹配和模版识别；

21、所述模版匹配通过字段的字段名与预设模版的关键词、结构化指标和识别率进行匹配判断，所述模版识别对人名类信息和地址类信息进行识别。

22、在上述的一种半结构化数据中个人标识信息识别方法中，所述最小覆盖识别包括如下步骤，具体如下，

23、建立一个包含多类别个人信息的识别范围集合u，同时u也是将对该字段进行识别的个人信息范围；对这个字段的数据特征进行探测分析，从而对识别范围集合进行缩小；对字符长度进行检测，找到当前字段中字符长度最大值，与设定的阈值进行对比，缩小检测范围；最后利用基础识别算法即可进行识别。

24、所述基础识别算法包括人名类、地址类信息识别、统一编码信息识别和类别型信息识别。

25、最小覆盖识别用于处理预设模板无法处理的非常规字段，其中包括一个字段中含有不同的信息或字段的一条记录包含多种信息的情况，对于这种信息混杂的情况，本发明采用最小覆盖识别流程进行处理。

26、为了减少误检，本发明还加入了纠错警告机制，通过人工协助，降低误检，所述最小覆盖识别还包括纠错告警机制，即识别完成后，若检测到统一编码信息，采用纠错告警进行分析预警，具体如下，

27、在整个字段检测结束后计算出最终识别到的编码类信息数量与总数的比值构形成的有效识别率，通过对比有效识别率与设定的检测率阈值，分析识别数据是否存在异常，并通过日志记录与提示告警，根据告警提示可手动删除异常识别字段。

28、根据设定的识别阈值进行纠错，能够减少误识别。

29、一种半结构化数据中个人标识信息识别系统，包括数据表读取模块、靶向识别模块和识别结果汇总保存模块，还包括数据预处理模块所述靶向识别模块依次包括预设模板识别模块和最小覆盖识别模块，该靶向识别模块通过上述任意一项中所述的一种半结构化数据中个人标识信息识别方法进行个人信息识别。

30、本发明系统在常规基础识别算法上进行了改进，同时进行了输入预处理，相比较传统的敏感信息发现系统具有更好的适应性与识别效果，不但能够处理结构化的信息，对于半结构化的描述文本，也有较好的识别效果，总体上信息识别能力更全面。

31、在上述的一种半结构化数据中个人标识信息识别系统中，还包括统计模块，该统计模块对识别结果汇总保存模块保存的信息进行可视化展示，在统计过程中遍历识别结果并对识别结果进行去重，根据去重后的识别结果进行可视化展示。

32、本发明系统的识别结果多样，不仅有识别到的具体信息类别，也包含个人标识信息的统计图表，根据保存的信息进行可视化展示，生成相关的统计表或统计图，方便操作人员直观感受当前数据表中个人信息风险情况，更适合从业人员进行统计分析。由此本发明系统既具有较好的领域适应性，针对性强，同时也具有较好的平台适配性，能够方便相关从业人员进行使用。

33、与现有技术相比，本发明的有益效果体现在：

34、（1）本发明针对半结构化数据的特点，改进了基础识别算法，不仅能在结构化的数据表中进行个人标识信息识别，也能够在半结构化数据中进行个人标识信息识别。同时通过更加严密的识别框架，采用更细的识别粒度，对每个字段中的每条数据进行检测，即使个人标识信息混杂在非个人信息中，也能被识别到，确保个人标识信息不遗漏。另一方面，通过预设模板识别与最小覆盖识别，又能最大程度上减少运行资源消耗，提高效率。

35、（2）本发明在识别时首先会对待识别数据表按字段切分，在识别时以记录行为单位，能够应对混合的字段内容，有着更好的个人信息识别能力。采用靶向识别流程，对个人标识信息的探测、识别更加精确，同时也避免了误识别与计算资源的浪费。

36、（3）本发明具有纠错预警机制，通过对待识别数据的整体统计分析，对异常字段进行识别，提醒人工复核，确保信息正确可用。

37、（4）本发明具有较好的领域适应性，针对性强，同时也具有较好的平台适配性，能够方便相关从业人员进行使用。本发明提供的系统识别结果多样，不仅有识别到的具体信息类别，也包含个人标识信息的统计图表，更适合从业人员进行统计分析。

38、（5）本发明采用了深度学习算法，同时进行了输入预处理，相比较传统的敏感信息发现系统具有更好的适应性与识别效果，不但能够处理结构化的信息，对于半结构化的描述文本，也有较好的识别效果，总体上信息识别能力更全面。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖佳纯,姚思诚,陈海粟
技术所有人：南湖实验室
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。