数据识别方法、装置、电子设备及存储介质与流程

文档序号:32345748发布日期:2022-11-26 11:17阅读:45来源:国知局
数据识别方法、装置、电子设备及存储介质与流程

1.本发明涉及数据处理技术领域,尤其涉及一种数据识别方法、装置、电子设备及存储介质。


背景技术:

2.随着各项业务的不断发展,企业数据规模飞速增长,公司内部各类数据越来越多,为快速实现企业数据的汇聚与共享,支撑企业经营管理,企业将各类海量数据存放至大数据平台中,大数据平台中存在敏感数据。
3.在实现本发明的过程中,发明人发现现有技术中至少存在以下技术问题:
4.现有敏感数据识别方案存在识别速度慢的问题。


技术实现要素:

5.本发明提供了一种数据识别方法、装置、电子设备及存储介质,以解决敏感数据识别速度慢的问题。
6.根据本发明的一方面,提供了一种数据识别方法,包括:
7.获取待识别文件;
8.对所述待识别文件进行数据切分,得到多个待识别数据;
9.并行对各所述待识别数据进行敏感数据识别,得到数据识别结果。
10.根据本发明的另一方面,提供了一种数据识别装置,包括:
11.文件获取模块,用于获取待识别文件;
12.数据切分模块,用于对所述待识别文件进行数据切分,得到多个待识别数据;
13.数据识别模块,用于并行对各所述待识别数据进行敏感数据识别,得到数据识别结果。
14.根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
15.至少一个处理器;以及
16.与所述至少一个处理器通信连接的存储器;其中,
17.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据识别方法。
18.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据识别方法。
19.本发明实施例的技术方案,通过获取待识别文件,对待识别文件进行数据切分,得到多个待识别数据;并行对各待识别数据进行敏感数据识别,得到数据识别结果。通过上述技术方案,实现了数据切分,将切分后的多个待识别数据并行进行敏感数据识别,提高了敏感数据识别的处理速度,解决了敏感数据识别速度慢的问题。
20.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
21.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是根据本发明实施例一提供的一种数据识别方法的流程图;
23.图2是根据本发明实施例一提供的一种数据切分流程图;
24.图3是根据本发明实施例二提供的一种数据识别方法的流程图;
25.图4是根据本发明实施例三提供的一种数据识别装置的结构示意图;
26.图5是实现本发明实施例的数据识别方法的电子设备的结构示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
28.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.实施例一
30.图1为本发明实施例一提供的一种数据识别方法的流程图,本实施例可适用于大数据平台进行敏感数据识别的情况,该方法可以由数据识别装置来执行,该数据识别装置可以采用硬件和/或软件的形式实现,该数据识别装置可配置于计算机终端和/或服务器中。如图1所示,该方法包括:
31.s110、获取待识别文件。
32.其中,待识别文件是指待进行敏感数据识别的文件。具体的,可以通过预设识别路径或目录调取待识别文件。
33.s120、对所述待识别文件进行数据切分,得到多个待识别数据。
34.其中,待识别数据是指待识别文件切分后的数据。可以理解的是,通过对待识别文件进行数据切分,使待识别文件分割为多个待识别数据,进而为并行对对各待识别数据进行敏感数据识别提供了基础条件,提高了敏感数据处理的速度。
35.具体的,数据切分方法包括但不限于:可以对待识别文件平均切分,使待识别数据的数据量相同;或者,可以根据阈值对待识别文件进行数据切分,当待识别文件的数据量达到一定阈值后进行数据切分,既可以保证各识别任务处理的数据量相同,也可以使各识别任务的数据处理量满足阈值要求,从而提高了数据处理速度。
36.在上述实施例的基础上,所述对所述待识别文件进行数据切分,得到多个待识别数据,包括:基于数据切分阈值对所述待识别文件进行数据切分,得到多个待识别数据。
37.其中,数据切分阈值是指最大数据量阈值,换而言之,当检测到待识别文件的数据量到达数据切分阈值时,对待识别文件进行数据切分。
38.示例性的,图2是本实施例提供的一种数据切分流程图。如图2所示,在用户提交敏感数据识别任务之后,系统自动获取待识别目录所包含的全部待识别文件,并计算出待识别文件的数据量(例如150g),根据内置的单个任务处理的最大数据量阈值(例如50g)进行数据切分,生成多个子任务(例如数据识别任务1、数据识别任务2和数据识别任务3)。图2中的yarn是指资源管理系统,可以并行执行各子任务。可以理解的是,本实施例通过独立队列运行敏感数据识别任务,既可以提高海量数据场景下敏感数据识别的速度,降低数据安全风险,也减少了对上层业务正常运行所造成的影响。
39.s130、并行对各所述待识别数据进行敏感数据识别,得到数据识别结果。
40.在本实施例中,敏感数据识别方法包括但不限于正则表达式识别、关键字识别、机器学习识别等,在此不做限定。数据识别结果可以包括但不限于个人信息、身份证号、性别、手机号码和地址等敏感数据以及敏感数据的位置信息。
41.在一些实施例中,对各待识别数据进行敏感数据识别的方法可以为多种敏感数据识别方法的组合方法,组合方法包括但不限于正则表达式+关键字识别,正则表达式+机器学习识别等。
42.示例性的,可以对待识别数据进行正则表达式识别后,将识别结果再进行关键字识别,使得到的数据识别结果更加准确;或者,可以对待识别数据进行正则表达式识别后,将识别结果输入至预先训练完成的机器学习模型,得到数据识别结果,其中,预先训练完成的机器学习模型可以通过大量敏感数据样本训练得到,在所训练的机器学习模型中,会预先对敏感数据样本进行特征提取,并基于提取的特征信息对机器学习模型中的模型参数进行训练,并通过不断调整模型参数,使得模型的输出结果与样本标签之间的距离偏差逐渐减小并趋于稳定。
43.在上述各实施例的基础上,在基于所述数据识别方法对所述待识别数据进行识别,得到数据识别结果之后,还包括:在所述数据识别结果为敏感数据的情况下,获取所述待识别数据中敏感数据的位置信息;基于所述待识别数据中敏感数据的位置信息对所述待识别数据进行脱敏,得到脱敏数据。
44.在本实施例中,敏感数据的位置信息是指敏感数据在待识别数据中的位置信息,可以包括但不限于文件名、路径、列号、列名和字节偏移位置等信息。进行脱敏的方法包括但不限于无效化方法、随机值替换方法、对称加密方法等,在此不做限定。
45.本发明实施例的技术方案,通过获取待识别文件,对待识别文件进行数据切分,得到多个待识别数据;并行对各待识别数据进行敏感数据识别,得到数据识别结果。通过上述技术方案,实现了数据切分,将切分后的多个待识别数据并行进行敏感数据识别,提高了敏
感数据识别的处理速度,解决了敏感数据识别速度慢的问题。
46.实施例二
47.图3为本发明实施例二提供的一种数据识别方法的流程图,本实施例的方法与上述实施例中提供的数据识别方法中各个可选方案可以结合。本实施例提供的数据识别方法进行了进一步优化。可选的,所述并行对各所述待识别数据进行敏感数据识别,得到数据识别结果,包括:并行确定各所述待识别数据的数据类型,对于任一待识别数据,基于所述待识别数据的数据类型确定敏感数据识别方法;基于所述敏感数据识别方法对所述待识别数据进行识别,得到数据识别结果。
48.如图3所示,该方法包括:
49.s210、获取待识别文件。
50.s220、对所述待识别文件进行数据切分,得到多个待识别数据。
51.s230、并行确定各所述待识别数据的数据类型,对于任一待识别数据,基于所述待识别数据的数据类型确定敏感数据识别方法。
52.s240、基于所述敏感数据识别方法对所述待识别数据进行识别,得到数据识别结果。
53.在本实施中,可以根据待识别数据的数据类型确定对应的敏感数据识别方法,使敏感数据识别具有针对性,提高敏感数据识别的识别精度。
54.在上述各实施例的基础上,所述并行确定各所述待识别数据的数据类型,包括:在多线程并行处理方式下,对于任一待识别数据,基于所述待识别数据的数据内容信息,和/或所述待识别数据的文件后缀信息,确定所述待识别数据的数据类型。
55.其中,待识别数据的数据类型可以包括但不限于结构化数据和非结构化数据。结构化数据是指行数据,存储在数据库里,是可以用二维结构来逻辑表达实现的数据。不方便用数据库来表现的数据为非结构化数据,非结构化数据包括但不限于所有格式的图片,xml,html,图像,音频,视频等。
56.在上述各实施例的基础上,所述基于所述敏感数据识别方法对所述待识别数据进行识别,得到数据识别结果,包括:在所述待识别数据的数据类型为结构化数据的情况下,对所述待识别数据进行随机采样,得到随机采样数据,基于所述敏感数据识别方法对所述随机采样数据进行识别,得到数据识别结果;在所述待识别数据的数据类型为非结构化数据的情况下,对所述待识别数据进行解析,得到解析数据,基于所述数据识别方法对所述解析数据进行识别,得到数据识别结果。
57.示例性的,对于结构化数据,同一列数据基本为同一类型数据,本实施例采用随机采样的方式进行敏感数据识别,随机采样算法可以为漏桶算法,换而言之,通过漏桶算法对待识别数据按行进行随机抽样,并将抽样结果进行聚合,根据敏感识别规则对聚合结果进行匹配,得到数据识别结果。其中,敏感识别规则可以为正则表达式规则,敏感识别规则可以依据敏感字段(系统中个人信息、身份证号、性别、手机号码、地址等),数据库ip地址,user关联的表等信息建立。对于非结构化数据,可以通过非结构数据识别方法对非结构化数据进行识别,得到数据识别结果。非结构数据识别方法包括但不限于词频-逆文件频率(term frequency

inverse document frequency,tf-idf)、word2vec或glove(global vectors)模型等。
58.在一些实施例中,还可以动态添加或修改敏感识别规则,以提高敏感数据识别的精度。
59.在上述各实施例的基础上,所述基于所述敏感数据识别方法对所述随机采样数据进行识别,得到数据识别结,包括:基于正则表达式对所述随机采样数据进行匹配,得到正则匹配结果,基于数据字典对正则匹配结果进行匹配,得到数据识别结果;或者,基于正则表达式对所述随机采样数据进行匹配,得到正则匹配结果,将所述正则匹配结果输入至预先训练完成的敏感数据识别模型,得到数据识别结果。
60.示例性的,可以对随机采样数据进行正则表达式识别后,将正则匹配结果再进行数据字典匹配,使得到的数据识别结果更加准确,其中,数据字典可以为行业数据字典,例如,银行卡号字典;或者,可以对随机采样数据进行正则表达式识别后,将正则匹配结果输入至预先训练完成的敏感数据识别模型,得到数据识别结果,其中,预先训练完成的敏感数据识别模型可以通过大量敏感数据样本训练得到,在所训练的敏感数据识别模型中,会预先对敏感数据样本进行特征提取,并基于提取的特征信息对敏感数据识别模型中的模型参数进行训练,并通过不断调整模型参数,使得模型的输出结果与样本标签之间的距离偏差逐渐减小并趋于稳定。
61.本发明实施例的技术方案,根据待识别数据的数据类型确定对应的敏感数据识别方法,使敏感数据识别具有针对性,提高了敏感数据识别的识别精度。
62.实施例三
63.图4为本发明实施例三提供的一种数据识别装置的结构示意图。如图4所示,该装置包括:
64.文件获取模块310,用于获取待识别文件;
65.数据切分模块320,用于对所述待识别文件进行数据切分,得到多个待识别数据;
66.数据识别模块330,用于并行对各所述待识别数据进行敏感数据识别,得到数据识别结果。
67.本发明实施例的技术方案,通过获取待识别文件,对待识别文件进行数据切分,得到多个待识别数据;并行对各待识别数据进行敏感数据识别,得到数据识别结果。通过上述技术方案,实现了数据切分,将切分后的多个待识别数据并行进行敏感数据识别,提高了敏感数据识别的处理速度,解决了敏感数据识别速度慢的问题。
68.在一些可选的实施方式中,数据切分模块320,具体用于:
69.基于数据切分阈值对所述待识别文件进行数据切分,得到多个待识别数据。
70.在一些可选的实施方式中,数据识别模块330,包括:
71.识别方法确定单元,用于并行确定各所述待识别数据的数据类型,对于任一待识别数据,基于所述待识别数据的数据类型确定敏感数据识别方法;
72.敏感数据识别单元,用于基于所述敏感数据识别方法对所述待识别数据进行识别,得到数据识别结果。
73.在一些可选的实施方式中,识别方法确定单元,具体用于:
74.在多线程并行处理方式下,对于任一待识别数据,基于所述待识别数据的数据内容信息,和/或所述待识别数据的文件后缀信息,确定所述待识别数据的数据类型。
75.在一些可选的实施方式中,敏感数据识别单元,包括:
76.结构化数据识别子单元,用于在所述待识别数据的数据类型为结构化数据的情况下,对所述待识别数据进行随机采样,得到随机采样数据,基于所述敏感数据识别方法对所述随机采样数据进行识别,得到数据识别结果;
77.非结构化数据识别子单元,用于在所述待识别数据的数据类型为非结构化数据的情况下,对所述待识别数据进行解析,得到解析数据,基于所述数据识别方法对所述解析数据进行识别,得到数据识别结果。
78.在一些可选的实施方式中,结构化数据识别子单元,具体用于:
79.基于正则表达式对所述随机采样数据进行匹配,得到正则匹配结果,基于数据字典对正则匹配结果进行匹配,得到数据识别结果;或者,
80.基于正则表达式对所述随机采样数据进行匹配,得到正则匹配结果,将所述正则匹配结果输入至预先训练完成的敏感数据识别模型,得到数据识别结果。
81.在一些可选的实施方式中,所述装置还包括:
82.位置信息获取模块,用于在所述数据识别结果为敏感数据的情况下,获取所述待识别数据中敏感数据的位置信息;
83.数据脱敏模块,用于基于所述待识别数据中敏感数据的位置信息对所述待识别数据进行脱敏,得到脱敏数据。
84.本发明实施例所提供的数据识别装置可执行本发明任意实施例所提供的数据识别方法,具备执行方法相应的功能模块和有益效果。
85.实施例四
86.图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
87.如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
88.电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
89.处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据
识别方法,该方法包括:
90.获取待识别文件;
91.对所述待识别文件进行数据切分,得到多个待识别数据;
92.并行对各所述待识别数据进行敏感数据识别,得到数据识别结果。
93.在一些实施例中,数据识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的数据识别方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据识别方法。
94.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
95.用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
96.在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
97.为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
98.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
99.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
100.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
101.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1