本技术涉及服务器,特别是涉及一种敏感内容识别方法、装置、电子设备及计算机可读介质。
背景技术:
1、随着国家越来越重视数据资产的安全性,企业在生产或运行的过程中,会产生大量的数据。这些数据都存储在企业文件服务器的文件中。由于产生了大量的文件,对于文件的密级识别,以及敏感内容的识别,需要耗费大量的人力,物力。敏感内容识别主要就是用来识别文件中包含哪些敏感内容,以及对文件的密级进行识别,来帮助企业更好的管理文件信息。因此,企业需要对文件服务器中的各个文件进行敏感内容的识别。
2、而在目前的企业在敏感内容识别过程中,由于文件服务器中的文件量过多,通常存在敏感内容识别效率低下,识别准确率低下等问题。
技术实现思路
1、有鉴于此,本技术旨在提出一种敏感内容识别方法、装置、电子设备及计算机可读介质,能够对于识别效率低下,借助kafka服务器的分布式消息管理以及高吞吐量等优点,使用kafka服务器将识别任务拆分为多个识别子任务分发到多个敏感内容识别服务器中,提高识别效率,并且,设置策略模型,对文件服务器的源文件进行识别,提高识别准确率。
2、本技术实施例第一方面,提供一种敏感内容识别方法,应用于内容识别系统,所述内容识别系统包括核心服务器、kafka服务器、文件服务器和敏感内容识别服务器,所述方法包括:
3、在所述核心服务器上创建识别任务,并将所述识别任务与所述文件服务器、至少一个所述敏感内容识别服务器和至少一个策略模型进行关联,得到任务信息;
4、通过所述识别任务中所关联的所述敏感内容识别服务器,获取所述文件服务器所包含的源文件的文件信息,并将所述文件信息上传到所述kafka服务器中,其中,所述识别任务与所述文件信息对应;
5、通过所述核心服务器,下发所述识别任务给所述kafka服务器,并在所述kafka服务器中创建与所述识别任务对应的第一topic,并依据所述敏感内容识别服务器中的目标敏感内容识别服务器的cpu资源信息将所述第一topic划分为多个第一topic分区,其中,所述目标敏感内容识别服务器为能够访问所述文件服务器的敏感内容识别服务器,所述第一topic用于存放所述文件信息,所述文件信息包括多个子文件信息,所述第一topic分区用于存放所述子文件信息;
6、通过所述核心服务器,将所述识别任务的任务信息下发至所述kafka服务器中,并将所述识别任务按照所述第一topic分区划分成多个第一识别子任务,其中,所述第一topic分区与所述第一识别子任务一一对应,所述第一识别子任务与所述子文件信息一一对应;
7、通过所述kafka服务器,将所述第一识别子任务及所述任务信息下发给所述目标敏感内容识别服务器;
8、通过所述目标敏感内容识别服务器,依据所述策略模型对所述第一topic分区中的所述第一识别子任务中所对应的所述子文件信息所指定的源文件进行识别,得到识别结果。
9、在一种实施方式中,所述在所述核心服务器上创建识别任务之后,所述方法还包括:
10、对所述识别任务所关联的所述敏感内容识别服务器进行校验;
11、依据所述敏感内容识别服务器对所述文件服务器的访问情况,确定出所述目标敏感内容识别服务器,所述目标敏感内容识别服务器为可访问所述文件服务器的敏感内容识别服务器;
12、并通过所述目标敏感内容识别服务器获取所述文件服务器所包含的源文件的文件信息,并将所述文件信息保存在所述kafka服务器上。
13、在一种实施方式中,所述依据所述敏感内容识别服务器中的目标敏感内容识别服务器的cpu资源信息将所述第一topic划分为多个第一topic分区,包括:
14、根据每一个所述目标敏感内容识别服务器的cpu资源信息确定出每一个所述目标敏感内容识别服务器对应的可用线程;
15、计算所述可用线程的总数,依据所述可用线程的总数将所述第一topic划分为多个所述第一topic分区,其中,所述第一topic分区的个数与所述可用线程的总数相同;
16、在所述依据所述敏感内容识别服务器中的目标敏感内容识别服务器的cpu资源信息将所述第一topic划分为多个第一topic分区之后,还包括:
17、通过各个所述可用线程,依据所述策略模型对所述第一topic分区中的所述第一识别子任务中所对应的所述子文件信息所指定的源文件进行识别,得到子识别结果。
18、在一种实施方式中,所述方法还包括:
19、通过所述核心服务器,在所述kafka服务器中创建与所述识别任务对应的第二topic;
20、在所述通过各个所述可用线程,依据所述策略模型对所述第一topic分区中的所述第一识别子任务中所对应的所述子文件信息所指定的源文件进行识别,得到子识别结果之后,还包括:
21、通过所述可用线程,将各个所述子识别结果上传到所述第二topic中;
22、将各个所述子识别结果在所述第二topic中进行汇总,得到所述识别结果;
23、通过所述核心服务器,接收所述第二topic中的所述识别结果,并将所述识别结果上传到数据库中,所述数据库设置在所述核心服务器上。
24、在一种实施方式中,所述通过所述目标敏感内容识别服务器,依据所述策略模型对所述第一topic分区中的所述第一识别子任务中的所述文件信息所指定的源文件进行识别,得到识别结果,包括:
25、通过所述目标敏感内容识别服务器,调用所述核心服务器中的所述策略模型,依据所述策略模型对所述第一topic分区中的所述第一识别子任务中的所述文件信息所指定的源文件进行解析;
26、将所述解析后的源文件与所述策略模型的敏感内容识别规则进行匹配,并确定所述源文件的敏感等级和命中信息,将所述敏感等级和所示命中信息作为所述识别结果。
27、在一种实施方式中,所述方法还包括:
28、根据所述文件服务器中所包含的源文件的所述文件信息确定出至少一个敏感内容识别规则,所述敏感内容识别规则包括关键字、数据字典,正则,命名实体识别的逻辑关系;
29、对所述敏感内容识别规则设定所述敏感等级;
30、依据所述敏感内容识别规则设定及其对应的敏感等级构建所述策略模型。
31、在一种实施方式中,各个所述敏感内容识别服务器处于同一个消费者组中,所述方法还包括:
32、在所述目标敏感内容识别服务器出现故障时,确定出所述目标敏感内容识别服务器中未处理完的第一识别子任务;
33、计算出非故障的所述目标敏感内容识别服务器中的所述可用线程的个数;
34、将所述目标敏感内容识别服务器中未处理完的第一识别子任务合并后划分为第二识别子任务,通过所述可用线程的个数对所述第一topic划分第二topic分区,以使所述第二topic分区对所述第一topic分区进行覆盖,其中,所述第二识别子任务与所述第二topic分区一一对应;
35、通过所述kafka服务器,将所述第二识别子任务及所述任务信息下发给所述非故障的目标敏感内容识别服务器。
36、本技术实施例第二方面,提供一种敏感内容识别装置,应用于内容识别系统,所述内容识别系统包括核心服务器、kafka服务器、文件服务器和敏感内容识别服务器,所述装置包括:
37、创建模块,用于在所述核心服务器上创建识别任务,并将所述识别任务与所述文件服务器、至少一个所述敏感内容识别服务器和至少一个策略模型进行关联,得到任务信息;
38、文件信息获取模块,用于通过所述识别任务中所关联的所述敏感内容识别服务器,获取所述文件服务器所包含的源文件的文件信息,并将所述文件信息上传到所述kafka服务器中,其中,所述识别任务与所述文件信息对应;
39、topic创建模块,用于通过所述核心服务器,下发所述识别任务给所述kafka服务器,并在所述kafka服务器中创建与所述识别任务对应的第一topic,并依据所述敏感内容识别服务器中的目标敏感内容识别服务器的cpu资源信息将所述第一topic划分为多个第一topic分区,其中,所述目标敏感内容识别服务器为能够访问所述文件服务器的敏感内容识别服务器,所述第一topic用于存放所述文件信息,所述文件信息包括多个子文件信息,所述第一topic分区用于存放所述子文件信息;
40、任务信息下发模块,用于通过所述核心服务器,将所述识别任务的任务信息下发至所述kafka服务器中,并将所述识别任务按照所述第一topic分区划分成多个第一识别子任务,其中,所述第一topic分区与所述第一识别子任务一一对应,所述第一识别子任务与所述子文件信息一一对应;
41、第一识别子任务下发模块,用于通过所述kafka服务器,将所述第一识别子任务及所述任务信息下发给所述目标敏感内容识别服务器;
42、识别结果获取模块,用于通过所述目标敏感内容识别服务器,依据所述策略模型对所述第一topic分区中的所述第一识别子任务中所对应的所述子文件信息所指定的源文件进行识别,得到识别结果。
43、本技术实施例第三方面,提供一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现第一方面所述的方法。
44、本技术实施例第四方面,提供一种计算机可读介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面所述的方法。
45、本技术具有如下的优点和积极效果:
46、本技术实施例提供一种敏感内容识别方法、装置、电子设备及计算机可读介质,通过在核心服务器上创建针对文件服务器的识别任务,并与文件服务器、至少一个敏感内容识别服务器和至少一个策略模型进行关联,借助kafka服务器的分布式消息管理以及高吞吐量等优点,使用kafka服务器将识别任务拆分为多个识别子任务分发到多个敏感内容识别服务器中,以使多个目标敏感内容识别服务器对文件服务器的源文件进行识别,并返回识别结果,从而提高识别的效率,并且,通过设置策略模型对文件服务器的源文件进行识别,进一步提高识别的准确率。