一种敏感词检查方法和装置的制造方法

文档序号:9396928阅读:220来源:国知局
一种敏感词检查方法和装置的制造方法
【技术领域】
[0001]本发明实施例涉及计算机信息安全技术领域,尤其涉及一种敏感词检查方法和装置。
【背景技术】
[0002]信息安全关系到企业信息安全和国家信息安全。随着信息化建设的快速发展,企业越来越重视自身的信息安全工作。
[0003]如何提升企业信息安全是企业信息化建设中的重中之重。在日常工作中,企业往往需要对出入企业内网和外网的信息内容进行信息安全检查,确保敏感信息不被泄露。目前常用的信息安全检查方式多为人工检查方法。
[0004]由于人的精力有限,另外企业越大,每天进出企业网络的信息种类越多,内容越复杂,若企业信息安全完全靠人工检查来实现,这无疑是一项既耗时又耗力的工作,而且容易出现检查不够全面,检查效果不够理想等问题。

【发明内容】

[0005]本发明提供一种敏感词检查方法和装置,由系统或系统与人工结合检查敏感词,既提高敏感词的检查效率,又可以获得理想的检查效果。
[0006]第一方面,本发明实施例提供了一种敏感词检查方法,包括:扫描待检查目录,获取待检查的目标文件;从待检查的目标文件中获取待检查的文本信息;根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词,若存在敏感词,则将所述待检查的目标文件搬移到待验证目录,否则,将所述待检查的目标文件搬移到已验证目录中。
[0007]进一步的,所述扫描待检查目录,获取待检查的目标文件包括:扫描待检查目录,若发现所述待检查目录中存在文件类型为目标文件类型的文件,则该文件即为待检查的目标文件。
[0008]进一步的,所述从待检查的目标文件中获取待检查的文本信息包括:根据所述待检查的目标文件的文件类型,调用与该文件类型相对应的提取函数,利用所述提取函数提取所述待检查的目标文件中的文本信息,形成待检查的文本信息。
[0009]进一步的,所述根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词包括:根据敏感词库对所述待检查的文本信息进行分词处理,对分词处理结果进行逻辑判断,通过逻辑判断结果,确认所述文本信息中是否存在敏感词。
[0010]进一步的,所述方法还包括:若所述文本信息存在敏感词,则将其所对应的所述目标文件的文件名、提取出来的待检查的文本信息、分词处理结果、分词处理时间添加到验证数据库中;
[0011 ] 以及将所述待检查的目标文件搬移到待验证目录之后还包括:对所述待验证目录中的目标文件进行人工验证,确认所述待验证目录中的目标文件是否确实含有敏感词,若确实存在敏感词,将其搬移到检查不通过目录,否则,将其搬移到已验证目录。
[0012]第二方面,本发明实施例还提供了一种敏感词检查装置,该敏感词检查装置包括:目录扫描模块,用于扫描待检查目录,获取待检查的目标文件;文本信息提取模块,用于从待检查的目标文件中获取待检查的文本信息;敏感词检查模块,用于根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词;以及用于若所述文本信息存在敏感词,则将所述待检查的目标文件搬移到待验证目录,否则,将所述待检查的目标文件搬移到已验证目录中。
[0013]进一步的,所述目标扫描模块具体用于:若发现所述待检查目录中存在文件类型为目标文件类型的文件,则该文件即为待检查的目标文件。
[0014]进一步的,所述文本信息提取模块具体用于:根据所述待检查的目标文件的文件类型,调用与该文件类型相对应的提取函数,利用所述提取函数提取所述待检查的目标文件中的文本信息,形成待检查的文本信息。
[0015]进一步的:敏感词检查模块具体用于:根据敏感词库对所述待检查的文本信息进行分词处理,对分词处理结果进行逻辑判断,通过逻辑判断结果,确认所述文本信息中是否存在敏感词。
[0016]进一步的,所述装置还包括:
[0017]文件信息添加模块,用于若所述文本信息存在敏感词,则将其所对应的所述目标文件的文件名、提取出来的待检查的文本信息、分词处理结果、分词处理时间添加到验证数据库中;
[0018]人工验证模块,用于由人工对所述待验证目录中的目标文件进行验证,确认是否确实含有敏感词,以及若确实存在敏感词,将其搬移到检查不通过目录,否则,将其搬移到已验证目录。
[0019]本发明实施例通过自行扫描获得待检查的目标文件,并对其进行敏感词检查,可以解决由于人工检查而出现的检查效率低,检查不够全面,检查效果不理想的问题,提高了敏感词检查效率,并可以获得理想的检查效果。
【附图说明】
[0020]图1是本发明实施例一中提供的一种敏感词检查方法流程图;
[0021]图2是本发明实施例二中提供的另一种敏感词检查方法流程图;
[0022]图3是本发明实施例三中提供的一种敏感词检查装置。
【具体实施方式】
[0023]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0024]实施例一
[0025]图1为本发明实施例一提供的一种敏感词检查方法的流程图,本实施例可适用于对存储设备中含有敏感词的文件进行检查的情况,该方法可以由系统来执行,具体包括如下步骤:
[0026]SI 10、扫描待检查目录,获取待检查的目标文件;
[0027]其中,所述待检查目录为存储设备中可以用于存储数据的文件夹,其具体范围可以采用系统默认目录或由人工自行设定的目录,可以为全部存储空间,也可以为部分存储空间。对待检查目录进行扫描可以定时自行扫描,也可以在接收到用户发出的要求扫描的请求后开始扫描。
[0028]所述待检查的目标文件是指该文件的文件类型属于目标文件类型中的一种的文件,目标文件可以为后缀为txt、doc、docx、xls、xlsx、ppt、pptx、wps、log等的文件。
[0029]扫描待检查目录,若发现所述待检查目录中存在文件类型为目标文件类型的文件,则该文件即为待检查的目标文件。具体为对待检查目录进行扫描,并将所扫描到的所有文件的文件类型与目标文件类型进行比对。若发现该文件的文件类型为所述目标文件类型中的一种,即该文件为后缀为txt、doc、docx、xls、xlsx、ppt、pptx、wps、log等的文件,则该文件为待检查的目标文件。
[0030]S120,从待检查的目标文件中获取待检查的文本信息;
[0031]根据所述待检查的目标文件的文件类型,调用与该文件类型相对应的提取函数,利用所述提取函数提取所述待检查的目标文件中的文本信息,形成待检查的文本信息。
[0032]此步骤的具体实施过程为:
[0033]首先,读取所述待检查的目标文件,判断所述待检查的目标文件的文件类型,并查找用于调用该文件类型的提取函数;
[0034]其次,利用所查找到的所述提取函数提取所述待检查的目标文件中的文本信息,形成待检查的文本信息,并将所述待检查的文本信息传递给下一个步骤的执行主体。
[0035]在该步骤中,可以所有待检查的目标文件的文本信息经提取后,形成一个待检查的文本信息,即所述待检查的文本信息内的每一条文本信息对应一个所述待检查的目标文件,并记录每一条文本信息所对应的所述目标文件的相关信息,如文件名、存储路径(即扫描前存储路径)、最后修改时间等。优选的,每个所述待检查目标文件的文本信息分别形成一个单独的待检查文本信息,并记录每一个待检查文本信息所对应的所述目标文件的相关信息,这样有利于方便用户明确每个待检查的文本信息与待检查的目标文件的对应关系。
[0036]S130,根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词,若存在敏感词,则将所述待检查的目标文件搬移到待验证目录,否则,将所述待检查的目标文件搬移到已验证目录中。
[0037]所述敏感词库包括所述待检查的目标文件中不应该包括的所有敏感词。该敏感词库可以由人工或系统对敏感词进行添加、删除、修改等操作。
[0038]根据敏感词库对所述待检查的文本信息进行分词处理,对分词处理结果进行逻辑判断,通过逻辑判断结果,确认所述文本信息中是否存在敏感词
[0039]此步骤的具体实施过程为:
[0040]首先,对所述待检查的文本信息进行分词处理。其中,所述分词处理的方法可以为正向最大匹配法、逆向最大匹配法、最少切分法和双向最大匹配法等。在分词处理的过程中,若发现所述待检查的文本信息中包含所述敏感词库中的敏感词时,统计所述待检查的文本信息中所包含的敏感词的数量,直至该待检查的文本信息全部被分词处理完毕,将统计所得的所述待检查文本信息中所含敏感词的数量作为分词处理结果输出。在对所述待检查的文本信息进行分词处理时,优选是,若发现敏感词,在该文本信息内对所述敏感词进行特殊标记,如高亮显示,添加下画线、添加方框等。这样可以方便用户查看该文本信息时能够迅速找到该文本信息所包含的敏感词的位置。
[0041]其次,调用用于对分词处理结果进行逻辑判断的函数,对分词处理结果进行逻辑判断,通过逻辑判断结果,确认所述文本信息中是否存在敏感词。对所述分词处理结果进行逻辑判断,判断所述待检查文本信息的分词处理结果中所包含的敏感词的数量是否大于零。若大于零,即所述待检查的文本信息中包括敏感词库中敏感词的个数为至少一个,读取所述文本信息对应的待检查文件的扫描前的存储路径,将所述待检查的目标文件从其扫描前的存储位置搬移到待验证目录。若经过逻辑判断所述分词处理结果为所述待检查文本信息中所包含敏感词的数量为零,即所述文本信息中不包括敏感词库中的任何敏感词,读取所述待检查文本信息对应的待检查文件的扫描前的存储路径,将所述待检查的目标文件从其扫描前存储位置搬
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1