一种敏感词检查方法和装置的制造方法_2

文档序号:9396928阅读:来源:国知局
移到已验证目录。
[0042]本实施例的技术方案,通过自行扫描获得待检查的目标文件,并对其进行敏感词检查,可以解决因为由人工检查而出现的检查效率低,检查不够全面,检查效果不理想的问题,提高了敏感词检查效率,并可以获得理想的检查效果。
[0043]实施例二
[0044]图2为本发明实施例二提供的又一种敏感词检查方法的流程图。本实施例在前述实施例基础上,增加了人工验证步骤。
[0045]本实施例所提供的方法具体包括如下:
[0046]S210、扫描待检查目录,获取待检查的目标文件;
[0047]S220、从待检查的目标文件中获取待检查的文本信息;
[0048]S230、根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词,若存在敏感词,则将所述待检查的目标文件搬移到待验证目录,否则,将所述待检查的目标文件搬移到已验证目录中。
[0049]S240、若所述文本信息存在敏感词,则将其所对应的所述目标文件的文件名、提取出来的待检查的文本信息、分词处理结果、分词处理时间添加到验证数据库中;
[0050]以及将所述待检查的目标文件搬移到待验证目录之后还包括:对所述待验证目录中的目标文件进行人工验证,确认所述待验证目录中的目标文件是否确实含有敏感词,若确实存在敏感词,将其搬移到检查不通过目录,否则,将其搬移到已验证目录。
[0051]所述验证数据库主要用于存储含有敏感词的目标文件的文件名、提取出来的待检查的文本信息、分词处理结果和分词处理时间等,其所使用的数据库可以为mysql数据库、oracle数据库或sqlserver数据库等。在接收到人工验证请求时,调用待验证数据库中包含有敏感词的目标文件的相关信息,呈现给用户,可以方便用户进行人工验证。
[0052]上述方案中的所述已验证目录,待验证目录和验证不通过目录可以自行设定建立的时刻,可以在扫描待检查目录之前建立,也可以在接受到系统在需要进行搬移动作信号时建立,也可以在得到用户建立相应文件夹的命令时建立。在完成一次敏感词检查后,可以立即删除所述已验证目录,待验证目录和验证不通过目录,也可以保留,用于下次敏感词检查时继续使用。
[0053]上述方法执行完成以后,优选是,读取已验证目录中的文件的扫描前存储路径,并按照已验证目录中每个文件各自的扫描前存储路径将它们搬移到扫描前存储位置,这样有利于用户在查找时,可以快速找到所需要查找的文件夹。
[0054]另外,在完成一次敏感词检查后,在开始下一次敏感词检查前,扫描待检查目录时,优选是,在获得待检查文件后,对待检查文件的相关信息,如文件名,文件最后修改的时间,文件存储路径等与上次敏感词检查时形成的待检查文件的相关信息进行比对,通过逻辑判断确定本次所获得的对比文件是否已在之前的敏感词检查过程中已检查。若已检查,则直接跳过,否则从该待检查的目标文件中获取待检查的文本信息,这样可以有效避免对同一文件重复检查,有助于提高敏感词检查的检查效率。
[0055]本实施例的技术方法,通过在系统敏感词检查之后,添加人工验证的步骤,可以避免由于系统的非智能性而出现的误判。
[0056]实施例三
[0057]图3是本发明实施例三提供的一种敏感词检查装置,该装置包括:目录扫描模块310、文本信息提取模块320、敏感词检查模块330。
[0058]其中,目录扫描模块310,用于扫描待检查目录,获取待检查的目标文件;文本信息提取模块320,用于从待检查的目标文件中获取待检查的文本信息;敏感词检查模块330,用于根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词;以及用于若所述文本信息存在敏感词,则将所述待检查的目标文件搬移到待验证目录,否则,将所述待检查的目标文件搬移到已验证目录中。
[0059]进一步的,目标扫描模块310具体用于:若发现所述待检查目录中存在文件类型为目标文件类型的文件,则该文件即为待检查的目标文件。
[0060]进一步的,所述文本信息提取模块320具体用于:根据所述待检查的目标文件的文件类型,调用与该文件类型相对应的提取函数,利用所述提取函数提取所述待检查的目标文件中的文本信息,形成待检查的文本信息。
[0061]进一步的,敏感词检查模块330具体用于:根据敏感词库对所述待检查的文本信息进行分词处理,对分词处理结果进行逻辑判断,通过逻辑判断结果,确认所述文本信息中是否存在敏感词。
[0062]在上述方案的基础上,该装置可选是还包括:文件信息添加模块,用于若所述文本信息存在敏感词,则将其所对应的所述目标文件的文件名、提取出来的待检查的文本信息、分词处理结果、分词处理时间添加到验证数据库中;人工验证模块,用于由人工对所述待验证目录中的目标文件进行验证,确认是否确实含有敏感词,以及若确实存在敏感词,将其搬移到检查不通过目录,否则,将其搬移到已验证目录。
[0063]本实施例中所提供的敏感词检查装置,可以替代人工对敏感词的检查,可以有效提高敏感词检查的检查效率,并且能够有效的实现全面检查,获得理想的检查效果。
[0064]本发明实施例所提供的敏感词检查装置可用于执行本发明实施例所提供的敏感词检查方法,具备相应的功能和有益效果。
[0065]以上对本发明的具体描述旨在说明【具体实施方式】的实现方式,不能理解为是对本发明的限制。本领域普通技术人员在本发明的教导下,可以在详述的实施方案的基础上做出各种变体,这些变体均应包含在本发明的构思之内。本发明所要求保护的范围仅由所述的权利要求书进行限制。
【主权项】
1.一种敏感词检查方法,其特征在于,包括: 扫描待检查目录,获取待检查的目标文件; 从待检查的目标文件中获取待检查的文本信息; 根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词,若存在敏感词,则将所述待检查的目标文件搬移到待验证目录,否则,将所述待检查的目标文件搬移到已验证目录中。2.根据权利要求1所述的敏感词检查方法,其特征在于,所述扫描待检查目录,获取待检查的目标文件包括: 扫描待检查目录,若发现所述待检查目录中存在文件类型为目标文件类型的文件,则该文件即为待检查的目标文件。3.根据权利要求1所述的敏感词检查方法,其特征在于,所述从待检查的目标文件中获取待检查的文本信息包括: 根据所述待检查的目标文件的文件类型,调用与该文件类型相对应的提取函数,利用所述提取函数提取所述待检查的目标文件中的文本信息,形成待检查的文本信息。4.根据权利要求1所述的敏感词检查方法,其特征在于,所述根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词包括: 根据敏感词库对所述待检查的文本信息进行分词处理,对分词处理结果进行逻辑判断,通过逻辑判断结果,确认所述文本信息中是否存在敏感词。5.根据权利要求1所述的敏感词检查方法,其特征在于,所述方法还包括: 若所述文本信息存在敏感词,则将其所对应的所述目标文件的文件名、提取出来的待检查的文本信息、分词处理结果、分词处理时间添加到验证数据库中; 以及将所述待检查的目标文件搬移到待验证目录之后还包括:对所述待验证目录中的目标文件进行人工验证,确认所述待验证目录中的目标文件是否确实含有敏感词,若确实存在敏感词,将其搬移到检查不通过目录,否则,将其搬移到已验证目录。6.一种敏感词检查装置,其特征在于,包括: 目录扫描模块,用于扫描待检查目录,获取待检查的目标文件; 文本信息提取模块,用于从待检查的目标文件中获取待检查的文本信息; 敏感词检查模块,用于根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词; 以及用于若所述文本信息存在敏感词,则将所述待检查的目标文件搬移到待验证目录,否则,将所述待检查的目标文件搬移到已验证目录中。7.根据权利要求6所述的敏感词检查装置,其特征在于,所述目标扫描模块具体用于: 若发现所述待检查目录中存在文件类型为目标文件类型的文件,则该文件即为待检查的目标文件。8.根据权利要求6所述的敏感词检查装置,其特征在于,所述文本信息提取模块具体用于: 根据所述待检查的目标文件的文件类型,调用与该文件类型相对应的提取函数,利用所述提取函数提取所述待检查的目标文件中的文本信息,形成待检查的文本信息。9.根据权利要求6所述的敏感词检查装置,其特征在于,所述敏感词检查模块具体用于: 根据敏感词库对所述待检查的文本信息进行分词处理,对分词处理结果进行逻辑判断,通过逻辑判断结果,确认所述文本信息中是否存在敏感词。10.根据权利要求6所述的敏感词检查装置,其特征在于,所述装置还包括: 文件信息添加模块,用于若所述文本信息存在敏感词,则将其所对应的所述目标文件的文件名、提取出来的待检查的文本信息、分词处理结果、分词处理时间添加到验证数据库中; 人工验证模块,用于由人工对所述待验证目录中的目标文件进行验证,确认是否确实含有敏感词,以及若确实存在敏感词,将其搬移到检查不通过目录,否则,将其搬移到已验证目录。
【专利摘要】本发明实施例公开了一种敏感词检查方法和装置,包括:扫描待检查目录,获取待检查的目标文件;从待检查的目标文件中获取待检查的文本信息;根据敏感词库对所述待检查的文本信息进行分词处理,确认所述文本信息中是否存在敏感词,若存在敏感词,则将所述待检查的目标文件搬移到待验证目录,否则,将所述待检查的目标文件搬移到已验证目录中。本实施例通过采用上述方法可以有效提高敏感词检查的检查效率,获得理想的检查效果。
【IPC分类】G06F17/30
【公开号】CN105117462
【申请号】CN201510523090
【发明人】贾高峰, 曹良景, 火一莽, 万月亮, 曹晓飞, 刘虹
【申请人】北京锐安科技有限公司
【公开日】2015年12月2日
【申请日】2015年8月24日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1