一种敏感词过滤方法及系统的制作方法

文档序号:9810617阅读:1519来源:国知局
一种敏感词过滤方法及系统的制作方法
【技术领域】
[0001]本发明涉及字符串多模式匹配领域,尤其涉及一种敏感词过滤方法及系统。
【背景技术】
[0002]随着互联网的发展,网站内容日益丰富,互联网的开放性向用户提供了UGC(UserGenerated Content,用户生产内容)网站或者社交应用软件等,用户共享信息的同时伴随着许多不符合互联网使用环境甚至违反国家法律法规的内容,如政治敏感、色情词汇等等,给互联网管理工作带来了巨大的压力。
[0003]文本内容的发布渠道越来越多样,发布者也越来越大众化,有时甚至是匿名的,面对纷繁大量的文本,互联网管理者希望能从中过滤出非法的和对自己不利的信息,此外,内容的搜集者在从网络上搜集文本时,也希望能通过有效的技术手段获取自己感兴趣的信息,而排除掉大量的无关信息,从而营造一个良好的互联网使用环境。
[0004]现有技术中的敏感词过滤方法中敏感词匹配模式单一,容易造成敏感词的误匹配或者漏匹配,并且匹配策略性能较低,给敏感词的过滤速度带来了很大的压力。

【发明内容】

[0005]为克服现有技术的不足,本发明的目的是:提供一种敏感词过滤方法及系统,一方面有效减少敏感词的误判,另一方面利用不同形式的过滤策略及近似匹配,有效减少敏感词的漏判,从而保证敏感词过滤的准确率和召回率。
[0006]为了解决【背景技术】中的技术问题,本发明提供了一种敏感词过滤方法,包括以下步骤:
[0007]S1、对敏感词、排除词以及文本的字符进行规格化处理,对敏感词规格化处理形成敏感词管理规则,对排除词规格化处理形成排除词管理规则;
[0008]S2、根据所述敏感词管理规则和排除词管理规则建立敏感词过滤模型,利用所述敏感词过滤模型对规格化处理后的文本的字符或分词进行扫描;
[0009]S3、根据敏感词过滤策略,将所述敏感词过滤模型与被扫描的字符或者分词进行匹配,判断所述字符或者分词是否为敏感词或者排除词;
[0010]S4、若判断结果为敏感词,且根据敏感词的上下文判定所述敏感词成立,则记录所述敏感词的属性,否则,执行S3,直至完成对所述文本的扫描。
[0011]优选地,所述步骤S3中的敏感词过滤策略包括缺省敏感词过滤策略、英文敏感词过滤策略、网址敏感词过滤策略、中文敏感词过滤策略、中文分词敏感词过滤策略和中文敏感词近似匹配过滤策略。
[0012]进一步地,所述缺省敏感词过滤策略为以字符作为文本的基本组成单元,过滤非英文、非网址、非中文形式的敏感词;所述英文敏感词过滤策略为过滤英文敏感词,以及中文敏感词的全屏和拼音缩写;所述网址敏感词过滤策略为过滤网址敏感词;所述中文敏感词过滤策略为过滤以字符为基本组成单元的中文敏感词;所述中文分词敏感词过滤策略为过滤以分词为基本组成单元的中文敏感词;所述中文敏感词近似匹配过滤策略为采用跳跃式扫描文本,利用中文敏感词及其残缺词对高敏感级别的中文敏感词进行匹配。
[0013]本发明还提供了一种敏感词过滤系统,包括以下模块:
[0014]规格化处理模块,用于对敏感词、排除词以及文本的字符进行规格化处理;
[0015]敏感词管理模块,用于通过所述规格化处理模块对敏感词进行规格化处理,进而维护管理敏感词库中的敏感词;
[0016]排除词管理模块,用于通过所述规格化处理模块对排除词进行规格化处理,进而维护管理敏感词对应的排除词;
[0017]敏感词过滤模块,用于根据敏感词管理模块和排除词管理模块建立的过滤模型,实现对文本中敏感词的匹配与判定,并汇总过滤结果。
[0018]优选地,所述敏感词过滤模块包括缺省敏感词过滤子模块、英文敏感词过滤子模块、网址敏感词过滤子模块、中文敏感词过滤子模块、中文分词敏感词过滤子模块及中文敏感词近似匹配过滤子模块。
[0019]具体地,所述规格化处理模块进一步用于:将多个连续空白字符替换为单个空格字符、将繁体中文字符转换为简体中文字符、将大写字母转为小写字母、仅保留多个连续标点符号的第一个、对英文单词进行词形还原。
[OO2O ]具体地,所述过滤模型为由敏感词及其排除词构造形成的Aho -Cor a s i c k自动机,所述敏感词过滤模块包括的各子模块利用Aho-Corasick自动机匹配算法,并行执行对文本的敏感词过滤。
[0021 ]进一步地,所述缺省敏感词过滤子模块用于过滤非英文、非网址、非中文形式的敏感词,以字符作为文本的基本组成单元;所述英文敏感词过滤子模块用于过滤英文敏感词,以及中文敏感词的全屏和拼音缩写;所述网址敏感词过滤子模块用于过滤网址敏感词;所述中文敏感词过滤子模块用于过滤以字符为基本组成单元的中文敏感词;所述中文分词敏感词过滤子模块用于过滤以分词为基本组成单元的中文敏感词;所述中文敏感词近似匹配过滤子模块用于采用跳跃式扫描文本,利用中文敏感词及其残缺词对高敏感级别的中文敏感词进行匹配。
[0022]具体地,所述敏感词过滤模块在匹配过程中,即匹配敏感词,又匹配排除词;在判定过程中,如果敏感词作为排除词的子串出现,则不添加到过滤结果中,否则,将所述敏感词及其出现位置和敏感级别添加到所述过滤结果中。
[0023]本发明的敏感词过滤系统还包括词库数据库模块,用于存储敏感词和排除词,对所述敏感词和排除词的管理包括对所述词库数据库模块的增加、修改、删除和查询操作。
[0024]采用上述技术方案,本发明具有如下有益效果:①针对不同存在形式的敏感词,采用专门的过滤策略,保证了过滤中文敏感词、英文敏感词、网址敏感词的高准确率和高召回率;②通过特殊的字符规格化等预处理技术,消除了特殊字符、不同的字符格式等造成的干扰;③通过排除词和其它匹配成功后的判定规则,减少了敏感词在特定上下文的误判;④支持分词,减少了因组词错误而引起的误判;⑤针对敏感级别高的中文敏感词,能够做到一定程度的近似匹配,提高了召回率;⑥采用成熟高效的Aho-Corasick自动机算法和多线程分布式技术,解决了过滤大量敏感词的性能问题。综上所述,本发明的敏感词过滤方法及系统一方面能够有效减少敏感词的误判,另一方面利用不同形式的过滤策略及近似匹配,有效减少敏感词的漏判,保证了敏感词过滤的准确率和召回率。
【附图说明】
[0025]为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0026]图1是本发明实施例提供的敏感词过滤系统的模块示意图;
[0027]图2是本发明实施例提供的规格化处理模块的工作流程图;
[0028]图3是本发明实施例提供的敏感词与排除词的实体关系图;
[0029]图4是本发明实施例提供的敏感词过滤方法的流程图;
[0030]图5是本发明实施例提供的用于中文敏感词近似匹配的Aho-Corasick自动机示例图;
[0031]图6是本发明实施例提供的中文敏感词近似匹配的扫描路径示例图;
[0032]图7是本发明实施例提供的中文敏感词近似匹配过程的状态转移示例图。
【具体实施方式】
[0033]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034]实施例1:图4是本发明实施例提供的敏感词过滤方法的流程图,从图中可以清楚地看出,本实施例提供的敏感词过滤方法包括以下步骤:
[0035]S1、对敏感词、排除词以及文本的字符进行规格化处理,对敏感词规格化处理形成敏感词管理规则,对排除词规格化处理形成排除词管理规则;
[0036]S2、根据所述敏感词管理规则和排除词管理规则建立敏感词过滤模型,利用所述敏感词过滤模型对规格化处理后的文本的字符或分词进行扫描;
[0037]S3、根据敏感词过滤策略,将所述敏感词过滤模型与被扫描的字符或者分词进行匹配,判断所述字符或者分词是否为敏感词或者排除词;
[0038]S4、若判断结果为敏感词,且根据敏感词的上下文判定所述敏感词成立,则记录所述敏感词的属性,否则,执行S3,直至完成对所述文本的扫描,其中,所述敏感词主要包括两个属性:存在形式、敏感级别,敏感词按存在形式可分为中文敏感词、英文敏感词、网址敏感词和缺省形式敏感词,中文敏感词的
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1