一种基于聚合词树的敏感词匹配处理系统及方法

文档序号:6368603阅读:218来源:国知局
专利名称:一种基于聚合词树的敏感词匹配处理系统及方法
技术领域
本发明涉及信息系统数据处理领域,特别涉及一种基于聚合词树的敏感词匹配处理系统及方法。
背景技术
在互联网应用日益发达的今天,互联网信息越来越丰富,与此同时,带有敏感政治倾向、暴力倾向、不健康内容等不良信息也随之泛滥,为了净化网络环境,因此在需要对外发布信息的互联网场合中,其内容是要经过审查,审查通过后才能在互联网上公开。信息内容审查初期,都是通过人工进行审核,这种审核方式虽然准确,但随着信息的快速增长,这种方式凸显审查效率低、人员负荷重的缺点,在这种情况下,自动化的系统处理方式的需求 越来越强烈。随着各种自动化处理系统的产生,其处理方式都是针对敏感词库,基于敏感词库对目标信息进行敏感词提取操作,而对于敏感词匹配来说,有两个关键点匹配效率和匹配准确率。匹配效率体现了在对大量敏感词以及大量目标信息处理时的响应时间;匹配准确率体现了对于一个敏感词要尽量区分语境,不能误将非敏感词判断为敏感词而进行处理。目前较为流行且成熟的处理方法有
I、简单文本搜索与替换。这种方式是以敏感词库为主体,对目标信息进行匹配,就是循环把每个敏感词在目标信息中从头到尾搜索一遍,如果在目标信息中有匹配成功的敏感词,那就找到一个就处理一个。优点算法简单,实现方法简单。缺点(1)匹配效率太低。因为需要遍历敏感词库中的每个敏感词,当敏感词数量很多、目标信息容量很大时,其匹配效率是该算法的致命问题。(2)匹配准确率太低。比如,有一个敏感词为as,那目标信息中包含hash、class等词语中的as都会被匹配、处理,导致错误的处理结果。2、DFA 算法
这个算法是以目标信息为主体,将所有敏感词构建为词图,以任意一个字开始,都可以查出以该字为开头的敏感词。对目标信息进行逐一搜索,并判断每个字是否在词图中存在,如果存在看是否有对应的词存在,如果存在,则匹配成功,记录下来,继续往下搜索直到搜索完整个目标信息。优点比“简单文本搜索与替换”方法效率高。缺点(I)算法复杂,实现成本高。(2)匹配准确率比较低。(3)内存占用高,使系统启动速度慢。现有技术中“一种敏感词匹配方法和系统”(申请号201110181501. 0 ;公布号CN102207979A),根据敏感词库中的所有敏感词汇生成多个确定有限自动机DFA图,对于给定的待判定信息,从首字开始,逐字从DFA图的入口开始匹配,直到到达该DFA的出口,则匹配成功。这种技术方案不需要反复遍历,提高了性能。由于生成DFA图消耗大量资源,因此针对敏感词库中的敏感词是动态变化、持续增长的情况,此专利提出的技术方案还是会由于反复重构DFA图,造成大量资源的反复被消耗,还是会造成内存占用高,使系统启动速度慢。敏感词匹配处理应用的范围很广,包括电子商务平台,企业内部管理系统,企业展示网站等,在这些系统中,敏感词匹配处理都起着重要的作用。因此,如何实现提高敏感词的匹配效率和匹配准确率是一个亟待解决的问题。

发明内容
本发明提供了一种基于聚合词树的敏感词匹配处理的系统及方法,用以解决现有技术方法中在敏感词匹配方面效率低和准确率低的问题。本发明技术方案如下一种基于聚合词树的敏感词匹配处理系统,包括敏感词库单元、聚合词树算法处理器、语义分析单元、行业领域分析单元,匹配结果输出单元。敏感词库单元,用于保存长期积累的各类行业敏感词,以及具有敏感政治倾向、暴力倾向、不健康内容的词语。敏感词库单元由专门的管理系统进行维护。聚合词树算法处理器,用于对敏感词库进行预处理,形成多棵词树的结构,然后通过词树对目标信息进行敏感词匹配。其中包括聚合词树生成单元、目标信息匹配单元。聚合词树生成单元,用于将敏感词库中的每个敏感词按照聚合词方式建立词链,词链上的每个结点就是该词的每个字对应的特征码,每个词链的结尾都有一个结尾标志。然后将多条词链聚合成一棵词树,这样,整个敏感词库中的所有敏感词通过聚合词树的方法会聚合成多棵词树。再根据这些词树的根结点特征码算出它们的地址,存入内存地址表中备用。目标信息匹配单元,用于读入目标信息,进行敏感词查找。扫描目标信息中的每个字,按顺序判断这些字的特征码地址是否在内存地址表中,如果不在,则直接扫描下一个字;如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上。再判断下一个字是否在这棵词树中所有词链的第二个结点上,如果不在,则重新判断这个字的特征码的地址是否在内存地址表中,如果在,则在这棵词树上提取相对应的词链。在提取的这条词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经在目标信息中成功匹配一个关键词。如果没有结束标志,则按顺序判断目标信息中下一个字是否在这条词链的第三个结点上,如果在,判断这个字后是否有结束标志,如果不在,则表示匹配不成功,重新判断词链上第二个结点的特征码的地址在不在内存地址表中。依此类推,直到目标信息中的字一直能构成这棵词树上的一条完整的词链。语义分析单元,用于对初步匹配成功的关键词,结合关键词在目标信息中上下文的内容进行语义分析,根据业务规则,判断这个关键词在文中是否是敏感词,例如,尽管“黄色”是敏感词库中的敏感词,但结合目标信息上下文进行语义分析,发现在目标信息中是“黄色的玫瑰”、“淡黄色”,那么这种情况下,“黄色”就不属于敏感词。 行业领域分析单元,用于根据目标信息的属性确定其行业领域,通过事先设置的行业规则,判断初步匹配成功的关键词,在对应的行业领域内是否属于敏感词,例如关键词“黄色”在文化娱乐领域属于敏感词,而在服装领域却不属于敏感词。通过业务规则进行过滤后,排除对于所在领域不属于敏感词的关键词,提高敏感词匹配准确率。匹配结果输出单元,用于在匹配工作结束后,根据用户事先自定义的标识处理规贝U,对匹配成功的敏感词确定标识处理方式,并获取敏感词的相关属性,包括敏感词全称、敏感词位置、敏感词长度等,把这些属性以及标识方式作为输出结果传递给信息系统的信息审核子系统,信息审核子系统根据这些输出结果来确定对目标信息中敏感词的处理方式。对于标识处理规则,用户可以进行自定义,包括对目标信息中的敏感词以特定颜色标出,对敏感词用特定字体标出,或对敏感词以高亮的形式标出等多种方式。本单元输出包括
(I)布尔数据,表示目标信息中是否含有敏感词。(2)字符串数据,表示目标信息中所含有的所有敏感词。( 3 )整数型数组,表示敏感词的首字在目标信息中的位置,以及敏感词的长度。 一种基于聚合词树的敏感词匹配处理的方法,包括
将敏感词库中的每个敏感词建立成一条条的词链,词链上的每个点就是该词中每个字对应的特征码,例如hash码或机器码,每个词链的结尾都有一个结束标志。将多条首字相同的词链聚合成一棵“词树”,这样,整个敏感词库中的所有敏感词会聚合成几十棵,甚至几百棵词树。根据这些词树根结点的特征码算出它们的地址,存入一个内存地址表中。敏感词库中增加新的敏感词后,这些新的敏感词形成新的词链,添加到所对应的词树中,如果不存在对应的词树,那么具有相同首字的多条新词链就形成新的词树。读入目标信息进行扫描,按顺序扫描其中的每个字时,判断这个字的特征码地址是否在内存地址表中,如果不在,则直接扫描下一个字;如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上。再判断目标信息中下一个字是否在这棵词树中所有词链的第二个结点上,如果不在,则重新判断这个字的特征码地址是否在内存地址表中;如果在,则从这棵词树上提取相对应的词链。在这条被提取的词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经在目标信息中成功匹配一个关键词,进行后续处理。如果没有结束标志,则在目标信息中按顺序取下一个字,判断是否在这条词链的第三个结点上,如果在,判断这个字后是否有结束标志,如果不在,则表示匹配不成功,重新判断词链上第二个结点的特征码的地址在不在内存地址表中。依此类推,直到后面的字一直能构成这棵词树上的一条完整的词链,表示找到初步匹配成功的关键词。初步匹配成功后的关键词需要根据语境以及行业规则进行进一步识别
对于初步匹配成功的关键词,结合关键词在目标信息中的上下文内容进行语义分析,
根据业务规则,判断这个关键词在文中是否是敏感词,例如,尽管“黄色”是敏感词库中的敏感词,但在目标信息中,结合“黄色”的上下文进行语义分析,发现在目标信息中是“黄色的玫瑰”或“淡黄色”,那么这种情况下,“黄色”在目标信息中不属于敏感词。对于扫描的目标信息,根据其属性确定其行业领域,通过事先设置的行业规则,判断初步匹配成功的敏感词,在所在的行业领域内是否属于敏感词,例如关键词“黄色”在文化娱乐领域属于敏感词,而在服装领域却不属于敏感词。通过业务规则进行过滤后,排除掉那些对于所在领域来说不属于敏感词范畴的关键词。当完成目标信息的敏感词匹配工作后,匹配结果输出单元开始工作,针对目标信息中包含敏感词,确定专门的标识处理方式,并获取敏感词的相关属性,包括敏感词全称、敏感词位置、敏感词长度等,把这些属性以及标识方式作为输出结果传递给信息系统的信息审核子系统。其中,标识处理规则可以进行用户自定义,包括对目标信息中的敏感词以特定颜色标出,对敏感词用特定字体标出,或对敏感词以高亮的形式标出等多种方式。匹配结果输出单元输出数据包括
(I)布尔数据,表示目标信息中是否含有敏感词。用于在信息审核系统的列表中,区分显示含有敏感词的目标信息和不含敏感词的目标信息。(2)字符串数据,表示目标信息中所含有的所有敏感词。用于在信息审核系统中,显示每条目录信息中包含的敏感词。(3)整数型数组,表示敏感词的首字在目标信息中的位置,以及敏感词的长度。用于在信息审核系统的目标信息详细页中,以选择好的标识处理方式对目标信息中的敏感词进行标识,以方便快速辨认。本发明的有益效果如下
(I)本发明对敏感词库中的敏感词进行聚合,形成词链和词树,使敏感词库的数据结构更加有序,节省了内存空间,提高了敏感词的匹配速度,从而提高了匹配效率。(2)本发明结合了行业规则的运用,排除了那些在相应行业领域来说不属于敏感词范畴的关键词,并根据关键词的上下文进行语义分析,减少了敏感词匹配的错误,提高了系统的匹配准确率。 ( 3)本发明可以适应大数量规模的敏感词,并且可以适应不同长度敏感词。(4)敏感词随着时间的变化会发生变化,随着互联网应用的深入,敏感词的数量不断增加,本发明能够对不断变化着的敏感词库进行快速、实时的聚合词处理,适应性强。


图I为本发明实施例中的系统结构图。图2为本发明实施例中的聚合词树算法处理器结构示意图。图3为本发明实施例中的词树示意图。图4为本发明实施例中的敏感词库预处理流程图。图5为本发明实施例中的关键词匹配流程图。图6为本发明实施例中关键词过滤处理流程图。
具体实施例方式本发明提供了一种基于聚合词树的敏感词匹配处理的系统及方法,利用聚合词树的算法,提高的敏感词的匹配效率,并结合语义分析和行业规则进行过滤的方式,提升了敏感词匹配准确率。参阅图I所示,本发明实施例中的系统包括信息系统10、敏感词匹配处理系统11。
所述信息系统10,信息系统的范围比较广,例如电子商务平台,企业展示网站,以及企业内部管理系统等都属于信息系统范畴。它包括信息审核子系统100、信息发布子系统101。所述信息审核子系统100,用于信息系统的用户输入各类信息,例如在电子商务平台中,输入公司信息、产品信息、商情信息等信息。除此之外,还用于信息系统的管理人员查看目标信息中包含的敏感词情况,其中的敏感词以醒目的方式标识以利于快速辨认。所述信息发布子系统101,用于在信息系统中,对外公布审核合格的各类目标信
肩、O所述敏感词匹配处理系统11,包括敏感词库单元110、聚合词树算法处理器111、语义分析单元112、行业领域分析单元113、匹配结果输出单元114。 所述敏感词库单元110,用于保存信息系统运行中长期积累的各类敏感词,包括行业敏感词,以及具有敏感政治倾向、暴力倾向、不健康内容的词语等。敏感词库单元由专门的管理系统进行长期维护。所述聚合词树算法处理器111,用于对敏感词库进行预处理,以及对目标信息内容进行敏感词匹配的处理工作。所述语义分析单元112,用于针对初步匹配成功后的关键词,结合关键词在目标信息上下文的内容进行语义分析,根据业务规则,判断这个关键词在文中是否是敏感词,例如,尽管“黄色”是结果敏感词库匹配成功的关键词,但结合上下文进行语义分析,发现在文中是“黄色的玫瑰”、“淡黄色”,那么这种情况下,“黄色”不属于敏感词。行业领域分析单元113,用于根据目标信息的属性确定其所在的行业领域,根据事先设置的行业规则,对于通过语义分析单元判断的关键词,判断这些关键词在目标信息对应行业领域内是否属于敏感词,例如关键词“黄色”在文化娱乐领域属于敏感词,而在服装领域却不属于敏感词。通过业务规则进行过滤后,排除对于所在领域不属于敏感词的关键
o匹配结果输出单元114,用于在匹配工作结束后,根据用户事先自定义的处理规贝U,对匹配成功的敏感词,确定其标识处理方式,并获取敏感词的相关属性,包括敏感词全称、敏感词位置、敏感词长度等,把这些属性和标识处理方式作为输出结果传递给信息系统的信息审核子系统100,由信息审核子系统根据这些输出结果来确定对目标信息中敏感词的处理及表现方式。对于标识处理规则,用户可以进行自定义,包括对目标信息中的敏感词以特定颜色标出,对敏感词用特定字体标出,或对敏感词以高亮的形式标出等多种方式。本单元输出包括
(I)布尔数据,表示目标信息中是否含有敏感词。用于在信息审核系统的列表中,区分显示含有敏感词的目标信息和不含敏感词的目标信息。(2)字符串数据,表示目标信息中所含有的所有敏感词。用于在信息审核系统中,显示每条目录信息中包含的敏感词。(3)整数型数组,表示敏感词的首字在目标信息中的位置,以及敏感词的长度。用于在信息审核系统的目标信息详细页中,以选择好的标识处理方式对目标信息中的敏感词进行标识,以方便快速辨认。参阅图2所示,本发明实施例中的的聚合词树算法处理器结构包括聚合词树生成单元20、目标信息匹配单元21。聚合词树生成单元20,用于将敏感词库中的每个敏感词按照聚合方式建立词链,词链上的每个结点就是该词中每个字对应的特征码,每个词链的结尾都有一个结尾标志。然后将多条词链聚合成一棵词树,这样,整个词库中的所有词会聚合成几十棵,甚至几百棵词树。再根据这些棵词树的根结点特征码算出它们的地址,存入一个内存地址表中备用。目标信息匹配单元21,用于读入目标信息,按顺序扫描其中每个字,判断这个字的特征码的地址是否在内存地址表中,如果不在,则直接扫描下一个字;如果在,则提取这个字对应的词树,这个字在这棵词树的根结点上。再判断目标信息的下一个字是否在这棵词树中所有词链的第二个结点上,如果不在,则重新判断这个字的特征码的地址是否在内存地址表中;如果在,则在这棵词树上提取相对应的词链。在提取的这条词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经在目标信息中成功匹配一个关键词,然后进行后续处理。如果没有结束标志,则继续判断目标信息中按顺序后一个字是否在这条词链的第三个结点上,如果在,判断这个字后是否有结束标志,如果不在,则表示匹配不成功,重新判断该词链上第二个结点的特征码的地址是否在内存地址表中。依此类推,直到目标 信息中存在连续的字一直能对应构成这棵词树上的一条完整的词链。参阅图3所示,本发明实施例中的词树包括根结点30,中间结点31、结束标志32,词链33,子词链34。所述根结点30,是多个敏感词中首字相同的字对应的结点。所述中间结点31,是指敏感词中除首字外,其他字对应的结点。所述结束标志32,指对应词链的末尾标志。所述词链33,是由一个完整敏感词按照顺序形成,由一个根结点30,一个或多个中间结点31、以及一个结束标志32组成。所述子词链34,对于词树中的词链来说,当前面几个结点相同,而后面的结点不相同时,一条词链上出现了分支,其中的分支就构成了子词链,它由一个或多个中间结点31、以及一个结束标志32组成。参阅图4所示,本发明实施例中的敏感词库预处理流程如下
步骤401,根据敏感词库中的敏感词,建立多条词链。步骤402,将首字相同的词链进行聚合,形成词树。步骤403,处理整个敏感词库,形成多棵词树。步骤404,根据每棵词树的根结点特征码,算出它们的地址。步骤405,把这些地址存入内存地址表中,以备随时调用。例如,其处理代码如下
/林
*初始使用时,构造、聚合生成词库树。并返回所有敏感词中最短的词的长度(文本过短时直接判断是否可能存在敏感词,而不需要查找,以提高效率)。>!< param sensitiveWords 词库
* param wordsTree聚合词库的树
* return返回所有敏感词中最短的词的长度。/public int generalTree (Set<Keyword> sensitiveWords, Map〈String,Map>wordsTree) {
int Ien = 0;
if (wordsTree == null) {return Ien;
}
//如果敏感词表为空,则清空词树
if (sensitiveWords == null || sensitiveWords. isEmptyO) { wordsTree. clear ();return Ien;
}
wordsTreeTmp. clear ();
for (Keyword w : sensitiveWords) {
if (len == 0) {
Ien = w. getWordLength ();
}
else if (w. getWordLength() < len) {len = w. getWordLength ();
}
Map〈String,Map> cateTree = wordsTreeTmp. get (w. getModule () toString ());
if (cateTree == null) {
cateTree = new HashMap〈String, Map>();
}
AnalysisUtils. makeTreeByWord(cateTree, w. getWord(), w) ;// 这里将词分解成一个个的词元组成一个链存入树中
wordsTreeTmp. put (w. getModule (). toString (),cateTree);
}
wordsTree. clear ();wordsTree. putAll(wordsTreeTmp);return len;
}
参阅图5所示,本发明实施例中的敏感词匹配流程如下
步骤500,读入要进行审核的目标信息。步骤501,对目标信息中的每个字,按顺序进行扫描。步骤502,判断这个字的特征码地址是否在内存地址表中。如果在,那么进行步骤503,如果不在,返回到步骤501,进行扫描信息内容中的下一个字。步骤503,提取这个字所对应的词树。步骤504,按顺序扫描目标信息中的下一个字。步骤505,判断这个字是否在这棵词树中所有词链的次一级结点上,如果在,进行步骤506,否则,执行步骤502。步骤506,在这棵词树上提取相对应的词链。步骤507,判断这个字后面是否有结束标志,如果有,执行步骤514,如果没有,执行步骤508.
步骤508,扫描目标信息内容中的下一个字。步骤509,判断此结点往下是否有分支,如果没有,执行步骤510,如果有,执行步骤 512。步骤510,判断这个字是否在这条词链的次一级结点上,如果在,执行步骤507,如果不在,执行步骤511。步骤511,重新提取这条词链的第二结点对应的字,然后执行步骤502.
步骤512,判断这个字是否在这条词链中所有子词链的次一级结点上,如果是,执行步骤513,如果不是,执行步骤511。步骤513,提取对应的字词链,然后执行步骤507。步骤514,成功匹配一条敏感词。参阅图6所示,本发明实施例中的关键词过滤处理流程如下
步骤601,语义分析单元读取初步匹配成功的关键词。步骤602,结合关键词在目标信息中的上下文进行语义分析。步骤603,判断是否付合敏感词条件,如果是,执彳了步骤604,如果不是,执彳了步骤608。步骤604,进入行业领域分析单元。步骤605,根据目标信息的属性确定行业领域。步骤606,根据行业特点判断是否是敏感词,如果是,执行步骤607,如果不是,执行步骤608。步骤607,确认此关键词是一个敏感词。步骤608,对目标信息中确认后的敏感词进行标识处理,并获取这些敏感词的属性,包括敏感词全称、敏感词在目标信息中的位置,以及敏感词长度等,以便传递给信息审核子系统。步骤609,结束。例如,其处理代码如下
/林
*根据级别、行业、结合业务的规则等各种匹配方式返回相应的实际敏感词。* Oparam baseffords查找到的词库中定义的词!
*Oparam pre文本中词的前面的内容
*Oparam sufix文本中词的后面的内容
*Oparam rule自定义或扩展的验证规则 氺 Oreturn
*/
private static Matchedfford checkAndReturn(List<Matchedfford> baseffords,String pre, String sufix, MatchRule rule) {Il匹配符合条件,则返回对应的词
return rule, matchfford(baseffords, pre, sufix);
}
本发明提供了一种基于聚合词树的敏感词匹配处理系统及方法,通过聚合词树的方式对敏感词库中的敏感词进行聚合,使敏感词库的数据结构更加有序,节省了内存空间,提高 了匹配效率。本发明结合了行业规则的运用,排除了那些在相应行业领域来说不属于敏感词范畴的关键词,并结合语义分析和行业规则进行过滤的方式,减少了敏感词匹配的错误,提高了系统的匹配准确率。
权利要求
1.一种基于聚合词树的敏感词匹配处理的系统,其特征在于,包括 敏感词库单元,用于保存长期积累的各类行业敏感词,以及具有敏感政治倾向、暴力倾向、不健康内容的词语; 聚合词树算法处理器,用于根据敏感词库中的敏感词,进行生成词树的处理,以及对目标信息进行敏感词匹配的处理; 语义分析单元,用于处理初步匹配成功的关键词,结合这些关键词在目标信息中上下文的内容进行语义分析,根据业务规则,判断这些关键词在文中是否是敏感词; 行业领域分析单元,用于根据目标信息的属性确定其行业领域,通过事先设置的行业规则,判断初步匹配成功的关键词,在对应的行业领域内是否属于敏感词,通过业务规则进行过滤后,排除对于所在领域不属于敏感词的关键词。
2.如权利要求I所述系统,其特征在于,所述聚合词树算法处理器包括 聚合词树生成单元,用于将敏感词库中的每个敏感词按照聚合词方式建立词链,然后将多条词链聚合成一棵词树,整个敏感词库中的所有敏感词会聚合成多棵词树; 目标信息匹配单元,用于扫描目标信息中每个字,判断这个字的特征码地址是否在内存地址表中,如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上;再判断下一个字在不在这棵词树中所有词链的第二个结点上,如果在,则在这棵词树上提取相对应的词链,在提取的这条词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经成功匹配敏感词;如依此类推,直到目标信息中的字构成词树上的一条完整的词链。
3.如权利要求I所述系统,其特征在于,还包括 匹配结果输出单元,用于在匹配工作结束后,根据用户事先自定义的标识规则,确定对匹配成功的敏感词进行标识处理方式,并获取这些敏感词的相关属性,输出给信息系统中的信息审核子系统。
4.如权利要求3所述系统,其特征在于,所述匹配结果输出单元的输出包括 布尔数据,表示目标信息中是否含有敏感词,用于在信息审核系统的列表中,区分显示含有敏感词的目标信息和不含敏感词的目标信息; 字符串数据,表示目标信息中所含有的所有敏感词,用于在信息审核系统中,显示每条目录信息中包含的敏感词; 整数型数组,表示敏感词的首字在目标信息中的位置,以及敏感词的长度,用于在信息审核系统的目标信息详细页中,以选择好的标识处理方式对目标信息中的敏感词进行标识,以方便快速辨认。
5.一种基于聚合词树的敏感词匹配处理的方法,其特征在于,包括 将敏感词库中的每个敏感词建立为词链,将多条首字相同的词链聚合成一棵词树,整个敏感词库中的所有敏感词会聚合成多棵词树;根据这些词树根结点的特征码算出它们的地址,存入一个内存地址表中备用; 读入目标信息进行扫描查找,按顺序扫描其中的每个字,判断如果目标信息中的字能构成词树上的一条完整的词链,就获得初步匹配成功的关键词; 根据业务规则,判断这个关键词在目标信息中是否是敏感词;如果是,对目标信息中的敏感词进行处理。
6.如权利要求5所述方法,其特征在于,敏感词库中增加新的敏感词后,这些新的敏感词形成新的词链,添加到所对应的词树中,如不存在对应的词树,那么具有首字相同的新词链就形成新的词树。
7.如权利要求5所述方法,其特征在于,扫描目标信息中每个字,判断这个字的特征码地址是否在内存地址表中,如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上;再判断下一个字在不在这棵词树中所有词链的第二个结点上,如果在,则在这棵词树上提取相对应的词链,在提取的这条词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经成功匹配敏感词。
8.如权利要求5所述方法,其特征在于,结合关键词在目标信息上下文的内容进行语义分析,根据业务规则,判断这个关键词在文中是否是敏感词。
9.如权利要求5所述方法,其特征在于,根据目标信息属性确定其行业领域,通过事先设置的行业规则,判断初步匹配成功的关键词,在所在的行业领域内是否属于敏感词。
10.如权利要求5所述方法,其特征在于,当完成目标信息的敏感词匹配工作后,针对目标信息中包含敏感词,确定专门的标识处理方式,并获取敏感词的相关属性,把这些属性以及标识方式作为结果输出;输出数据包括 布尔数据,表示目标信息中是否含有敏感词,用于在信息审核系统的列表中,区分显示含有敏感词的目标信息和不含敏感词的目标信息; 字符串数据,表示目标信息中所含有的所有敏感词,用于在信息审核系统中,显示每条目录信息中包含的敏感词; 整数型数组,表示敏感词的首字在目标信息中的位置,以及敏感词的长度,用于在信息审核系统的目标信息详细页中,以选择好的标识处理方式对目标信息中的敏感词进行标识,以方便快速辨认。
全文摘要
本发明提供了一种基于聚合词树的敏感词匹配处理系统及方法,该系统包括敏感词库单元、聚合词树算法处理器、语义分析单元、行业领域分析单元。通过聚合词树的方式对敏感词库中的敏感词进行聚合,形成词树结构,使敏感词库的数据结构有序,节省了内存空间,提高了匹配效率。本发明结合了行业规则的运用,并结合语义分析和行业环境进行过滤的方式,排除了那些在相应行业领域不属于敏感词范畴的关键词,减少了敏感词匹配的错误,提高了匹配准确率。
文档编号G06F17/30GK102682090SQ20121012374
公开日2012年9月19日 申请日期2012年4月26日 优先权日2012年4月26日
发明者邹铁鹏, 陶富成 申请人:焦点科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1