一种网络不良信息的过滤方法及装置的制作方法

文档序号:6341192阅读:411来源:国知局
专利名称:一种网络不良信息的过滤方法及装置的制作方法
技术领域
本发明涉及计算机信息处理及信息过滤技术领域,尤其涉及一种基于统计与规则的网络不良信息的过滤方法及装置。
背景技术
随着互联网的迅速发展,信息传播速度也随之加快。由于互联网上的内容良莠不齐,例如广告、色情、暴力以及反动为主的不良信息都难以杜绝,并渐渐以更为隐蔽的方式扩散,因此,抑制不良信息的扩散以及净化互联网络空间就显得十分重要。对于互联网中海量的数据信息,如果采用人工的方法去过滤互联网上的不良信息,则需要耗费巨大的人力物力。因此,基于互联网内容的不良信息的自动过滤技术成为近年来研究的热点。目前,基于互联网内容的不良信息自动过滤技术通常采用如下两种方式(1)基于关键字匹配的过滤方法;该方法在判定过程中,采取精确匹配的策略,过滤掉出现关键字的文本。采用该方法过滤互联网内容的不良信息速度快,简单易操作。(2)基于统计的文本分类模型的过滤方法;该方法中基于统计的不良文本过滤模型本质上是一个两类的文本分类问题,文本分类是自然语言处理领域的研究重点方向,有大量经典模型可供参考。基于统计的文本分类模型从理论角度来看应该是效果不错的方法,但在实际应用中性能却不理想,误判情况十分突出,主要原因分析如下(1)正向与负向语料不均衡。其中,正向语料只包含了少量类别,例如广告、色情、暴力、反动以及用户所关心的不良信息为主。负向语料则包含了大量类别,例如按照文本内容可划分为经济、体育、政治、医药、艺术、历史、政治、文化、环境、交通、计算机、教育、 军事等等。(2)不良信息的内容表现具有很大的多变性和隐蔽性。发布者经常有意避开常用词,取而代之,如同音字,拆分字,非汉字噪音,缩略现象,新词等。(3)用户词典只提供关键词精确匹配方式,造成判定方法的机械与不灵活。且单一关键词的语义倾向性不具有代表性,误判率高。比如,当“免费”和“发票”同时出现在上下文环境中要比单一的“发票”更具有说服性。(4) 一些传统的中文信息处理做法并不适用于基于文本分类的不良信息过滤。如使用一定规模的禁用词;如特征项只包括双字以上的词汇等。(5)缺少统一的模型,对包括广告、色情、暴力、反动等不良信息进行综合过滤。在实现上述基于互联网内容的不良信息自动过滤技术的过程中,发明人发现现有技术中,不良信息自动过滤性能无法满足当前互联网的过滤需求,且无法实现自动更新。

发明内容
本发明实施例提供一种网络不良信息的过滤方法及装置,为达到上述目的,本发明的实施例采用如下技术方案一种网络不良信息的过滤方法,包括
获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配, 给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配, 给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。一种网络不良信息的过滤装置,包括信息获取单元,用于获取待过滤文本信息、系统预研模型信息以及用户反馈模型 fn息;预处理单元,用于对所述待过滤文本信息进行预处理;第一匹配单元,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;第二匹配单元,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;过滤单元,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。本发明实施例提供的网络不良信息的过滤方法以及装置,通过获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。由于本发明中采用了两次匹配进行系统过滤,所以系统自动过滤不良信息的准确性较高,从而提高了系统的性能;还由于本发明实施例采用了用户反馈模型信息进行不良信息的过滤,使得用户反馈信息能够及时的应用于系统自动过滤不良信息的过程中, 从而实现了系统模型信息自动更新的功能。


图1为本发明实施例提供的一种网络不良信息的过滤方法流程图;图2为本发明实施例提供的另一种网络不良信息的过滤方法流程图;图3为本发明实施例提供的一种网络不良信息的过滤装置结构示意图;图4为本发明实施例提供的另一种网络不良信息的过滤装置结构示意图。
具体实施例方式下面结合附图对本发明实施例提供的一种网络不良信息的过滤方法以及装置进行详细描述。如图1所述,为本发明实施例提供的一种网络不良信息的过滤方法;该方法包括101 获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
102 对所述待过滤文本信息进行预处理;103:将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;104:将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;105:根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。如图2所述,为本发明实施例提供的另一种网络不良信息的过滤方法,该方法包括201 获取所述系统预研模型信息的语料与所述用户反馈模型信息的语料。其中, 所述用户反馈模型信息的语料可以包括用户反馈语料和/或被过滤语料。通常所述系统预研模型与所述用户反馈模型的训练语料的选择分为正向语料与负向语料;例如正向语料的准备的不良信息内容文本的收集可以主要包括广告、色情、暴力、反动等内容文本,共 10000篇;负向语料的准备的非不良信息内容文本的收集主要包含任务主要的文本类别, 如经济、政治、体育、文化、医药、交通、环境、军事、文艺、历史、计算机、教育、法律、房产、科技、汽车、人才、娱乐等,共30000篇。需要说明的是,所述训练语料的收集过程中,经常出现正负语料不均衡;一个类别的语料范围很广,另一个类别语料范围则相对较少。本发明中的解决方案是允许这种不均衡的语料分布,对于语料范围很大的类别的准备策略是求全不求量。202 获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;203 对所述待过滤文本信息进行预处理;该步骤具体包括对所述待过滤文本信息进行切分处理;例如根据标点和常见词对语料进行断句,常见词是指常用且对判定无意义的词汇,如“的”、“了”等,但“您”较常见于正向语料,“我”较常见于负向语料,不适合作为常用词。需要注意的是,自然语言处理中常用的禁用词表不适合作为常用词表。通常可采用方正智思分词4. 0对语料进行分词及词性标注工作。所述切分处理后的切分单元是后续工作最小的处理单元。统计所述切分处理后的候选特征项数量。例如对所述切分处理后的切分单元统计其中非汉字部分数量;如所述切分单元总数为Ni,非汉字部分为N2,若N2/m大于阈值,则判定此候选特征项所对应的待滤文本信息为不良信息。依据是此信息中含有大量噪音字符,可能是广告等垃圾文本;或者,统计所述切分单元中的网址、电话、邮箱、QQ等联系方式出现数量num (ad),此类信息常用于广告中,并赋予默认权重聽。204:将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;该步骤具体可以包括2041 获取所述预处理后的待过滤文本信息以及所述系统预研模型信息;所述系统预研模型信息包括规则索引库和所述系统预研模型特征项信息;其中,所述规则索引库中的用户规则索引库和用户关键词索引库的生成过程如下步骤Sl 关键词解析;所述关键词解析方法为首先,对常用字的汉语拼音建索引,依据关键词中每个字的汉语拼音索引生成整体关键词的索引;然后,再对关键词中的每个字进行结构上的拆分,依据拆分结果递归重组关键词;最后,将关键词索引及拆分集合形成键值对,保存所有解析结果生成用户关键词索引库。如“法轮功”关键词解析后,会生成一个索引值,且有多种拆分结果,具体可以包括,“三去车仑工力”,“法车仑功”等等。步骤S2 语法解析;计算机将规则语法解析为能够处理的形式。所述规则语法包括:AND、OR、NEAR、NOT。如“A ANDB”,其中A与B都是待解析的关键词,AND语法表示在上下文环境中,当A与B同时出现时,该条规则匹配成功。对关键词及规则语法形成键值对, 保存所有解析结果生成用户规则索引库。需要注意的是,以上所述索引库规则可以是用户配置的规则,还可以系统预置规则;以上所述步骤是对用户配置规则进行解析生成相应的索引库过程,该索引库可以优化以下匹配过程。2042 将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项;其中,所述系统预研模型信息包括规则索引库和所述系统预研模型特征项信息;该步骤获取系统预研模型特征项信息的过程具体可以为步骤Si,将所述切分单元组成词串作为候选特征项;例如(1)对连续的切分单元组合成词串。对于每句中的切分单元,从第1个切分单元开始,组合窗口最大为N,进行组合。如有序切分单元“AB⑶”,最大窗口为3,则生成词串的组合共有 9 种ABC、BCD、AB、BC、CD、A、B、C、D。(2)对非连续的切分单元组合成词串。对(1)中的生成的词串计算汉语拼音索引, 依据所述2041中的步骤Sl生成的用户关键词索引库中进行匹配。若有匹配成功的集合,统计匹配成功数量num(user);然后,再依据所述2041中的步骤S2生成的用户规则索引库中进行匹配,若匹配成功,对于非连续的切分单元生成一个词串。如(1)中9个词串,若在用户关键词索引库中匹配成功两个词串A、D。在用户规则索引库中有规则“A NEAR2 D”,则生成新的特征项AD。这里的2代表A与D的距离不超过2。累加统计匹配成功数量num (user), 赋予默认权重#WGwr。步骤S2,对所述候选特征项进行频次过滤;具体的讲,就是在训练语料中统计候选特征项的出现次数,以频次作为指标进行过滤,对频次大于等于阈值的候选特征项保留, 小于阈值的候选特征项剔除,可以调整阈值对保留的范围进行控制。步骤S3,对所述候选特征项进行频次再过滤;具体的过滤过程包括首先,对不合理的频次进行重新估计,比如,若所有出现B时都是AB的情况,则B
的频次变为零。频次重新估计公式为
‘hmH * /( ) 当a没有被包含现象;
,, ,,.,,E .
L “>_>' * lit. I ,, , —) ^ —
”11 ‘, 其它;其中,a表示特征项;f(a)表示a的词频;b表示包含了 a的长串特征项;表示b 的集合;m)表示集合大小。然后,以重新评估后的频次作为指标进行再次过滤,对频次大于等于阈值的候选特征项保留,小于阈值的候选特征项剔除,可以调整阈值,对保留的范围进行控制。
步骤S4 对所述候选特征项进行自动选择,从而提取特征项。具体的讲,就是该步骤将正向语料从所述步骤S3中获取到的候选特征项与负向语料从所述步骤S3中获取的候选特征项进行合并,因此合并后这些候选特征项有两个词频,分别对应正向频次和负向频次。采用统计学的卡方统计量来进行特征项的自动选择,保留卡方值最大的前N个候选特征项作为最终特征项信息。卡方统计量公式为
权利要求
1.一种网络不良信息的过滤方法,其特征在于,包括获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息; 对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
2.根据权利要求1所述的网络不良信息的过滤方法,其特征在于,该方法还包括 获取所述系统预研模型信息的语料与所述用户反馈模型信息的语料。
3.根据权利要求2所述的网络不良信息的过滤方法,其特征在于,所述用户反馈模型信息的语料包括用户反馈语料和/或被过滤语料。
4.根据权利要求3所述的网络不良信息的过滤方法,其特征在于,该方法还包括 获取所述用户反馈模型信息的语料数量以及其对应的阈值;根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。
5.根据权利要求2或3或4所述的网络不良信息的过滤方法,其特征在于,所述对所述待过滤文本信息进行预处理的步骤,包括对所述待过滤文本信息进行切分处理; 统计所述切分处理后的候选特征项数量。
6.根据权利要求5所述的网络不良信息的过滤方法,其特征在于,所述将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果步骤,包括获取所述预处理后的待过滤文本信息以及所述系统预研模型信息; 将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项; 统计所述特征项的语料信息得分;根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息; 根据判断结果,给出所述第一匹配结果。
7.根据权利要求6所述的网络不良信息的过滤方法,其特征在于,所述将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果步骤,包括获取所述预处理后的待过滤文本信息以及所述用户反馈模型信息; 将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行匹配,获取特征项; 统计所述特征项的语料信息得分;根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息; 根据判断结果,给出所述第二匹配结果。
8.根据权利要求6或7所述的网络不良信息的过滤方法,其特征在于,所述系统预研模型信息包括规则索引库和系统预研模型特征项信息;所述用户反馈模型信息包括规则索引库和用户反馈模型特征项信息。
9.根据权利要求8所述的网络不良信息的过滤方法,其特征在于,所述系统预研模型信息的规则索引库包括系统预置规则;所述用户反馈模型信息的规则索引库包括用户配置规则。
10.一种网络不良信息的过滤装置,其特征在于,包括信息获取单元,用于获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;预处理单元,用于对所述待过滤文本信息进行预处理;第一匹配单元,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;第二匹配单元,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;过滤单元,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
11.根据权利要求10所述的网络不良信息的过滤装置,其特征在于,所述信息获取单元,还用于获取所述用户反馈模型信息的语料。
12.根据权利要求11所述的网络不良信息的过滤装置,其特征在于,所述用户反馈模型信息的语料包括用户反馈语料和/或被过滤语料。
13.根据权利要求12所述的网络不良信息的过滤装置,其特征在于,该方装置还包括 阈值获取单元,用于获取所述用户反馈模型信息的语料数量以及其对应的阈值;更新单元,用于根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。
14.根据权利要求11或12或13所述的网络不良信息的过滤装置,其特征在于,所述预处理单元,包括切分子单元,用于对所述待过滤文本信息进行切分处理; 统计子单元,用于统计所述切分处理后的候选特征项数量。
15.根据权利要求14所述的网络不良信息的过滤装置,其特征在于,所述第一匹配单元,包括信息获取子单元,用于获取所述预处理后的待过滤文本信息以及所述系统预研模型信息;匹配子单元,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项;统计子单元,用于统计所述特征项的语料信息得分;判断子单元,用于根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;结果输出子单元,用于根据判断结果,给出所述第一匹配结果。
16.根据权利要求15所述的网络不良信息的过滤装置,其特征在于,所述第二匹配单元,包括信息获取子单元,用于获取所述预处理后的待过滤文本信息以及所述用户反馈模型信息;匹配子单元,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行匹配,获取特征项;统计子单元,用于统计所述特征项的语料信息得分;判断子单元,用于根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;结果输出子单元,用于根据判断结果,给出所述第二匹配结果。
全文摘要
本发明公开了一种网络不良信息的过滤方法以及装置,涉及计算机信息处理及信息过滤技术领域。其中,本发明实施例提供的一种网络不良信息的过滤方法,包括获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。采用本发明实施例能够实现提高不良信息自动过滤性能,且可以实现系统信息自动更新。
文档编号G06F17/27GK102567304SQ20101062114
公开日2012年7月11日 申请日期2010年12月24日 优先权日2010年12月24日
发明者于晓明, 杨建武, 郑妍 申请人:北京北大方正电子有限公司, 北京大学, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1