一种垃圾信息检测方法和装置的制作方法

文档序号:7669532阅读:121来源:国知局
专利名称:一种垃圾信息检测方法和装置的制作方法
技术领域
本发明涉及网络信息管理技术,特别涉及一种垃圾信息检测方法和装置。
背景技术
当前,在互联网的电子公告栏系统(BBS, Bulletin Board System )以及博 客(blog)等允许用户书写信息的产品中,往往会遇到用户为了获取产品积分、 获取经济利益或因为其它原因,比如仅仅为了发泄,而发表的毫无意义的帖子 或回复。这些帖子或回复往往是由字符画或是对一个字或一句话重复拷贝多次 的信息组成。由于这些信息本身没有实际意义,所以对于浏览BBS或blog的 用户来说,这些信息都是垃圾信息。其中,字符画是指由很多小的中英文或特 殊美国信息交换标准码(ASCII, American Standard Code for Information Interchange)字符组成的、外观看起来像一幅大的文字或图案的文本字符串, 如图1所示,图1为现有技术中的三个字符画示意图。
当这些垃圾信息充斥在BBS或blog中时,不仅会大量占用服务器的存储 空间,而且,也会影响BBS或blog的内容质量,因此需要将这些垃圾信息及 时清除。但是,这些垃圾信息不但符合BBS或blog中对于用户发言时在字数 上的限制规则,比如10个,而且又没有类似广告信息的明显特征,比如广告信 息中经常出现的联系方式、网址或产品名称等。而且这些垃圾信息的发布往往 有着广泛的用户参与基础,无法通过单独处理一个或几个用户来解决问题。
现有技术中,为解决上述问题,往往采用人工处理方式,即通过人工,比 如BBS管理人员来清除这些垃圾信息,但这种处理方式效率低下,无法满足处 理海量的垃圾信息的需求。另外,现有技术中也可以通过关键字搜索命中方式
来判断并清除垃圾信息。这种处理方式中,预先提取一些经常在垃圾信息中出 现的字符串作为关键词,然后在所有信息中搜索能够匹配该关键词的信息,如 果能够匹配,则判定为垃圾信息。
这种处理方式虽然能够在一定程度上实现垃圾信息的清除,但在实际应用 中也存在很多问题,比如
1、 关键词不仅会在垃圾信息中出现,在非垃圾信息中也可能出现,特别是 当关键词比较短或比较常见时,在非垃圾信息中出现的概率会很大,这样就会 造成严重的误判。
2、 关键词搜索命中方式为机械匹配,如果对垃圾信息中的某个关键词稍微
作一下改变,就无法再将该垃圾信息正确判断出来。
3 、垃圾信息多种多样,如果要采用关键词搜索命中方式进行垃圾信息清除,
则需要很大的关键词库,并需要将关键词库中的每个关键词和垃圾信息进行一 次匹配,处理效率低下。
4、组成字符画的字符可以是任意字符,随便改变其中的字符,就不能再通 过关键词搜索命中方式将垃圾信息正确判断出来。

发明内容
本发明实施例提供一种垃圾信息检测方法,能够准确高效地检测出垃圾 信息。
本发明实施例同时提供一种垃圾信息检测装置,能够准确高效地检测出 垃圾信息。
本发明实施例的技术方案是这样实现的 一种垃圾信息检测方法,该方法包括 将待检测原始信息的语句切分成词;
统计不同词所占频率,并对所述切分后的词进行分类,统计每类词所占 频率;
根据所述统计出的每类词所占频率以及不同词所占频率计算总权值;
比较所述总权值是否大于预先设定的第一阀值,如果是,则确定所述待 检测原始信息为垃圾信息。
一种垃圾信息检测装置,该装置包括词分析单元、词统计单元以及规
则应用单元;
所述词分析单元,用于将待检测原始信息的语句切分为词;
所述词统计单元,用于统计不同词所占频率,并对所述切分后的词进行 分类,统计每类词所占频率;
所述规则应用单元,用于根据所述统计出的每类词所占频率以及不同词 所占频率计算总权值,比较所述总权值是否大于预先设定的第一阀值,如果 是,则确定所述待检测原始信息为垃圾信息。
可见,采用本发明实施例的技术方案,将待检测原始信息的语句切分成 词;统计不同词所占频率,并对切分后的词进4亍分类,统计每类词所占频率; 根据统计出的每类词所占频率以及不同词所占频率计算总权值;比较计算出 的总权值是否大于预先设定的第一阀值,如果是,则确定待检测原始信息为 垃圾信息。与现有技术相比,本发明实施例所述方案中,针对不同的待检测 原始信息,分别进行有针对性的统计、计算及分析,不仅降低了误判率,提 高了效率,而且即使用户对发布的垃圾信息内容进行一定地修改,由于对统 计结果不会造成实质影响,所以应用本发明实施例所述方案仍然能够准确地 检测出来。


图1 (a)为现有技术中的一个字符画示意图。
图1 (b)为现有技术中的另一个字符画示意图。
图1 (c)为现有技术中的再一个字符画示意图。
图2为本发明垃圾信息检测方法实施例的流程图。
图3为本发明垃圾信息检测装置实施例的流程图。
具体实施例方式
为解决现有技术中存在的问题,本发明实施例中提出 一种新的垃圾信息检
测方法,即将待^r测原始信息的语句切分成词;统计不同词所占频率,并对 切分后的词进行分类,统计每类词所占频率;根据统计出的每类词所占频率以 及不同词所占频率计算总权值;比较计算出的总权值是否大于预先设定的第一 阀值,如果是,则确定待检测原始信息为垃圾信息。
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实 施例,对本发明作进一步地详细说明。在介绍本发明的具体实施例之前,首先 介绍几个后续将会涉及到的概念。
自然语言处理技术自然语言是人类智慧的结晶,是人工智能中最为困难 的问题之一,主要是指由计算机来处理自然语言的词汇、句法、语义和语用等 各方面的问题。换句话说,自然语言处理技术就是要研究如何能够让计算机理 解并生成人们日常所使用的语言,建立一种人与计算机之间的密切而友好的关 系。
分词技术在用计算机进行自然语言处理中,分词是一个基本的组件,是 指将一段话按照某种词分隔规则分成一个个的词,并且分成的词在此规则下不 可再细分。这里所提到的词,是指在某种词分隔规则下不可再分割的字符单元, 即最小语言单元,包括中文、英文、数字以及特殊ASCII字符等;这里所提到 的特殊ASCII字符是指除中英文及数字以外的一些特殊符号;汉语的成语或单 字都有可能成为词,具体情况取决于所使用的词分隔规则。词分隔规则,顾名 思义,是指 一种把语句切分为最小语言单元的规则。
现有分词技术主要包括机械分词和语义分词。其中,机械分词是指将单 个字符或相邻两个字符等作为一个词的分词方式;而语义分词是指在分词时考 虑语义,即,将在语义层面上为一个单位的字符串作为一个词,如"中华人民 共和国"、"太阳"等字符串在中文语义中都是一个词,虽然它们具有不同的字 符长度。
图2为本发明垃圾信息4企测方法实施例的流程图。本发明实施例所述方法
可应用于实时^r测中,即在^f吏用BBS或blog的用户发布信息的同时,即;险测 该信息是否为垃圾信息,如果是,则禁止该信息的发布;或者,也可以应用于 系统周期性或按需要在某些时刻对BBS或blog等上发布的信息进行清除时。 如图2所示,包括以下步骤
步骤201:将待检测原始信息的语句切分成词。
本步骤中,可4妄照现有分词技术,即^U戒分词或语义分词方式,将待;险测 的原始信息切分成词。假设本实施例中采用机械分词方式,而且一个字符对应 一个词;对于中文来说, 一个字对应一个词。由于枳4戒分词方式为现有技术, 所以此处不再赘述。
步骤202:统计不同词所占频率,并对切分后的词进行分类,统计每类词 所占频率。
本步骤中,首先对切分得到的词进行统计,统计不同词在待检测原始信息 中出现的次数,根据次数计算出不同词所占的频率,即不同词出现次数占切分 得到的所有词个数的百分比。
之后,将切分得到的所有词进行分类。可采用的分类方式不限。比如,可 以分为中文和非中文两类,或者,还可以采用其它更细一些的分类方式。^i殳 本实施例中将切分得到的所有词具体分为四类,分别为中文、英文、数字以及 特殊ASCII字符。其中,特殊ASCII字符通常是指标点符号、以及图1 (a)和 (b)中所示的小黑块以及一些特殊符号等。
分类完成后,统计不同类词中所包含的词的个数,并据此进一步求出不同 类词所占的频率,即求取不同类词中所包含的词数占切分得到的所有词数的百 分比。
本步骤中,可根据统计出的每类词所占频率以及不同词所占频率计算得到 总权^直。具体实现方式可以是将不同类词中指定的一类或一类以上词所占频 率进行加权相加(即,将不同类词所占频率分别乘以预先设置的权值/系数,并
将相乘结果相加),得到分类权值;对统计出的不同词所占频率按照由大到小的顺序进行排序,从中选取出排在前N位的N个词所占频率,N值为预先设定; 将N个词所占频率进行加权相加,得到词的权值;将分类权值和词的权值进行 加权相加,得到总权值。
依据步骤202的介绍可知,本发明实施例中,将切分后的词分为中文、 英文、数字以及特殊ASCII字符四类。而依据经验可知,中文和英文为用户 发布正常信息时使用得比较多的词,在发布垃圾信息时,使用得较多的是数 字以及特殊ASCII字符。所以,本步骤中在将不同类词中指定的一类或一类 以上词所占频率进行加权相加时,可以只将数字以及特殊ASCII字符类词所 占频率进行加权相加,而不考虑中文和英文两类词。其中,在进行加权相加 时,数字以及特殊ASCII字符类词所占频率分别对应的权值可根据实际需要 设置。但是,考虑到垃圾信息中通常会包含比较多的特殊ASCII字符类信息, 所以可以将特殊ASCII字符类词所占频率对应的权值设置得较大。
计算出分类权值以后,进一步地,还需要计算词的权值,即对统计出的 不同词所占频率按照由大到小的顺序进行排序,从中选取出排在前N位的N 个词所占频率,将N个词所占频率进行加权相加。假设本实施例N的取值 为3。在进行加权相加时,三个词所占频率分别对应的权值大小可#4居实际 需要设置,只要遵循将最大频率对应的权值设置为最大,次大频率对应的权 值设置为次大,最小频率对应的权值设置为最小的规则即可。
之后,将上述过程中计算得到的分类权值以及词的权值进行加权相加, 得到总权值。其中,在加权相加过程中,分类权值以及词的权值分别对应的 权值大小可根据实际需要设置。比如,如杲待检测的原始信息中有很多类似 图l(b)所示形式,即存在很多不同类型的词,则可以将分类权值对应的 权值设置得大一些,而词的权值对应的权值设置得d、一些;反之,如果待检 测的原始信息中有很多类似图1 (c)所示形式,即某一个词所占频率较高, 如图1 (c)中所示的"顶",则可以将词的权值对应的权值设置得大一些, 而分类权值对应的权值设置得d、一些。计算得到总权值之后,即可执行后续的步骤204,即比较计算出的总权
值是否大于预先设定的第一阀值,如果是,则确定待检测原始信息为垃圾信 息。但是,在实际应用中,按照上述方式进行判断时可能会存在误判,比如
某一用户发布的正常信息中也可能会携带有较多的数字或特殊ASCII字符, 或者某些词所占频率较大,这样,在采用本发明实施例所述方案进行是否为 垃圾信息的判断时,有可能会将这类正常信息误判为垃圾信息。
为了进一步克服这一问题,本发明实施例中在执行步骤204之前,还需 要对计算得到的总权值进行进一步地处理预先设置一个阀值,为便于与后 续出现的另一阀值造成混淆,本实施例中将其称为第二阀值;比较数字和特
值,如果是,则在所述总权值的基础加上一个预先设置的值;否则,维持原 有总权值不变;同时,比较对不同词所占频率进行排序后,排在第一位的词 所占频率是否大于预先设置的第二阈值,如果是,则在总权值的基础加上一 个预先设置的值;否则,维持原有总权值不变。如果上述两次比较结果均为 大于预先设置的第二阈值,那么,则需要在原总权值的基础上加上两个值, 这两个值可以相等,也可以不相等。上述第二阈值的具体取值可根据实际需 要设置,通常将其设置较大,比如,如果用百分比来表示,该值可设置在 50。/。以上。由于通常情况下,即使用户发布的正常信息中携带有较多的数字 或特殊ASCII字符,或携带的某个词所占的频率较大,但也不会大到超过 50%。所以, 一旦超过了 50%,则可以认为是垃^及信息。通过这种方式减 少了误判情况的发生。
步骤204:比较计算出的总权值是否大于预先设定的第一阀值,如果是, 则确定待;险测原始信息为垃圾信息。
本步骤中,比较计算出的总权值是否大于预先设定的一个阀值,为便于和 上述第二阀值进行区分,将本步骤中的阀值称为第 一 阀值。
本步骤中所提到的总权值是指步骤203中进行了进一步处理后的总权值。 其中第 一 阀值的取值可冲艮据实际需要设置。需要说明的是,本实施例中所出现的各次加权相加中所用到的权值以及设
置的各个阀值的具体取值,均可根据实际需要设置。比如,可以在不同的权值
或阀值条件下进行多次不同的实验,比较将这些权值或阀值具体设置为何值时,
采用本发明实施例所述方案进行垃圾信息检测时的检测正确率最高,将检测正 确率最高的那次实验所对应的数据固定为后续按照本发明所述方案进行垃圾信
息检测时的权值和阀值。
确定出待检测原始信息为垃圾信息后,后续过程中,系统可以自动清除 所述待检测原始信息;或者,将所述待检测原始信息显示给用户,由用户确
定是否清除该待检测原始信息。这里所提到的用户是指BBS或blog管理人员。
基于上述方法,图3为本发明垃圾信息检测装置实施例的组成结构示意 图。如图3所示,该装置包括词分析单元301、词统计单元302以及规则 应用单元303;
词分析单元301 ,用于将待检测原始信息的语句切分成词; 词统计单元302,用于统计不同词所占频率,并对切分后的词进行分类,
统计每类词所占频率;
规则应用单元303,用于根据统计出的每类词所占频率以及不同词所占
频率计算总权值,比较所述总权值是否大于预先设定的第一阀值,如果是,
则确定待检测原始信息为垃圾信息。
其中,词统计单元302中进一步包括第一统计子单元3021以及第二 统计子单元3022;
第一统计子单元3021,用于统计不同词所占频率;
第二统计子单元3022,用于将不同词分为中文、英文、数字以及特殊 ASCII字符四类,并统计每类词所占频率。
规则应用单元303中进一步包括计算子单元3031以及确定子单元 3032;
计算子单元3031,用于将不同类词中的一类或一类以上词所占频率进 行加权相加,得到分类权值;对统计出的不同词所占频率按照由大到小的顺
序进行排序,从中选取出排在前N位的N个词所占频率,将这N个词所占 频率进行加权相加,得到词的权值;将分类权值和词的权值进行加权相力口, 得到总权值;其中,N值为预先设定; 一类或一类以上词可以是指数字以 及特殊ASCII字符类词;N的取值可以为3。 '
确定子单元3032,用于比较所述总权值是否大于预先设定的第一阀值, 如果是,则确定待检测原始信息为垃圾信息。
此外,规则应用单元303中还可进一步包括
比较子单元3033,用于比较一类或一类以上词所占频率中的最大频率 是否大于预先设置的第二阈值,如果是,则在计算子单元3031计算出的总 权值的基础加上一个预先设置的值;同时比较排序后,排在第一位的词所占 频率是否大于预先设置的第二阈值,如果是,则在计算子单元3031计算出 的总权值的基础加上一个预先设置的值,并将相加后的结果发送给确定子单 元3032;
确定子单元3032比较相加后的结果是否大于预先设定的第一阀值,如 果是,则确定待检测原始信息为垃圾信息。
除上述词分析单元301、词统计单元302以及规则应用单元303之外, 本发明的垃圾信息检测装置中还可进一步包括清除单元304和/或显示单 元305;
清除单元304,用于将规则应用单元303中确定为垃圾信息的待检测原 始信息清除;
显示单元305,用于将规则应用单元303中确定为垃圾信息的待检测原 始信息显示给用户,由用户确定是否清除待检测原始信息。
图3所示装置实施例的具体工作流程请参照方法实施例中的说明,此处 不再赘述。
可见,采用本发明实施例的技术方案,能够准确地检测出垃圾信息,尤其 是字符画或是一个字、 一句话重复拷贝多次的垃圾信息,降低了误判率;而且,
能够适应自动或半自动处理,即自动清除垃圾信息或显示给用户,由用户确定 是否清除的处理方式,解决了现有技术中人力处理效率低下的问题。再有,本 发明实施例所述方案的具体实现方式非常灵活,并不限于上述实施例所述方式。 比如,词分析单元可以采用不同的分词方式,如,对于中文可以采用二元切分 或语义分词等。词统计单元中对切分后的词进行分类的方式也可以按需要设置 为其它方式,如分为中文和非中文两类等。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的 保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改 进等,均应包含在本发明的保护范围之内。
权利要求
1、一种垃圾信息检测方法,其特征在于,该方法包括将待检测原始信息的语句切分成词;统计不同词所占频率,并对所述切分后的词进行分类,统计每类词所占频率;根据所述统计出的每类词所占频率以及不同词所占频率计算总权值;比较所述总权值是否大于预先设定的第一阀值,如果是,则确定所述待检测原始信息为垃圾信息。
2、 根据权利要求1所述的方法,其特征在于,所述将待检测原始信息 的语句切分成词包^^:采用机械分词方式,将所述待检测原始信息的语句切分成词, 一个字符 或字对应一个词。
3、 根据权利要求1所述的方法,其特征在于,所述根据统计出的每类 词所占频率以及不同词所占频率计算总权值包括将所述不同类词中的一类或一类以上词所占频率进行加权相加,得到分 类权值;将所述统计出的不同词所占频率按照由大到小的顺序进行排序,从中选 取出排在前N位的N个词所占频率,所述N值为预先设定;将所述N个词 所占频率进行加权相加,得到词的权值;将所述分类权值和词的权值进行加权相加,得到总权值。
4、 根据权利要求3所述的方法,其特征在于,所述对切分后的词进行 分类包括将所述切分后的词分为中文、英文、数字以及特殊美国信息交换 标准码字符四类;所述将不同类词中的一类或一类以上词所占频率进行加权相加包括将 所述数字以及特殊美国信息交换标准码字符类词所占频率进行加权相加。
5、 根据权利要求4所述的方法,其特征在于,所述将所述数字以及特 殊美国信息交换标准码字符类词所占频率进行加权相加包括将与所述特殊美国信息交换标准码字符类词所占频率对应的权值设置 较大。
6、 根据权利要求3所述的方法,其特征在于,所述从中选取出排在前 N位的N个词所占频率包括从中选取出排在前3位的3个词所占频率。
7、 根据权利要求3 6中任一项所述的方法,其特征在于,所述得到总 权值之后,进一步包括比较所述一类或一类以上词所占频率中的最大频率是否大于预先设置 的第二阈值,如果是,则在所述总权值的基础加上一个预先设置的值;否贝'J,维持原有总权值不变;同时,比较所述排序后,排在第一位的词所占频率是否大于所述预先设 置的第二阈值,如果是,则在所述总权值的基础加上一个预先设置的值;否 则,维持原有总权值不变。
8、 根据权利要求1所述的方法,其特征在于,所述确定待检测原始信 息为垃圾信息之后,进一步包括自动清除所述待检测原始信息;或者,将所述待检测原始信息显示给用 户,由用户确定是否清除所述待检测原始信息。
9、 一种垃圾信息检测装置,其特征在于,该装置包括词分析单元、 词统计单元以及规则应用单元;所述词分析单元,用于将待检测原始信息的语句切分为词; 所述词统计单元,用于统计不同词所占频率,并对所述切分后的词进行分类,统计每类词所占频率;所述规则应用单元,用于根据所述统计出的每类词所占频率以及不同词所占频率计算总权值,比较所述总权值是否大于预先设定的第一阀值,如果是,则确定所述待检测原始信息为垃圾信息。
10、 根据权利要求9所述的装置,其特征在于,所述词统计单元中进一 步包括第一统计子单元以及第二统计子单元;所述第一统计子单元,用于统计不同词所占频率;所述第二统计子单元,用于将所述不同词分为中文、英文、数字以及特 殊美国信息交换标准码字符四类,并统计每类词所占频率。
11、 根据权利要求10所述的装置,其特征在于,所述规则应用单元中进一步包括计算子单元以及确定子单元;所述计算子单元,用于将所述不同类词中的一类或一类以上词所占频率 进行加权相加,得到分类权值;对所述统计出的不同词所占频率按照由大到 小的顺序进行排序,从中选取出排在前N位的N个词所占频率,将所述N 个词所占频率进行加权相加,得到词的权值;将所述分类权值和词的权值进 行加权相加,得到总权值;其中,所述N值为预先设定;所述确定子单元,用于比较所述总权值是否大于预先设定的第一阀值, 如果是,则确定所述待检测原始信息为垃圾信息。
12、 根据权利要求11所述的装置,其特征在于,所述一类或一类以上 词为数字以及特殊美国信息交换标准码字符类词;所述N的取值为3。
13、 根据权利要求11或12所述的装置,其特征在于,所述规则应用单 元中进一步包括比较子单元,用于比较所述一类或一类以上词所占频率中的最大频率是 否大于预先设置的第二阈值,如果是,则在所述计算子单元计算出的总权值 的基础加上一个预先设置的值;同时比较所述排序后,排在第一位的词所占 频率是否大于所述预先设置的第二阈值,如果是,则在所述计算子单元计算 出的总权值的基础加上一个预先设置的值,并将相加后的结果发送给所述确 定子单元;所述确定子单元比较所述相加后的结果是否大于预先设定的第一阀值, 如果是,则确定所述待检测原始信息为垃圾信息。
14、 根据权利要求9所述的装置,其特征在于,该装置中进一步包括 清除单元或显示单元;所述清除单元,用于将所述规则应用单元中确定为垃圾信息的待检测原 始信息清除;所述显示单元,用于将所述规则应用单元中确定为垃圾信息的待检测原 始信息显示给用户,由所述用户确定是否清除所述待检测原始信息。
全文摘要
本发明实施例公开了一种垃圾信息检测方法,将待检测原始信息的语句切分成词;统计不同词所占频率,并对所述切分后的词进行分类,统计每类词所占频率;根据所述统计出的每类词所占频率以及不同词所占频率计算总权值;比较所述总权值是否大于预先设定的第一阀值,如果是,则确定所述待检测原始信息为垃圾信息。本发明实施例同时公开了一种垃圾信息检测装置。应用本发明实施例所述的方法和装置,能够准确高效地检测出垃圾信息,并及时进行清除。
文档编号H04L12/58GK101197793SQ200710306379
公开日2008年6月11日 申请日期2007年12月28日 优先权日2007年12月28日
发明者刘大林 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1