一种垃圾信息检测方法和装置的制作方法

文档序号：7669532阅读：121来源：国知局

专利名称：一种垃圾信息检测方法和装置的制作方法
技术领域：
本发明涉及网络信息管理技术，特别涉及一种垃圾信息检测方法和装置。
背景技术：
当前，在互联网的电子公告栏系统(BBS, Bulletin Board System )以及博客(blog)等允许用户书写信息的产品中，往往会遇到用户为了获取产品积分、获取经济利益或因为其它原因，比如仅仅为了发泄，而发表的毫无意义的帖子或回复。这些帖子或回复往往是由字符画或是对一个字或一句话重复拷贝多次的信息组成。由于这些信息本身没有实际意义，所以对于浏览BBS或blog的用户来说，这些信息都是垃圾信息。其中，字符画是指由很多小的中英文或特殊美国信息交换标准码(ASCII, American Standard Code for Information Interchange)字符组成的、外观看起来像一幅大的文字或图案的文本字符串，如图1所示，图1为现有技术中的三个字符画示意图。
当这些垃圾信息充斥在BBS或blog中时，不仅会大量占用服务器的存储空间，而且，也会影响BBS或blog的内容质量，因此需要将这些垃圾信息及时清除。但是，这些垃圾信息不但符合BBS或blog中对于用户发言时在字数上的限制规则，比如10个，而且又没有类似广告信息的明显特征，比如广告信息中经常出现的联系方式、网址或产品名称等。而且这些垃圾信息的发布往往有着广泛的用户参与基础，无法通过单独处理一个或几个用户来解决问题。
现有技术中，为解决上述问题，往往采用人工处理方式，即通过人工，比如BBS管理人员来清除这些垃圾信息，但这种处理方式效率低下，无法满足处理海量的垃圾信息的需求。另外，现有技术中也可以通过关键字搜索命中方式
来判断并清除垃圾信息。这种处理方式中，预先提取一些经常在垃圾信息中出现的字符串作为关键词，然后在所有信息中搜索能够匹配该关键词的信息，如果能够匹配，则判定为垃圾信息。
这种处理方式虽然能够在一定程度上实现垃圾信息的清除，但在实际应用中也存在很多问题，比如
1、关键词不仅会在垃圾信息中出现，在非垃圾信息中也可能出现，特别是当关键词比较短或比较常见时，在非垃圾信息中出现的概率会很大，这样就会造成严重的误判。
2、关键词搜索命中方式为机械匹配，如果对垃圾信息中的某个关键词稍微
作一下改变，就无法再将该垃圾信息正确判断出来。
3 、垃圾信息多种多样，如果要采用关键词搜索命中方式进行垃圾信息清除，
则需要很大的关键词库，并需要将关键词库中的每个关键词和垃圾信息进行一次匹配，处理效率低下。
4、组成字符画的字符可以是任意字符，随便改变其中的字符，就不能再通过关键词搜索命中方式将垃圾信息正确判断出来。

发明内容
本发明实施例提供一种垃圾信息检测方法，能够准确高效地检测出垃圾信息。
本发明实施例同时提供一种垃圾信息检测装置，能够准确高效地检测出垃圾信息。
本发明实施例的技术方案是这样实现的一种垃圾信息检测方法，该方法包括将待检测原始信息的语句切分成词；
统计不同词所占频率，并对所述切分后的词进行分类，统计每类词所占频率；
根据所述统计出的每类词所占频率以及不同词所占频率计算总权值；
比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。
一种垃圾信息检测装置，该装置包括词分析单元、词统计单元以及规
则应用单元；
所述词分析单元，用于将待检测原始信息的语句切分为词；
所述词统计单元，用于统计不同词所占频率，并对所述切分后的词进行分类，统计每类词所占频率；
所述规则应用单元，用于根据所述统计出的每类词所占频率以及不同词所占频率计算总权值，比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。
可见，采用本发明实施例的技术方案，将待检测原始信息的语句切分成词；统计不同词所占频率，并对切分后的词进4亍分类，统计每类词所占频率；根据统计出的每类词所占频率以及不同词所占频率计算总权值；比较计算出的总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。与现有技术相比，本发明实施例所述方案中，针对不同的待检测原始信息，分别进行有针对性的统计、计算及分析，不仅降低了误判率，提高了效率，而且即使用户对发布的垃圾信息内容进行一定地修改，由于对统计结果不会造成实质影响，所以应用本发明实施例所述方案仍然能够准确地检测出来。

图1 (a)为现有技术中的一个字符画示意图。
图1 (b)为现有技术中的另一个字符画示意图。
图1 (c)为现有技术中的再一个字符画示意图。
图2为本发明垃圾信息检测方法实施例的流程图。
图3为本发明垃圾信息检测装置实施例的流程图。
具体实施例方式
为解决现有技术中存在的问题，本发明实施例中提出一种新的垃圾信息检
测方法，即将待^r测原始信息的语句切分成词；统计不同词所占频率，并对切分后的词进行分类，统计每类词所占频率；根据统计出的每类词所占频率以及不同词所占频率计算总权值；比较计算出的总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。
为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步地详细说明。在介绍本发明的具体实施例之前，首先介绍几个后续将会涉及到的概念。
自然语言处理技术自然语言是人类智慧的结晶，是人工智能中最为困难的问题之一，主要是指由计算机来处理自然语言的词汇、句法、语义和语用等各方面的问题。换句话说，自然语言处理技术就是要研究如何能够让计算机理解并生成人们日常所使用的语言，建立一种人与计算机之间的密切而友好的关系。
分词技术在用计算机进行自然语言处理中，分词是一个基本的组件，是指将一段话按照某种词分隔规则分成一个个的词，并且分成的词在此规则下不可再细分。这里所提到的词，是指在某种词分隔规则下不可再分割的字符单元，即最小语言单元，包括中文、英文、数字以及特殊ASCII字符等；这里所提到的特殊ASCII字符是指除中英文及数字以外的一些特殊符号；汉语的成语或单字都有可能成为词，具体情况取决于所使用的词分隔规则。词分隔规则，顾名思义，是指一种把语句切分为最小语言单元的规则。
现有分词技术主要包括机械分词和语义分词。其中，机械分词是指将单个字符或相邻两个字符等作为一个词的分词方式；而语义分词是指在分词时考虑语义，即，将在语义层面上为一个单位的字符串作为一个词，如"中华人民共和国"、"太阳"等字符串在中文语义中都是一个词，虽然它们具有不同的字符长度。
图2为本发明垃圾信息4企测方法实施例的流程图。本发明实施例所述方法
可应用于实时^r测中，即在^f吏用BBS或blog的用户发布信息的同时，即;险测该信息是否为垃圾信息，如果是，则禁止该信息的发布；或者，也可以应用于系统周期性或按需要在某些时刻对BBS或blog等上发布的信息进行清除时。如图2所示，包括以下步骤
步骤201:将待检测原始信息的语句切分成词。
本步骤中，可4妄照现有分词技术，即^U戒分词或语义分词方式，将待;险测的原始信息切分成词。假设本实施例中采用机械分词方式，而且一个字符对应一个词；对于中文来说，一个字对应一个词。由于枳4戒分词方式为现有技术，所以此处不再赘述。
步骤202:统计不同词所占频率，并对切分后的词进行分类，统计每类词所占频率。
本步骤中，首先对切分得到的词进行统计，统计不同词在待检测原始信息中出现的次数，根据次数计算出不同词所占的频率，即不同词出现次数占切分得到的所有词个数的百分比。
之后，将切分得到的所有词进行分类。可采用的分类方式不限。比如，可以分为中文和非中文两类，或者，还可以采用其它更细一些的分类方式。^i殳本实施例中将切分得到的所有词具体分为四类，分别为中文、英文、数字以及特殊ASCII字符。其中，特殊ASCII字符通常是指标点符号、以及图1 (a)和 (b)中所示的小黑块以及一些特殊符号等。
分类完成后，统计不同类词中所包含的词的个数，并据此进一步求出不同类词所占的频率，即求取不同类词中所包含的词数占切分得到的所有词数的百分比。
本步骤中，可根据统计出的每类词所占频率以及不同词所占频率计算得到总权^直。具体实现方式可以是将不同类词中指定的一类或一类以上词所占频率进行加权相加(即，将不同类词所占频率分别乘以预先设置的权值/系数，并
将相乘结果相加)，得到分类权值；对统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N个词所占频率，N值为预先设定；将N个词所占频率进行加权相加，得到词的权值；将分类权值和词的权值进行加权相加，得到总权值。
依据步骤202的介绍可知，本发明实施例中，将切分后的词分为中文、英文、数字以及特殊ASCII字符四类。而依据经验可知，中文和英文为用户发布正常信息时使用得比较多的词，在发布垃圾信息时，使用得较多的是数字以及特殊ASCII字符。所以，本步骤中在将不同类词中指定的一类或一类以上词所占频率进行加权相加时，可以只将数字以及特殊ASCII字符类词所占频率进行加权相加，而不考虑中文和英文两类词。其中，在进行加权相加时，数字以及特殊ASCII字符类词所占频率分别对应的权值可根据实际需要设置。但是，考虑到垃圾信息中通常会包含比较多的特殊ASCII字符类信息，所以可以将特殊ASCII字符类词所占频率对应的权值设置得较大。
计算出分类权值以后，进一步地，还需要计算词的权值，即对统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N 个词所占频率，将N个词所占频率进行加权相加。假设本实施例N的取值为3。在进行加权相加时，三个词所占频率分别对应的权值大小可#4居实际需要设置，只要遵循将最大频率对应的权值设置为最大，次大频率对应的权值设置为次大，最小频率对应的权值设置为最小的规则即可。
之后，将上述过程中计算得到的分类权值以及词的权值进行加权相加，得到总权值。其中，在加权相加过程中，分类权值以及词的权值分别对应的权值大小可根据实际需要设置。比如，如杲待检测的原始信息中有很多类似图l(b)所示形式，即存在很多不同类型的词，则可以将分类权值对应的权值设置得大一些，而词的权值对应的权值设置得d、一些；反之，如果待检测的原始信息中有很多类似图1 (c)所示形式，即某一个词所占频率较高，如图1 (c)中所示的"顶"，则可以将词的权值对应的权值设置得大一些，而分类权值对应的权值设置得d、一些。计算得到总权值之后，即可执行后续的步骤204,即比较计算出的总权
值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。但是，在实际应用中，按照上述方式进行判断时可能会存在误判，比如
某一用户发布的正常信息中也可能会携带有较多的数字或特殊ASCII字符，或者某些词所占频率较大，这样，在采用本发明实施例所述方案进行是否为垃圾信息的判断时，有可能会将这类正常信息误判为垃圾信息。
为了进一步克服这一问题，本发明实施例中在执行步骤204之前，还需要对计算得到的总权值进行进一步地处理预先设置一个阀值，为便于与后续出现的另一阀值造成混淆，本实施例中将其称为第二阀值；比较数字和特
值，如果是，则在所述总权值的基础加上一个预先设置的值；否则，维持原有总权值不变；同时，比较对不同词所占频率进行排序后，排在第一位的词所占频率是否大于预先设置的第二阈值，如果是，则在总权值的基础加上一个预先设置的值；否则，维持原有总权值不变。如果上述两次比较结果均为大于预先设置的第二阈值，那么，则需要在原总权值的基础上加上两个值，这两个值可以相等，也可以不相等。上述第二阈值的具体取值可根据实际需要设置，通常将其设置较大，比如，如果用百分比来表示，该值可设置在 50。/。以上。由于通常情况下，即使用户发布的正常信息中携带有较多的数字或特殊ASCII字符，或携带的某个词所占的频率较大，但也不会大到超过 50%。所以，一旦超过了 50%,则可以认为是垃^及信息。通过这种方式减少了误判情况的发生。
步骤204:比较计算出的总权值是否大于预先设定的第一阀值，如果是，则确定待;险测原始信息为垃圾信息。
本步骤中，比较计算出的总权值是否大于预先设定的一个阀值，为便于和上述第二阀值进行区分，将本步骤中的阀值称为第一阀值。
本步骤中所提到的总权值是指步骤203中进行了进一步处理后的总权值。其中第一阀值的取值可冲艮据实际需要设置。需要说明的是，本实施例中所出现的各次加权相加中所用到的权值以及设
置的各个阀值的具体取值，均可根据实际需要设置。比如，可以在不同的权值
或阀值条件下进行多次不同的实验，比较将这些权值或阀值具体设置为何值时，
采用本发明实施例所述方案进行垃圾信息检测时的检测正确率最高，将检测正确率最高的那次实验所对应的数据固定为后续按照本发明所述方案进行垃圾信
息检测时的权值和阀值。
确定出待检测原始信息为垃圾信息后，后续过程中，系统可以自动清除所述待检测原始信息；或者，将所述待检测原始信息显示给用户，由用户确
定是否清除该待检测原始信息。这里所提到的用户是指BBS或blog管理人员。
基于上述方法，图3为本发明垃圾信息检测装置实施例的组成结构示意图。如图3所示，该装置包括词分析单元301、词统计单元302以及规则应用单元303;
词分析单元301 ，用于将待检测原始信息的语句切分成词；词统计单元302,用于统计不同词所占频率，并对切分后的词进行分类，
统计每类词所占频率；
规则应用单元303,用于根据统计出的每类词所占频率以及不同词所占
频率计算总权值，比较所述总权值是否大于预先设定的第一阀值，如果是，
则确定待检测原始信息为垃圾信息。
其中，词统计单元302中进一步包括第一统计子单元3021以及第二统计子单元3022;
第一统计子单元3021,用于统计不同词所占频率；
第二统计子单元3022，用于将不同词分为中文、英文、数字以及特殊 ASCII字符四类，并统计每类词所占频率。
规则应用单元303中进一步包括计算子单元3031以及确定子单元 3032;
计算子单元3031，用于将不同类词中的一类或一类以上词所占频率进行加权相加，得到分类权值；对统计出的不同词所占频率按照由大到小的顺
序进行排序，从中选取出排在前N位的N个词所占频率，将这N个词所占频率进行加权相加，得到词的权值；将分类权值和词的权值进行加权相力口，得到总权值；其中，N值为预先设定；一类或一类以上词可以是指数字以及特殊ASCII字符类词；N的取值可以为3。 '
确定子单元3032，用于比较所述总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。
此外，规则应用单元303中还可进一步包括
比较子单元3033，用于比较一类或一类以上词所占频率中的最大频率是否大于预先设置的第二阈值，如果是，则在计算子单元3031计算出的总权值的基础加上一个预先设置的值；同时比较排序后，排在第一位的词所占频率是否大于预先设置的第二阈值，如果是，则在计算子单元3031计算出的总权值的基础加上一个预先设置的值，并将相加后的结果发送给确定子单元3032;
确定子单元3032比较相加后的结果是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。
除上述词分析单元301、词统计单元302以及规则应用单元303之外，本发明的垃圾信息检测装置中还可进一步包括清除单元304和/或显示单元305;
清除单元304，用于将规则应用单元303中确定为垃圾信息的待检测原始信息清除；
显示单元305,用于将规则应用单元303中确定为垃圾信息的待检测原始信息显示给用户，由用户确定是否清除待检测原始信息。
图3所示装置实施例的具体工作流程请参照方法实施例中的说明，此处不再赘述。
可见，采用本发明实施例的技术方案，能够准确地检测出垃圾信息，尤其是字符画或是一个字、一句话重复拷贝多次的垃圾信息，降低了误判率；而且,
能够适应自动或半自动处理，即自动清除垃圾信息或显示给用户，由用户确定是否清除的处理方式，解决了现有技术中人力处理效率低下的问题。再有，本发明实施例所述方案的具体实现方式非常灵活，并不限于上述实施例所述方式。比如，词分析单元可以采用不同的分词方式，如，对于中文可以采用二元切分或语义分词等。词统计单元中对切分后的词进行分类的方式也可以按需要设置为其它方式，如分为中文和非中文两类等。
综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1、一种垃圾信息检测方法，其特征在于，该方法包括将待检测原始信息的语句切分成词；统计不同词所占频率，并对所述切分后的词进行分类，统计每类词所占频率；根据所述统计出的每类词所占频率以及不同词所占频率计算总权值；比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。
2、根据权利要求1所述的方法，其特征在于，所述将待检测原始信息的语句切分成词包^^:采用机械分词方式，将所述待检测原始信息的语句切分成词，一个字符或字对应一个词。
3、根据权利要求1所述的方法，其特征在于，所述根据统计出的每类词所占频率以及不同词所占频率计算总权值包括将所述不同类词中的一类或一类以上词所占频率进行加权相加，得到分类权值；将所述统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N个词所占频率，所述N值为预先设定；将所述N个词所占频率进行加权相加，得到词的权值；将所述分类权值和词的权值进行加权相加，得到总权值。
4、根据权利要求3所述的方法，其特征在于，所述对切分后的词进行分类包括将所述切分后的词分为中文、英文、数字以及特殊美国信息交换标准码字符四类；所述将不同类词中的一类或一类以上词所占频率进行加权相加包括将所述数字以及特殊美国信息交换标准码字符类词所占频率进行加权相加。
5、根据权利要求4所述的方法，其特征在于，所述将所述数字以及特殊美国信息交换标准码字符类词所占频率进行加权相加包括将与所述特殊美国信息交换标准码字符类词所占频率对应的权值设置较大。
6、根据权利要求3所述的方法，其特征在于，所述从中选取出排在前 N位的N个词所占频率包括从中选取出排在前3位的3个词所占频率。
7、根据权利要求3 6中任一项所述的方法，其特征在于，所述得到总权值之后，进一步包括比较所述一类或一类以上词所占频率中的最大频率是否大于预先设置的第二阈值，如果是，则在所述总权值的基础加上一个预先设置的值；否贝'J，维持原有总权值不变；同时，比较所述排序后，排在第一位的词所占频率是否大于所述预先设置的第二阈值，如果是，则在所述总权值的基础加上一个预先设置的值；否则，维持原有总权值不变。
8、根据权利要求1所述的方法，其特征在于，所述确定待检测原始信息为垃圾信息之后，进一步包括自动清除所述待检测原始信息；或者，将所述待检测原始信息显示给用户，由用户确定是否清除所述待检测原始信息。
9、一种垃圾信息检测装置，其特征在于，该装置包括词分析单元、词统计单元以及规则应用单元；所述词分析单元，用于将待检测原始信息的语句切分为词；所述词统计单元，用于统计不同词所占频率，并对所述切分后的词进行分类，统计每类词所占频率；所述规则应用单元，用于根据所述统计出的每类词所占频率以及不同词所占频率计算总权值，比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。
10、根据权利要求9所述的装置，其特征在于，所述词统计单元中进一步包括第一统计子单元以及第二统计子单元；所述第一统计子单元，用于统计不同词所占频率；所述第二统计子单元，用于将所述不同词分为中文、英文、数字以及特殊美国信息交换标准码字符四类，并统计每类词所占频率。
11、根据权利要求10所述的装置，其特征在于，所述规则应用单元中进一步包括计算子单元以及确定子单元；所述计算子单元，用于将所述不同类词中的一类或一类以上词所占频率进行加权相加，得到分类权值；对所述统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N个词所占频率，将所述N 个词所占频率进行加权相加，得到词的权值；将所述分类权值和词的权值进行加权相加，得到总权值；其中，所述N值为预先设定；所述确定子单元，用于比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。
12、根据权利要求11所述的装置，其特征在于，所述一类或一类以上词为数字以及特殊美国信息交换标准码字符类词；所述N的取值为3。
13、根据权利要求11或12所述的装置，其特征在于，所述规则应用单元中进一步包括比较子单元，用于比较所述一类或一类以上词所占频率中的最大频率是否大于预先设置的第二阈值，如果是，则在所述计算子单元计算出的总权值的基础加上一个预先设置的值；同时比较所述排序后，排在第一位的词所占频率是否大于所述预先设置的第二阈值，如果是，则在所述计算子单元计算出的总权值的基础加上一个预先设置的值，并将相加后的结果发送给所述确定子单元；所述确定子单元比较所述相加后的结果是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。
14、根据权利要求9所述的装置，其特征在于，该装置中进一步包括清除单元或显示单元；所述清除单元，用于将所述规则应用单元中确定为垃圾信息的待检测原始信息清除；所述显示单元，用于将所述规则应用单元中确定为垃圾信息的待检测原始信息显示给用户，由所述用户确定是否清除所述待检测原始信息。
全文摘要
本发明实施例公开了一种垃圾信息检测方法，将待检测原始信息的语句切分成词；统计不同词所占频率，并对所述切分后的词进行分类，统计每类词所占频率；根据所述统计出的每类词所占频率以及不同词所占频率计算总权值；比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。本发明实施例同时公开了一种垃圾信息检测装置。应用本发明实施例所述的方法和装置，能够准确高效地检测出垃圾信息，并及时进行清除。
文档编号H04L12/58GK101197793SQ200710306379
公开日2008年6月11日申请日期2007年12月28日优先权日2007年12月28日
发明者刘大林申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘大林
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：自适应检测方法及装置的制作方法
上一篇：使用受控传输简档的数据传输方法和设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。