一种识别垃圾信息的方法和装置与流程

文档序号:11971068阅读:190来源:国知局
一种识别垃圾信息的方法和装置与流程
本发明实施例涉及信息识别技术领域,特别是涉及一种识别垃圾信息的方法和装置。

背景技术:
自互联网络创建以来,垃圾信息一直伴随着网络的发展而发展,从最初的垃圾邮件到目前社交网络中的垃圾留言、分享等,垃圾信息的形式越来越多。网络中充斥着各种垃圾信息,如广告、非法活动宣传、色情、辱骂等,这些垃圾信息会占用网络资源,极大的影响用户的体验。为了减少垃圾信息对用户的影响,反垃圾信息的过滤技术也在不断发展。目前,绝大部分网站都设有垃圾信息过滤的功能,如采用延时发布、人工审核、关键词过滤、利用某些算法智能识别等方法进行过滤。并且,随着网络信息量的不断增多,单纯的人工识别方法已经不能满足需求,因此,垃圾信息识别也越来倾向于自动化和智能化。目前,自动识别垃圾信息的方法主要是:根据预先设置的关键词库提取待识别信息的关键词,并根据这些关键词计算待识别信息为垃圾信息的概率,从而判断待识别信息是否为垃圾信息。但是,为了躲避审查,在发布信息时通常会对信息中的某些字词进行形式转换,从而使转换后字词的含义发生了变化,无法作为关键词存储在关键词库中,导致这些转换后的字词不能作为关键词被识别出来。因此,采用上述自动识别垃圾信息的方法很容易导致垃圾信息的漏判或者误判,识别的准确率较低。

技术实现要素:
本发明实施例提供了一种识别垃圾信息的方法和装置,能够减少垃圾信息的漏判或者误判,提高信息识别的准确率。为了解决上述问题,本发明实施例公开了一种识别垃圾信息的方法,其特征在于,包括:根据预先设置的对照表转换待识别信息;从转换后的待识别信息中提取关键词,其中,识别出所述转换后的待识别信息中的可变字符串,将同一类型的可变字符串确定为同一个关键词;从预先生成的第一关键词库中查找关键词对应的垃圾信息概率和非垃圾信息概率;依据关键词对应的垃圾信息概率和非垃圾信息概率确定待识别信息是否为垃圾信息。可选地,识别出转换后的待识别信息中的可变字符串,包括:利用正则表达式与转换后的待识别信息进行匹配,识别出转换后的待识别信息中的可变字符串。可选地,从转换后的待识别信息中提取关键词,还包括:判断转换后的待识别信息中是否存在至少一个与预先生成的第二关键词库中的关键词相同的词语,第二关键词库中包括至少一个关键词;若存在,则将至少一个与预先生成的第二关键词库中的关键词相同的词语确定为转换后的待识别信息的关键词。可选地,对照表包括:繁体字和简体字对照表,特殊字符和常用字符对照表,根据预先设置的对照表转换待识别信息,包括:获取待识别信息中的繁体字和特殊字符;从繁体字和简体字对照表中查找待识别信息中的繁体字,并将繁体字转换为简体字;从特殊字符和常用字符对照表中查找待识别信息中的特殊字符,并将特殊字符转换为常用字符。可选地,第一关键词库通过以下步骤生成:收集垃圾信息样本和非垃圾信息样本;分别根据预先设置的对照表转换垃圾信息样本和非垃圾信息样本;从转换后的垃圾信息样本和非垃圾信息样本中提取关键词;计算关键词出现在转换后的垃圾信息样本中的概率和出现在转换后的非垃圾信息样本中的概率;将关键词出现在转换后的垃圾信息样本中的概率作为关键词对应的垃圾信息概率,将关键词出现在转换后的非垃圾信息样本中的概率作为关键词对应的非垃圾信息概率;保存关键词,以及关键词对应的垃圾信息概率和非垃圾信息概率,生成第一关键词库。可选地,依据关键词对应的垃圾信息概率和非垃圾信息概率确定待识别信息是否为垃圾信息,包括:依据关键词对应的垃圾信息概率和非垃圾信息概率计算待识别信息为垃圾信息的概率;将待识别信息为垃圾信息的概率与预先设置的垃圾信息阈值进行比较;获取发布待识别信息的用户的行为记录,行为记录包括:违规行为或者可疑行为;根据比较结果和行为记录确定待识别信息是否为垃圾信息。可选地,根据比较结果和行为记录确定待识别信息是否为垃圾信息,包括:当待识别信息为垃圾信息的概率不小于垃圾信息阈值时,判断行为记录中是否存在违规行为或者可疑行为;若待识别信息为垃圾信息的概率不小于垃圾信息阈值时,行为记录中存在违规行为或者可疑行为,则确定待识别信息为垃圾信息,并在行为记录中将本次发布待识别信息的行为记录为违规行为;若待识别信息为垃圾信息的概率不小于垃圾信息阈值时,行为记录中不存在违规行为或者可疑行为,则调低待识别信息为垃圾信息的概率,并确定待识别信息为非垃圾信息,在行为记录中将本次发布待识别信息的行为记录为可疑行为;当待识别信息为垃圾信息的概率小于垃圾信息阈值时,判断行为记录中是否存在违规行为或者可疑行为;若待识别信息为垃圾信息的概率小于垃圾信息阈值时,行为记录中存在违规行为或者可疑行为,则调高待识别信息为垃圾信息的概率,并确定待识别信息为垃圾信息,在行为记录中将本次发布待识别信息的行为记录为违规行为;若待识别信息为垃圾信息的概率小于垃圾信息阈值时,行为记录中不存在违规行为或者可疑行为,则确定待识别信息为非垃圾信息,并在行为记录中将本次发布待识别信息的行为记录为正常行为。另一方面,本发明还公开了一种识别垃圾信息的装置,其特征在于,包括:信息转换模块,用于根据预先设置的对照表转换待识别信息;信息提取模块,用于从转换后的待识别信息中提取关键词;其中,识别出所述转换后的待识别信息中的可变字符串,将同一类型的可变字符串确定为同一个关键词;概率查找模块,用于从预先生成的第一关键词库中查找关键词对应的垃圾信息概率和非垃圾信息概率;信息判断模块,用于依据关键词对应的垃圾信息概率和非垃圾信息概率判断待识别信息是否为垃圾信息。可选地,信息提取模块包括:识别子模块,用于识别出所述转换后的待识别信息中的可变字符串;第一确定子模块,用于将同一类型的可变字符串确定为同一个关键词;其中,识别子模块利用正则表达式与转换后的待识别信息进行匹配,识别出转换后的待识别信息中的可变字符串。可选地,信息提取模块包括:关键词判断子模块,用于判断转换后的待识别信息中是否存在至少一个与预先生成的第二关键词库中的关键词相同的词语,第二关键词库中包括至少一个关键词;第二确定子模块,用于当判断子模块的判断结果为存在时,将至少一个与预先生成的第二关键词库中的关键词相同的词语确定为转换后的待识别信息的关键词。可选地,对照表包括:繁体字和简体字对照表,特殊字符和常用字符对照表,信息转换模块包括:获取子模块,用于获取待识别信息中的繁体字和特殊字符;转换子模块,用于从繁体字和简体字对照表中查找待识别信息中的繁体字,并将繁体字转换为简体字;从特殊字符和常用字符对照表中查找待识别信息中的特殊字符,并将特殊字符转换为常用字符。可选地,装置还包括:样本收集模块,用于收集垃圾信息样本和非垃圾信息样本;样本转换模块,用于分别根据预先设置的对照表转换垃圾信息样本和非垃圾信息样本;样本提取模块,用于从转换后的垃圾信息样本和非垃圾信息样本中提取关键词;概率计算模块,用于计算关键词出现在转换后的垃圾信息样本中的概率和出现在转换后的非垃圾信息样本中的概率,并将关键词出现在转换后的垃圾信息样本中的概率作为关键词对应的垃圾信息概率,将关键词出现在转换后的非垃圾信息样本中的概率作为关键词对应的非垃圾信息概率;生成模块,用于保存关键词,以及关键词对应的垃圾信息概率和非垃圾信息概率,生成第一关键词库。可选地,信息确定模块包括:计算子模块,用于依据关键词对应的垃圾信息概率和非垃圾信息概率计算待识别信息为垃圾信息的概率;比较子模块,用于将待识别信息为垃圾信息的概率与预先设置的垃圾信息阈值进行比较;记录获取子模块,用于获取发布待识别信息的用户的行为记录,行为记录包括:违规行为或者可疑行为;修正确定子模块,用于根据比较结果和行为记录确定所述待识别信息是否为垃圾信息。可选地,修正确定子模块包括:第一行为判断子单元,用于当待识别信息为垃圾信息的概率不小于垃圾信息阈值时,判断行为记录中是否存在违规行为或者可疑行为;第一修正确定子单元,用于当第一行为判断子单元的判断结果为存在时,确定待识别信息为垃圾信息,并在行为记录中将本次发布待识别信息的行为记录为违规行为;当第一行为判断子单元的判断结果为不存在时,调低待识别信息为垃圾信息的概率,并确定待识别信息为非垃圾信息,在行为记录中将本次发布待识别信息的行为记录为可疑行为;第二行为判断子单元,用于当待识别信息为垃圾信息的概率小于垃圾信息阈值时,判断行为记录中是否存在违规行为或者可疑行为;第二修正确定子单元,用于当第二行为判断子单元的判断结果为存在时,调高待识别信息为垃圾信息的概率,并确定待识别信息为垃圾信息,在行为记录中将本次发布待识别信息的行为记录为违规行为;当第二行为判断子单元的判断结果为不存在时,确定待识别信息为非垃圾信息,并在行为记录中将本次发布待识别信息的行为记录为正常行为。与背景技术相比,本发明实施例包括以下优点:首先,本发明实施例通过预先设置对照表,并根据该对照表对待识别信息进行转换,然后从转换后的待识别信息中提取关键词,再根据得到的关键词查找该关键词对应的垃圾信息概率和非垃圾信息概率,最后依据得到的概率对待识别信息进行判断。通过对待识别信息进行转换,可以避免由于发布信息时对信息中的某些字词进行形式转换而导致无法识别出某些关键词的情况,可以更加准确地识别出信息中的关键词,减少垃圾信息的漏判或误判。其次,本发明实施例还可以利用正则表达式匹配出待识别信息中的可变字符串,并将同一类型的可变字符串确定为同一个关键词。由于这些可变字符串出现在垃圾信息中的概率较高,因此结合可变字符串对应的关键词进行识别,可以进一步提高识别的准确率。再次,本发明实施例可以结合用户的行为记录进行识别,减少垃圾信息的漏判或者误判。附图说明图1是本发明实施例一提出的一种识别垃圾信息的方法的流程图;图2是本发明实施例二提出的一种识别垃圾信息的方法的流程图;图3是本发明实施例四提出的一种识别垃圾信息的装置的结构框图;图4是本发明实施例五提出的一种识别垃圾信息的装置的结构框图。具体实施方式为使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。本发明实施例中首先可以对待识别信息进行转换,然后从转换后的待识别信息中提取关键词,在提取关键词时,还可以匹配出待识别信息中的可变字符串,并将同一类型的可变字符串确定为同一个关键词,最后根据提取出的关键词判断待识别信息是否为垃圾信息。通过上述过程可以更加准确地识别出信息中的关键词,提高垃圾信息识别的准确率,降低误判率,减少对用户的伤害,增强用户体验。实施例一:目前,自动识别垃圾信息的方法主要是:根据预先设置的关键词库提取待识别信息的关键词,并根据这些关键词计算待识别信息为垃圾信息的概率,从而判断待识别信息是否为垃圾信息。但是,为了躲避审查,在发布信息时通常会对信息中的某些字词进行形式转换,从而使转换后字词的含义发生了变化,无法作为关键词存储在关键词库中,导致这些转换后的字词不能作为关键词被识别出来。因此,采用上述自动识别垃圾信息的方法很容易导致垃圾信息的漏判或者误判,识别的准确率较低。为了解决上述问题,本发明实施例提出了一种识别垃圾信息的方法,该方法可以通过对待识别信息进行转换,以解决上述问题。参照图1,示出了本发明实施例一提出的一种识别垃圾信息的方法的流程图,该方法可以包括:步骤101,根据预先设置的对照表转换待识别信息。由于在发布信息时通常会对信息中的某些字词进行形式转换,以躲避审查,例如,将信息中的某些简体字转换为繁体字,将常用字符转换为特殊字符,等等。这些转换后的字词含义发生了变化,无法作为有效关键词存储在关键词库中。因此,本发明实施例首先可以对待识别信息进行转换,从而使在发布信息时转换后的字词仍然可以作为有效的关键词而被识别。可以预先设置对照表,根据该对照表进行转换。例如,可以设置繁体字和简体字对照表、特殊字符和常用字符对照表、同音字对照表,等等,本发明实施例对此并不加以限制。步骤102,从转换后的待识别信息中提取关键词,其中,识别出转换后的待识别信息中的可变字符串,将同一类型的可变字符串确定为同一个关键。在经过上述步骤101对待识别信息进行转换之后,即可从转换后的待识别信息中提取关键词,然后再依据这些关键词进行判断。本发明实施例中,从转换后的待识别信息中提取关键词可以包括:子步骤1021,识别出转换后的待识别信息中的可变字符串;子步骤1022,将同一类型的可变字符串确定为同一个关键词。当然,提取关键词的过程还可以包括其它步骤,对于具体的过程将在下面的实施例中详细论述。步骤103,从预先生成的第一关键词库中查找上述关键词对应的垃圾信息概率和非垃圾信息概率。对于每一个关键词,其都可以对应一个垃圾信息概率和非垃圾信息概率。本发明实施例中,可以通过预先收集的样本提取关键词,计算该关键词对应的垃圾信息概率和非垃圾信息概率,并将关键词和该关键词对应的垃圾信息概率和非垃圾信息概率存储至第一关键词库。因此,在从转换后的待识别信息中提取出关键词之后,可以直接从上述第一关键词库中查找关键词对应的垃圾信息概率和非垃圾信息概率。步骤104,依据关键词对应的垃圾信息概率和非垃圾信息概率确定待识别信息是否为垃圾信息。在获得上述关键词对应的垃圾信息概率和非垃圾信息概率之后,即可依据这两个概率确定待识别信息是否为垃圾信息,对于具体的确定过程,将在下面的实施例中详细论述。本发明实施例通过预先设置对照表,并根据该对照表对待识别信息进行转换,然后从转换后的待识别信息中提取关键词,再根据得到的关键词查找该关键词对应的垃圾信息概率和非垃圾信息概率,最后依据得到的概率对待识别信息进行判断。通过对待识别信息进行转换,可以避免由于发布信息时对信息中的某些字词进行形式转换而导致无法识别出某些关键词的情况,可以更加准确地识别出信息中的关键词,减少垃圾信息的漏判或误判。实施例二:在本实施例二中,将对上述实施例一中的各个步骤进行详细介绍。参照图2,示出了本发明实施例二提出的一种识别垃圾信息的方法的流程图,该方法可以包括:步骤201,根据预先设置的对照表转换待识别信息。本发明实施例中,可以预先设置对照表,根据该对照表对待识别信息进行转换。例如,针对将简体字转换为繁体字,或者将常用字符转换为特殊字符的情况,可以设置繁体字和简体字对照表,特殊字符和常用字符对照表,则该步骤201可以包括:a1,获取待识别信息中的繁体字和特殊字符。例如,待识别信息为“逛淘寶,加QQ①②③④⑤⑥⑦⑧⑨”,则可以获取其中的繁体字“寶”,以及特殊字符“①”、“②”、“③”、“④”、“⑤”、“⑥”、“⑦”、“⑧”、“⑨”。a2,从繁体字和简体字对照表中查找待识别信息中的繁体字,并将该繁体字转换为简体字。查找繁体字和简体字对照表,从其中可以查到繁体字“寶”,则可以根据繁体字和简体字对照表中的对应关系,将繁体字“寶”转换为简体字“宝”。a3,从特殊字符和常用字符对照表中查找待识别信息中的特殊字符,并将该特殊字符转换为常用字符。查找特殊字符和常用字符对照表,从其中可以分别查到特殊字符“①”、“②”、“③”、“④”、“⑤”、“⑥”、“⑦”、“⑧”、“⑨”,则可以根据特殊字符和常用字符对照表中的对应关系,分别将特殊字符“①”、“②”、“③”、“④”、“⑤”、“⑥”、“⑦”、“⑧”、“⑨”转换为常用字符“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”。当然,待识别信息中还可以存在其他形式的转换,例如同音字转换(将“一夜情”转换成“一叶情”),不同叫法或昵称转换(例如,将“QQ”转换成“球球”或“企鹅”)等等。因此,本发明实施例中,并不限定于上述两种对照表,还可以包括其他形式的对照表,例如同音字对照表,则根据同音字对照表即可将上述“一叶情”转换成“一夜情”,等等,本发明实施例在此不再详细论述。步骤202,从转换后的待识别信息中提取关键词。对待识别信息进行转换之后,即可从转换后的待识别信息中提取关键词。本发明实施例中,所提取的关键词主要可以包括两种形式:从待识别信息中的常规词语得到的关键词和从待识别信息中的可变字符串得到的关键词。因此,该步骤202可以包括:b1,判断转换后的待识别信息中是否存在至少一个与预先生成的第二关键词库中的关键词相同的词语。首先,本发明实施例中可以预先生成一个第二关键词库,该第二关键词库中包括至少一个关键词。该关键词库可以是利用目前技术中用于识别垃圾信息的关键词库;优选地,本发明实施例中还可以在目前技术中用于识别垃圾信息的关键词库的基础上,进一步增加其中关键词的数量,将增加关键词数量后的关键词库作为本发明实施例中的第二关键词库。对于第二关键词库中的关键词可以通过选取语料库,对语料库进行分词得到,例如,可以采用字的N元词组做分词,等等。b2,若存在,则将上述至少一个与预先生成的第二关键词库中的关键词相同的词语确定为转换后的待识别信息的关键词。如果上述转换后的待识别信息中存在至少一个与预先生成的第二关键词库中的关键词相同的词语,则可以将这些与预先生成的第二关键词库中的关键词相同的词语确定为转换后的待识别信息的关键词。例如,转换后的待识别信息为“逛淘宝,加QQ123456789”,经过判断,上述第二关键词库中存在“淘宝”和“QQ”,则可以将“淘宝”和“QQ”确定为转换后的待识别信息的关键词。另外,上述转换后的待识别信息“逛淘宝,加QQ123456789”中还包括一个可变字符串123456789(QQ号)。对于这类可变字符串,其作为垃圾信息中的关键点,出现在垃圾信息中的概率较高。但是,在普通的分词过程中是无法识别出来的,即上述第二关键词库中可能并不包括可变字符串类的关键字,因此,通过上述步骤b1和b2无法提取出上述可变字符串。所以,本发明实施例中还提出了对上述可变字符串进行处理的过程,该步骤202还可以包括:b3,识别出转换后的待识别信息中的可变字符串。本发明实施例中,可以利用正则表达式与转换后的待识别信息进行匹配,从而识别出转换后的待识别信息中的可变字符串。当然,本领域技术人员还可以根据实际经验采用其他的方法识别上述可变字符串,本发明实施例对此并不加以限制。b4,将同一类型的可变字符串确定为同一个关键词。在识别出上述可变字符串之后,即可将同一类型的可变字符串确定为同一个关键词。例如,将识别出的所有QQ号均确定为同一个关键词“_QQ号”,将识别出的所有手机号均确定为同一个关键词“_手机号”,将识别出的所有统一资源定位符(UniformResourceLocator,URL)均确定为同一个关键词“_URL”,将识别出的所有邮箱均确定为同一个关键词“_邮箱”,等等。步骤203,从预先生成的第一关键词库中查找关键词对应的垃圾信息概率和非垃圾信息概率。本发明实施例中,首先可以预先生成一个第一关键词库,该第一关键词库中保存有多个关键词和每个关键词对应的垃圾信息概率和非垃圾信息概率。上述第一关键词库可以通过以下步骤生成:c1,收集垃圾信息样本和非垃圾信息样本。c2,分别根据预先设置的对照表转换垃圾信息样本和非垃圾信息样本。本发明实施例中,对于样本的转换过程可以与上述待识别信息的转换过程相似。例如,该步骤c2可以包括:c21,分别获取垃圾信息样本和非垃圾信息样本中的繁体字和特殊字符;c22,从繁体字和简体字对照表中查找垃圾信息样本和非垃圾信息样本中的繁体字,并将上述繁体字转换为简体字;c23,从特殊字符和常用字符对照表中查找垃圾信息样本和非垃圾信息样本中的特殊字符,并将上述特殊字符转换为常用字符。同样的,还可以对于垃圾信息样本和非垃圾信息样本中的同音字等进行转换,本发明实施例在此不再详细论述。c3,从转换后的垃圾信息样本和非垃圾信息样本中提取关键词。对于从转换后的垃圾信息样本和非垃圾信息样本中提取关键词的过程可以与上述从转换后的待识别信息中提取关键词的过程相似。例如,该步骤c3可以包括:c31,判断上述预先生成的第二关键词库中是否存在转换后的垃圾信息样本和非垃圾信息样本中的一个或多个词语,第二关键词库中包括多个关键词;c32,若存在,则将上述一个或多个词语作为转换后的垃圾信息样本和非垃圾信息样本的关键词;c33,利用正则表达式与转换后的垃圾信息样本和非垃圾信息样本进行匹配,识别出转换后的垃圾信息样本和非垃圾信息样本中的可变字符串;c34,将同一类型的可变字符串确定为同一个关键词。c4,计算关键词出现在转换后的垃圾信息样本中的概率和出现在转换后的非垃圾信息样本中的概率。c5,将关键词出现在转换后的垃圾信息样本中的概率作为关键词对应的垃圾信息概率,将关键词出现在转换后的非垃圾信息样本中的概率作为关键词对应的非垃圾信息概率。c6,保存关键词,以及该关键词对应的垃圾信息概率和非垃圾信息概率,生成第一关键词库。经过上述步骤202提取出关键词之后,即可直接从上述第一关键词库中查找该关键词对应的垃圾信息概率和非垃圾信息概率。步骤204,依据关键词对应的垃圾信息概率和非垃圾信息概率计算待识别信息为垃圾信息的概率。根据关键词对应的垃圾信息概率和非垃圾信息概率可以计算出待识别信息为垃圾信息的概率,对于具体的计算过程,将在下面的实施例中详细论述。步骤205,将待识别信息为垃圾信息的概率与预先设置的垃圾信息阈值进行比较。步骤206,根据比较结果确定待识别信息是否为垃圾信息。本发明实施例中,可以预先设置一个垃圾信息阈值(例如,可以设置为0.9),在得到待识别信息为垃圾信息的概率之后,可以将待识别信息为垃圾信息的概率与垃圾信息阈值进行比较,然后根据比较结果进行确定。该步骤206可以包括:d1,当待识别信息为垃圾信息的概率不小于预先设置的垃圾信息阈值时,确定待识别信息为垃圾信息。d2,当待识别信息为垃圾信息的概率小于预先设置的垃圾信息阈值时,确定待识别信息为非垃圾信息。优选的,本发明实施例在比较待识别信息为垃圾信息的概率与预先设置的垃圾信息阈值之后,还可以结合用户的行为记录对待识别信息进行判断。在此情况下,该步骤206可以包括:e1,获取发布待识别信息的用户的行为记录。e2,根据比较结果和行为记录判断待识别信息是否为垃圾信息。其中,行为记录可以包括:违规行为或者可疑行为。例如,在得出比较结果之后,可以结合该用户之前是否有违规行为或者可疑行为判断待识别信息是否为垃圾信息。对于具体的判断过程,将在下面的实施例中详细论述。本发明实施例可以利用正则表达式匹配出待识别信息中的可变字符串,并将同一类型的可变字符串确定为同一个关键词。由于这些可变字符串出现在垃圾信息中的概率较高,因此结合可变字符串对应的关键词进行识别,可以进一步提高识别的准确率。另外,本发明实施例还可以结合用户的行为记录进行识别,减少垃圾信息的漏判或者误判。实施例三:本发明实施例中的识别垃圾信息的方法可以包括以下几个过程:1、建立普通关键词库(即上述实施例一和实施例二中的第二关键词库)随着信息的不断变化,信息中会出现大量新的词语,例如“淘宝”,“手机”,“艳照”等词语都是最近才兴起的。如果使用比较旧或者词汇量比较少的关键词库,其中可能没有这些词语,所以对于待识别信息无法切分出这些关键词,那么对于主题是这些词语的垃圾信息就很难做出有效的识别。因此,本发明实施例中,可以在目前的关键词库中增加关键词的数量,以更好地提取出更多有效的关键词。可以人工输入关键词,也可以通过服务器连接网络后自动去采集(例如,当服务器发现某一组连续相邻的字在新的语料库或网络日志中大量出现而未在词库中登记时,那么可以假定该连续相邻的字为新的关键词,添加到目前的关键词库中)。优选地,本发明实施例中可以通过以下步骤建立普通关键词库:A1,准备语料库。首先,可以获取包含最新出现的一些词语的语料库。A2,基于字的N元词组进行分词,选取候选词语。由于单个汉字的含义是多变的,也不够具体,需要放在不同的词语和语境下才有具体的含义。所以对语料库的处理的第一步就是分词,提取其中的关键词,关键词的含义要比单个的字明确的多,更利于智能识别。例如,对于语料“中文新词识别”,若按字的2元词组做分词,则结果为:中文/,文新/,新词/,词识/,识别/。按字的N元词组类似,一般2<=N<=4。分词之后,可以取出目前关键词库中已有的词语,将剩余的词语作为候选词语。A3,统计候选词语的词频(该词语在所有语料库中出现的次数),将词频大于某个阈值(如出现10次)的词语加入到待审词库。A4,人工审核。在得出待审词库后,可以进一步通过人工审核待审词库,确保其中的词语更加准确。审核之后,可以将人工审核后的待审词库和目前的关键词库合并作为普通关键词库(即上述实施例一和实施例二中的第二关键词库)。当然,本发明实施例也可以不通过人工审核,直接将步骤A3中的待审词库和目前的关键词库合并作为普通关键词库,本发明实施例对此并不加以限制。2、建立第一关键词库通过对大量垃圾信息的总结,垃圾信息中往往为会利用文字的变形、简繁体、音同义不同,字行类似、不同叫法或者昵称等方法手段躲避审查。例如:在发布信息时,“QQ”会被替换为“球球”或“企鹅”,“123456789”会被替换为①②③④⑤⑥⑦⑧⑨,“一夜情”被替换“一叶情”等。因为这些词在被替换时含义发生了变化,已经不能被称为一个有效的词组,所以上述普通关键词库是无法包含的,但是用户又往往能从这些变形的词语中读出原本要表达的语义,这给垃圾信息的识别带来了很大的困难。因此,针对目前信息中存在形式转换的情况,本发明实施例中可以收集一些存在这种情况的垃圾信息样本和非垃圾信息样本,然后对这些样本进行分析,建立第一关键词库。优选地,本发明实施例中可以通过以下步骤建立第一关键词库:B1,收集垃圾信息样本和非垃圾信息样本。B2,分别对垃圾信息样本和非垃圾信息样本进行转换。例如,将繁体全部转换为简体,将特殊字符①②③④⑤⑥⑦⑧⑨转换为常用字符123456789等。B3,从转换后的垃圾信息样本和非垃圾信息样本中提取关键词。首先,可以通过上述普通关键词库提取关键词。即如果普通关键词库中存在垃圾信息样本和非垃圾信息样本中的一个或多个词语,则可以将这一个或多个词语作为关键词。本发明实施例中,也可以进一步对上述提取出的关键词进行人工审核。并且可以将那些未经过转换的关键词作为普通关键词存储,将那些经过转换的关键词作为特殊关键词存储,并且特殊关键词出现在垃圾信息的概率会比较大。例如,由于“QQ”、“球球”和“企鹅”均会作为同一个特殊关键词“QQ”,则该特殊关键词出现在垃圾信息的概率比普通关键词概率要大。其次,本发明实施例中,还可以对垃圾信息样本和非垃圾信息样本中的可变字符串进行处理。例如,URL、手机号、QQ号、邮箱等可变字符串都是垃圾信息里非常重要的关键点,在垃圾信息里出现的概率要比非垃圾信息中的概率高的多。但是因为这些字符串是不固定的,所以在普通的分词过程中是无法识别出来的。本发明实施例可以采用正则表达式与垃圾信息样本和非垃圾信息样本做匹配,从而匹配出符合URL、手机号、QQ号、邮箱等的字符串。然后将识别出来的同一类型的可变字符串确定为同一个关键词。例如,如果经过匹配,得出垃圾信息样本和非垃圾信息样本中的几个URL分别为:“http://www.xxx.com?1123”、“http://www.xxx.com?2321”和“http://www.xxx.com?3412”,虽然是不同的URL地址,但是如果将每个不同的URL都作为单独的一个关键词,会降低URL的概率,所以把所有的URL都作为一个固定的关键词“_URL”,就是说每识别出一个URL就相当于出现了一个关键词“_URL”,关键词“_URL”出现的频率被加一。同样,对于手机号、邮箱、QQ号也做相似处理,如将所有的手机号都对应特定关键词“_手机号”,所有邮箱都对应“_邮箱”,所有的QQ号都对应“_QQ号”等,本发明实施例在此不再详细论述。B4,计算关键词对应的垃圾信息概率和非垃圾信息概率。本发明实施例中,可以将关键词出现在转换后的垃圾信息样本中的概率作为关键词对应的垃圾信息概率,将关键词出现在转换后的非垃圾信息样本中的概率作为关键词对应的非垃圾信息概率。例如,垃圾信息样本和非垃圾信息样本分别有4000个,对于关键词“QQ”,在4000个垃圾信息样本中,有200个包含这个关键词,那么“QQ”的垃圾信息概率就是5%;而在4000个非垃圾信息样本中,只有2个包含这个关键词,那么“QQ”的非垃圾信息概率就是0.05%。B5,将关键词和该关键词对应的垃圾信息概率和非垃圾信息概率保存,生成第一关键词库。3、提取待识别信息中的关键词与上述提取垃圾信息样本和非垃圾信息样本的关键词的过程相似。首先,对待识别信息进行转换,然后从转换后的待识别信息中提取关键词(其中包括根据普通关键词库提取关键词和根据可变字符串提取关键词)。对于具体的过程,参照上述相关描述即可,本发明实施例在此不再详细论述。4、计算待识别信息为垃圾信息的概率对于一条待识别信息,在未经统计分析之前,可以假定它是垃圾信息的概率为50%。如果用S(spam)表示垃圾信息,H(healthy)表示非垃圾信息,待识别信息为垃圾信息的先验概率为P(S),待识别信息为非垃圾信息的先验概率为P(H),则:P(S)=P(H)=50%然后,对这条待识别信息进行解析,发现其中包含了“QQ”这个关键词,用W表示“QQ”这个关键词,用P(S|W)表示在关键词W已经存在的条件下,待识别信息为垃圾信息的概率。则根据条件概率公式,可以得出:其中,P(W|S)为关键词W对应的垃圾信息概率,P(W|H)为关键词W对应的非垃圾信息概率。分别针对待识别信息中的关键词进行如上计算,然后取出其中P(S|W)最高的N个(例如15个),计算它们的联合概率。需要说明的是,如果有的关键词词是第一次出现,没有在第一关键词库中,则可以假定P(S|W)等于0.4,因为垃圾信息用的往往都是某些固定的词语,所以某个词从未出现,则其可能是一个正常的词。所谓联合概率,就是指在多个事件发生的情况下,另一个事件发生概率有多大。比如,已知W1和W2是两个不同的词语,它们都出现在某条信息之中,那么这条信息是垃圾信息的概率,就是联合概率。在已知W1和W2的情况下,无非就是两种结果:垃圾信息(事件E1)或非垃圾信息(事件E2),则有如下表一:事件W1W2垃圾信息E1出现出现是E2出现出现不是表一则上述表一中的参数对应的概率如表二所示:事件W1W2垃圾信息E1P(S|W1)P(S|W2)P(S)E21-P(S|W1)1-P(S|W2)1-P(S)表二如果假定所有事件都是独立事件,那么就可以计算事件E1发生的概率P(E1)和事件E2发生的概率P(E2):P(E1)=P(S|W1)P(S|W2)P(S)P(E2)=(1-P(S|W1))(1-P(S|W2))(1-P(S))又由于在E1和E2已经发生的情况下,待识别信息为垃圾信息的概率P为:即:将P(S)=0.5代入,得到:将P(S|W1)记为P1,P(S|W1)记为P2,公式就变成:公式1上述公式1即为联合概率的计算公式。将公式1扩展到N个关键词的情况,就得到了最终的待识别信息为垃圾信息的概率P的计算公式:最后将该联合概率作为待识别信息为垃圾信息的概率。5、判断待识别信息是否为垃圾信息本发明实施例中可以设置一个垃圾信息阈值(例如0.9),然后将上述待识别信息为垃圾信息的概率与垃圾信息阈值进行比较。可以包括以下两种判断方法:(1)仅根据比较结果进行判断如果待识别信息为垃圾信息的概率不小于预先设置的垃圾信息阈值,则确定待识别信息为垃圾信息;如果待识别信息为垃圾信息的概率小于预先设置的垃圾信息阈值,则确定待识别信息为非垃圾信息。(2)结合用户的行为记录进行判断在将上述待识别信息为垃圾信息的概率与垃圾信息阈值进行比较之后,可以进一步获取发布待识别信息的用户的行为记录,根据比较结果和行为记录判断待识别信息是否为垃圾信息。优选地,根据比较结果和行为记录判断待识别信息是否为垃圾信息,可以包括:C1,当待识别信息为垃圾信息的概率不小于(即大于或等于)垃圾信息阈值时,判断行为记录中是否存在违规行为或者可疑行为。若存在,则执行步骤C2;若不存在,则执行步骤C3。C2,确定待识别信息为垃圾信息,并在行为记录中将本次发布待识别信息的行为记录为违规行为。C3,调低待识别信息为垃圾信息的概率,并确定待识别信息为非垃圾信息,在行为记录中将本次发布待识别信息的行为记录为可疑行为。如果待识别信息为垃圾信息的概率超过了垃圾信息阈值,但是用户的行为记录中并没有什么异常(用户的行为可以指发表帖子评论、上传头像、加好友等,而异常行为如用户在1分钟之内发布了100条评论、相同的评论内容连续评论了20个不同帖子等行为),则可以将本次发布的待识别信息为垃圾信息的概率调低,并在用户的行为记录里记为可疑行为(计入的内容可以包括用户的ID、发布时间、发布的内容,为垃圾信息的概率,处理结果等等),当之后多次出现这样的情况时再做处理(比如禁止用户发布信息,将用户禁言,禁止用户登陆,删除用户账号等)。C4,当待识别信息为垃圾信息的概率小于垃圾信息阈值时,判断行为记录中是否存在违规行为或者可疑行为。若存在,则执行步骤C5;若不存在,则执行步骤C6。C5,调高待识别信息为垃圾信息的概率,并确定待识别信息为垃圾信息,在行为记录中将本次发布待识别信息的行为记录为违规行为。如果待识别信息为垃圾信息的概率没有超过垃圾信息阈值,那么再结合用户的行为记录,发现记录中已经有多次违规行为或者可疑行为出现,那么就可以调高作为待识别信息为垃圾信息的概率,认为这是一条垃圾信息,并记录为违规行为。C6,确定待识别信息为非垃圾信息,并在行为记录中将本次发布待识别信息的行为记录为正常行为。本发明实施例通过对待识别信息进行转换,可以更加准确地从转换后的待识别信息中识别出关键词,同时通过对可变字符串的处理,以及结合用户的行为记录进行处理,可以进一步提高垃圾信息识别的准确率,降低误判率,减少对用户的伤害,增强用户体验。需要说明的是,对于前述各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必需的。实施例四:参照图3,示出了本发明实施例四提出的一种识别垃圾信息的装置的结构框图。该装置可以包括:信息转换模块301、信息提取模块302、概率查找模块303和信息判断模块304。其中,信息转换模块301,用于根据预先设置的对照表转换待识别信息;信息提取模块302,用于从转换后的待识别信息中提取关键词,其中,识别出所述转换后的待识别信息中的可变字符串,将同一类型的可变字符串确定为同一个关键词;概率查找模块303,用于从预先生成的第一关键词库中查找关键词对应的垃圾信息概率和非垃圾信息概率;信息确定模块304,用于依据关键词对应的垃圾信息概率和非垃圾信息概率确定待识别信息是否为垃圾信息。该信息提取模块302可以包括:识别子模块3021,用于识别出转换后的待识别信息中的可变字符串;第一确定子模块3022,用于将同一类型的可变字符串确定为同一个关键词。其中,识别子模块3021可以利用正则表达式与转换后的待识别信息进行匹配,识别出所述转换后的待识别信息中的可变字符串。较佳的,信息提取模块302可以包括:关键词判断子模块,用于判断转换后的待识别信息中是否存在至少一个与预先生成的第二关键词库中的关键词相同的词语,第二关键词库中包括至少一个关键词;第二确定子模块,用于当判断子模块的判断结果为存在时,将至少一个与预先生成的第二关键词库中的关键词相同的词语确定为所述转换后的待识别信息的关键词。较佳的,对照表包括:繁体字和简体字对照表,特殊字符和常用字符对照表,信息转换模块包括:获取子模块,用于获取所述待识别信息中的繁体字和特殊字符;转换子模块,用于从所述繁体字和简体字对照表中查找所述待识别信息中的繁体字,并将所述繁体字转换为简体字;从所述特殊字符和常用字符对照表中查找所述待识别信息中的特殊字符,并将所述特殊字符转换为常用字符。较佳的,该装置还包括:样本收集模块,用于收集垃圾信息样本和非垃圾信息样本;样本转换模块,用于分别根据所述预先设置的对照表转换所述垃圾信息样本和非垃圾信息样本;样本提取模块,用于从转换后的垃圾信息样本和非垃圾信息样本中提取关键词;概率计算模块,用于计算所述关键词出现在转换后的垃圾信息样本中的概率和出现在转换后的非垃圾信息样本中的概率,并将所述关键词出现在转换后的垃圾信息样本中的概率作为所述关键词对应的垃圾信息概率,将所述关键词出现在转换后的非垃圾信息样本中的概率作为所述关键词对应的非垃圾信息概率;生成模块,用于保存所述关键词,以及所述关键词对应的垃圾信息概率和非垃圾信息概率,生成第一关键词库。较佳的,信息确定模块包括:计算子模块,用于依据所述关键词对应的垃圾信息概率和非垃圾信息概率计算所述待识别信息为垃圾信息的概率;比较子模块,用于将所述待识别信息为垃圾信息的概率与预先设置的垃圾信息阈值进行比较;记录获取子模块,用于获取发布所述待识别信息的用户的行为记录,所述行为记录包括:违规行为或者可疑行为;修正确定子模块,用于根据比较结果和所述行为记录确定所述待识别信息是否为垃圾信息。较佳的,修正确定子模块包括:第一行为判断子单元,用于当所述待识别信息为垃圾信息的概率不小于所述垃圾信息阈值时,判断所述行为记录中是否存在违规行为或者可疑行为;第一修正确定子单元,用于当第一行为判断子单元的判断结果为存在时,确定所述待识别信息为垃圾信息,并在行为记录中将本次发布所述待识别信息的行为记录为违规行为;当第一行为判断子单元的判断结果为不存在时,调低所述待识别信息为垃圾信息的概率,并确定所述待识别信息为非垃圾信息,在行为记录中将本次发布所述待识别信息的行为记录为可疑行为;第二行为判断子单元,用于当所述待识别信息为垃圾信息的概率小于所述垃圾信息阈值时,判断所述行为记录中是否存在违规行为或者可疑行为;第二修正确定子单元,用于当第二行为判断子单元的判断结果为存在时,调高所述待识别信息为垃圾信息的概率,并确定所述待识别信息为垃圾信息,在行为记录中将本次发布所述待识别信息的行为记录为违规行为;当第二行为判断子单元的判断结果为不存在时,确定所述待识别信息为非垃圾信息,并在行为记录中将本次发布所述待识别信息的行为记录为正常行为本发明实施例中首先可以对待识别信息进行转换,然后从转换后的待识别信息中提取关键词,在提取关键词时,还可以匹配出待识别信息中的可变字符串,并将同一类型的可变字符串确定为同一个关键词,最后根据提取出的关键词判断待识别信息是否为垃圾信息。通过上述过程可以更加准确地识别出信息中的关键词,提高垃圾信息识别的准确率,降低误判率,减少对用户的伤害,增强用户体验。实施例五:参照图4,示出了本发明实施例五提出的一种识别垃圾信息的装置的结构框图。该装置可以包括:样本收集模块401、样本转换模块402、样本提取模块403、概率计算模块404、生成模块405、信息转换模块406、信息提取模块407、概率查找模块408和信息判断模块409。其中,样本收集模块401,用于收集垃圾信息样本和非垃圾信息样本;样本转换模块402,用于分别根据预先设置的对照表转换垃圾信息样本和非垃圾信息样本;样本提取模块403,用于从转换后的垃圾信息样本和非垃圾信息样本中提取关键词;概率计算模块404,用于计算关键词出现在转换后的垃圾信息样本中的概率和出现在转换后的非垃圾信息样本中的概率,并将关键词出现在转换后的垃圾信息样本中的概率作为关键词对应的垃圾信息概率,将关键词出现在转换后的非垃圾信息样本中的概率作为关键词对应的非垃圾信息概率;生成模块405,用于保存关键词,以及关键词对应的垃圾信息概率和非垃圾信息概率,生成第一关键词库;信息转换模块406,用于根据预先设置的对照表转换待识别信息;上述对照表可以包括:繁体字和简体字对照表,特殊字符和常用字符对照表。当然,还可以包括其他形式的对照表(如同音字对照表等),本发明实施例对此并不加以限制。信息转换模块406可以包括:获取子模块4061,用于获取待识别信息中的繁体字和特殊字符;转换子模块4062,用于从繁体字和简体字对照表中查找待识别信息中的繁体字,并将繁体字转换为简体字;从特殊字符和常用字符对照表中查找待识别信息中的特殊字符,并将特殊字符转换为常用字符。信息提取模块407,用于从转换后的待识别信息中提取关键词;信息提取模块407可以包括:识别子模块4071,用于识别出转换后的待识别信息中的可变字符串;本发明实施例中,该识别子模块可以利用正则表达式与转换后的待识别信息进行匹配,识别出转换后的待识别信息中的可变字符串。第一确定子模块4072,用于将同一类型的可变字符串确定为同一个关键词;关键词判断子模块4073,用于判断转换后的待识别信息中是否存在至少一个与预先生成的第二关键词库中的关键词相同的词语,第二关键词库中包括至少一个关键词;第二确定子模块4074,用于当判断子模块的判断结果为存在时,将上述至少一个与预先生成的第二关键词库中的关键词相同的词语确定为转换后的待识别信息的关键词。概率查找模块408,用于从预先生成的第一关键词库中查找关键词对应的垃圾信息概率和非垃圾信息概率;信息判断模块409,用于依据关键词对应的垃圾信息概率和非垃圾信息概率判断待识别信息是否为垃圾信息。信息判断模块409可以包括:计算子模块4091,用于依据关键词对应的垃圾信息概率和非垃圾信息概率计算待识别信息为垃圾信息的概率;比较子模块4092,用于将待识别信息为垃圾信息的概率与预先设置的垃圾信息阈值进行比较;记录获取子模块4093,用于获取发布待识别信息的用户的行为记录,该行为记录可以包括:违规行为或者可疑行为;修正判断子模块4094,用于根据比较结果和行为记录判断待识别信息是否为垃圾信息。其中,修正判断子模块4094可以包括:第一行为判断子单元,用于当待识别信息为垃圾信息的概率不小于垃圾信息阈值时,判断行为记录中是否存在违规行为或者可疑行为;第一修正确定子单元,用于当第一行为判断子单元的判断结果为存在时,确定待识别信息为垃圾信息,并在行为记录中将本次发布待识别信息的行为记录为违规行为;当第一行为判断子单元的判断结果为不存在时,调低待识别信息为垃圾信息的概率,并确定待识别信息为非垃圾信息,在行为记录中将本次发布待识别信息的行为记录为可疑行为;第二行为判断子单元,用于当待识别信息为垃圾信息的概率小于垃圾信息阈值时,判断行为记录中是否存在违规行为或者可疑行为;第二修正确定子单元,用于当第二行为判断子单元的判断结果为存在时,调高待识别信息为垃圾信息的概率,并确定待识别信息为垃圾信息,在行为记录中将本次发布待识别信息的行为记录为违规行为;当第二行为判断子单元的判断结果为不存在时,确定待识别信息为非垃圾信息,并在行为记录中将本次发布待识别信息的行为记录为正常行为。本发明实施例对待识别信息进行转换,可以避免由于发布信息时对信息中的某些字词进行形式转换而导致无法识别出某些关键词的情况,可以更加准确地识别出信息中的关键词,减少垃圾信息的漏判或误判。其次,本发明实施例还可以利用正则表达式匹配出待识别信息中的可变字符串,并将同一类型的可变字符串确定为同一个关键词。由于这些可变字符串出现在垃圾信息中的概率较高,因此结合可变字符串对应的关键词进行识别,可以进一步提高识别的准确率。再次,本发明实施例可以结合用户的行为记录进行识别,减少垃圾信息的漏判或者误判。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。以上对本发明所提供的一种识别垃圾信息的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1