短消息的过滤方法和设备的制作方法

文档序号:7897632阅读:240来源:国知局
专利名称:短消息的过滤方法和设备的制作方法
技术领域
本发明涉及电子信息技术领域,特别是涉及一种短消息的过滤方法和设备。
背景技术
短信是人们经常使用的信息交流方式之一,与此同时,垃圾短信也开始逐步泛滥。 统计显示,在数量庞大的短信中,约30%属于垃圾短信。对普通用户而言,垃圾短信严重干 扰日常生活;对运营商而言,垃圾短信占据大量流量空间,降低信息传送效率。目前最通用的一种垃圾短信过滤方法是基于敏感词和串匹配的方法,该方法通过 在服务器端布置敏感词表并通过模式匹配的方法来过滤垃圾短信。然而,这种方法的“误杀 率”较高,且通过敏感词列举的方式无法穷尽所有的敏感词形式,这种方法始终滞后于垃圾 短信的传播。现有技术还提出了一种基于分类模型的垃圾短信的过滤方法,这种方法通过把短 信分割为独立的部分,计算这些部分与类别的关系来判断短信是否为垃圾短信。这种基于 内容比较的方法可以一定程度上避开敏感词过滤的缺陷,从整体内容上判断短信是否为垃 圾短信。然而,现有的基于分类模型的垃圾短信的过滤方法也存在不少不足之处,例如,主 流的分类模型,如支持向量机模型、贝叶斯模型和最大熵模型等,往往需要构建一定规模的 训练语料库来得到分类用的参数,训练语料库规模较小时,分类的准确率较低,而为了构建 一定规模的训练语料库,又需要花费极大的代价,成本过高;并且,垃圾短信的发送者会不 断对垃圾短信进行变形或增加新型的垃圾短信,以避开消息过滤机制,而现有基于分类模 型的垃圾短信过滤方法只能对已出现过的垃圾短信具有过滤效果,而无法过滤未曾出现过 的垃圾短信,无法灵活应对垃圾短信的变化,过滤准确率较低。

发明内容
本发明提供了一种短消息的过滤方法和设备,能够灵活应对不断变化的垃圾消 息,提高了分类模型的分类精度和对垃圾消息的过滤准确率,且无需为分类模型额外构建 训练语料库,降低了成本。为达到上述目的,本发明的技术方案是这样实现的本发明实施例公开了一种短消息的过滤方法,包括利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括 垃圾消息和正常消息;当所述短消息的类别为垃圾消息时,过滤所述短消息;当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应 于所述短消息的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果 为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执 行下一次的过滤流程。
本发明实施例还公开了一种短消息的过滤设备,包括分类模型判断单元,用于利用当前的分类模型对接收到的短消息的类别进行判 断,所述短消息的类别包括垃圾消息和正常消息;垃圾消息过滤单元,用于当所述短消息的类别为垃圾消息时,过滤所述短消息;指纹分析及参数更新单元,用于当所述短消息的类别为正常消息时,对所述短消 息进行文本指纹提取,得到对应于所述短消息基本内容的指纹信息;根据所述指纹信息确 认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模 型进行更新,以利用更新后的分类模型执行下一次的过滤流程。由上所述,本发明实施例的技术方案,通过文本指纹分析提取反映短消息基本内 容的指纹信息,能够不断截获各种新型的垃圾消息和已有垃圾消息的变形;并且,将新增的 垃圾消息作为训练数据增量对分类模型进行训练,对所采用的分类模型进行实时动态的更 新,能够不断提高分类模型分类的准确率和精度。本发明实施例的技术方案不但能够灵活 应对不断变化的垃圾消息,提高了过滤准确率,且无需为分类模型额外构建训练语料库,降 低了成本。实验证明,本发明实施例的技术方案对垃圾消息的过滤具有很好的效果,垃圾消 息的过滤准确率达到99. 11%,算法复杂度也较低,满足了实际的需求。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。图1为本发明实施例一提供的一种短消息的过滤方法流程示意图;图2(a)为一般贝叶斯模型的结构示意图;图2(b)为本发明实施例采用的朴素贝叶斯模型的结构示意图;图3为本发明实施例二提供的一种文本指纹分析方法流程示意图;图4为本发明实施例三提供的一种短消息的过滤设备结构示意图。
具体实施例方式下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发 明保护的范围。本发明实施例一提供了一种短消息的过滤方法,参见图1,所述方法包括11 利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别 包括垃圾消息和正常消息;12 当所述短消息的类别为垃圾消息时,过滤所述短消息;13:当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对 应于所述短消息基本内容的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核 且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。进一步的,上述分类模型可以采用朴素贝叶斯模型,并且由于朴素贝叶斯模型只 是一种理论上比较完美的模型,为了使该分类模型适用于实际的环境,本发明实施例还采 用了为该分类模型中取值为零的参数重新赋值的“平滑”处理,忽略单字词对短消息分类的 影响以及通过短消息中字符串与类别的似然值的差值是否超过一定阈值来判断该短消息 是否为垃圾消息的规则判断法。由上所述,本发明实施例的技术方案,通过文本指纹分析提取反映短消息基本内 容的指纹信息,能够不断截获各种新型的垃圾消息和已有垃圾消息的变形;并且,将新增的 垃圾消息作为训练数据增量对分类模型进行训练,对所采用的分类模型进行实时动态的更 新,能够不断提高分类模型分类的准确率和精度。本发明实施例的技术方案不但能够灵活 应对不断变化的垃圾消息,提高了过滤准确率,且无需为分类模型额外构建训练语料库,降 低了成本。实验证明,本发明实施例的技术方案对垃圾消息的过滤具有很好的效果,垃圾消 息的过滤准确率达到99. 11%,算法复杂度也较低,满足了实际的需求。下面对本发明实施例二提供的短消息的过滤方法进行说明。11 利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别 包括垃圾消息和正常消息。在本发明实施例中,仅以短消息的类别包括垃圾消息(不正常消息)和正常消息 两种类别为例进行说明,可以理解,对于需要细化短消息类别的场景,如将短消息的类别进 一步细化为包括垃圾消息、正常消息、广告消息和获奖消息等,同样适用于本发明实施例的 技术方案。本发明实施例采用的分类模型为朴素贝叶斯模型,为了更加清楚地说明本发明实 施例的技术方案,下面对贝叶斯模型的一些相关技术特征进行说明。假设短消息χ可以分为m个类别,则定义消息类别集合C = Ic1, K,cm},m之2。给定短消息X,判定其所属的最优消息类别5可以表示为
权利要求
1.一种短消息的过滤方法,其特征在于,所述方法包括利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括垃圾 消息和正常消息;当所述短消息的类别为垃圾消息时,过滤所述短消息;当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所 述短消息基本内容的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核 结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模 型执行下一次的过滤流程。
2.根据权利要求1所述的方法,其特征在于,所述对所述短消息进行文本指纹提取,得 到对应于所述短消息的指纹信息包括根据预定的过滤信息对所述短消息进行静态过滤,得到第一提取消息; 对所述第一提取消息进行分词,得到第二提取消息,所述第二提取消息中包括至少两 个字符串;对所述第二提取消息通过词性计算进行动态过滤,得到第三提取消息; 按照消息摘要算法第五版MD5计算所述第三提取消息的MD5值,将该MD5值作为所述 短消息的指纹信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述第二提取消息通过词性计算 进行动态过滤,得到第三提取消息包括将词性分为包括保留词性和不保留词性的至少两种类别;为各个词性设置相应的权重值,其中,为所述保留词性设置的权重值大于为所述不保 留词性设置的权重值;对所述第二提取消息中具有多种词性的字符串,利用所述各词性的类别以及相应的权 重值计算所述字符串的词性判决量;根据所述词性判决量去除或者保留所述第二提取消息中的字符串,得到第三提取消肩、ο
4.根据权利要求2所述的方法,其特征在于,所述根据所述指纹信息确认需要对所述 短消息进行审核且审核结果为垃圾消息包括将所述短消息的MD5值与已经收集到的MD5值进行比对,当所述短消息的MD5值所出 现的总次数超过预定阈值时,确认需要对所述短消息进行审核。
5.根据权利要求1所述的方法,其特征在于,利用朴素贝叶斯模型得到所述分类模型,该分类模型通过如下公式对所述短消息的类 别进行判断c = arg max p(ck | χ)= argmaxp(x\ck)p(ck)η=arg max ^ log Piwj \ ck) + log p(ck)Ck[c ;=1其中,5表示短消息X的类别,参数P (Wj I ck)表示给定第k类别Ck的情况下短消息χ中 第j字符串 的似然值,参数P (Ck)表示类别Ck的先验概率,k、j为序号。
6.根据权利要求5所述的方法,其特征在于,所述利用所述短消息对当前的分类模型 进行更新包括当对所述短消息的审核结果为垃圾消息时,利用所述短消息对分类模型的参数进行训 练,将训练后的参数反馈到分类模型中,以对所述分类模型进行更新,所述参数包括似然值 P (W」I ck) ο
7.根据权利要求5所述的方法,其特征在于,利用所述朴素贝叶斯模型并结合下述的至少一种方式或其组合,对短消息的类别进行 判断当所述参数P I Ck)的取值为零时,为所述参数ρ (W」Ck)赋予预定的正数值,以对该参 数进行平滑处理;或者,当所述字符串 为单字的字符串时,不利用所述单字词对所述短消息进行分类判断; 或者,根据所述短消息中部分字符串在不同类别下的似然值之间的差值,对所述短消息的类 别进行判断。
8.根据权利要求7所述的方法,其特征在于,当对参数P I ck)进行平滑处理时,选取0. 1作为所述预定的正数值;以及, 当所述短消息中一个字符串在第一类别下的似然值与该字符串在第二类别下的似然 值的差值超过预定阈值时,确定所述短消息为垃圾消息。
9.一种短消息的过滤设备,其特征在于,所述设备包括分类模型判断单元,用于利用当前的分类模型对接收到的短消息的类别进行判断,所 述短消息的类别包括垃圾消息和正常消息;垃圾消息过滤单元,用于当所述短消息的类别为垃圾消息时,过滤所述短消息; 指纹分析及参数更新单元,用于当所述短消息的类别为正常消息时,对所述短消息进 行文本指纹提取,得到对应于所述短消息基本内容的指纹信息;根据所述指纹信息确认需 要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进 行更新,以利用更新后的分类模型执行下一次的过滤流程。
10.根据权利要求9所述的设备,其特征在于,所述分类模型判断单元,具体用于利用朴素贝叶斯模型得到所述分类模型,该分类模 型通过如下公式对所述短消息的类别进行判断 c = arg max p(ck | χ)= argmaxp(x\ck)p(ck)η=arg max ^ log Piwj \ ck) + log p(ck)Ck[c ;=1其中,5表示判定的短消息X的类别,参数P (Wj I ck)表示给定第k类别Ck的情况下短消 息X中第j字符串 的似然值,参数P (Ck)表示类别Ck的先验概率,k、j为序号; 以及,所述分类模型判断单元,还用于利用所述朴素贝叶斯模型并结合下述的至少一种方式 或其组合,对短消息的类别进行判断当所述参数P(^lck)的取值为零时,为所述参数ρ ck)赋予预定的正数值,以对该参 数进行平滑处理;或者,当所述字符串 为单字的字符串时,不利用所述单字词对所述短消息进行分类判断; 或者,根据所述短消息中部分字符串在不同类别下的似然值之间的差值,对所述短消息的类 别进行判断。
全文摘要
本发明公开了一种短消息的过滤方法和设备,涉及电子信息技术领域,能够灵活应对不断变化的垃圾消息,提高了分类模型的分类精度和对垃圾消息的过滤准确率,且无需为分类模型额外构建训练语料库,降低了成本。本发明实施例提供的一种短消息的过滤方法包括利用当前的分类模型对接收到的短消息的类别进行判断;当短消息的类别为垃圾消息时,过滤所述短消息;当短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。
文档编号H04W4/14GK102096703SQ20101061186
公开日2011年6月15日 申请日期2010年12月29日 优先权日2010年12月29日
发明者牟小峰 申请人:北京新媒传信科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1