一种移动终端及其有效过滤垃圾信息的方法和装置制造方法

文档序号:6627924阅读:178来源:国知局
一种移动终端及其有效过滤垃圾信息的方法和装置制造方法
【专利摘要】本发明公开了一种移动终端及其有效过滤垃圾信息的方法和装置,属于移动终端【技术领域】。该有效过滤垃圾信息的方法包括:接收到消息时,获取接收到消息的消息内容;将消息内容中的文字转换成拼音;通过输入法词库对转换成的拼音进行语义分析;根据语义分析的结果,判断消息内容是否为垃圾消息,若是,则过滤消息内容。本发明通过将接收到的消息内容转换成拼音,再根据拼音的语义判断接收到的消息是否为垃圾消息,能够有效过滤垃圾消息。
【专利说明】一种移动终端及其有效过滤垃圾信息的方法和装置

【技术领域】
[0001]本发明涉及移动终端【技术领域】,具体涉及一种移动终端及其有效过滤垃圾信息的方法和装置。

【背景技术】
[0002]随着智能移动终端的广泛普及,移动互联网技术的飞速发展,移动终端中的即时工具经常会收发大量的信息。人们在享受信息浪潮所带来的便利同时,也需要忍受大量垃圾信息的骚扰,给用户带来困扰。
[0003]针对这种状况,很多移动终端安全软件应运而生,以过滤垃圾信息,给用户清净的移动终端使用环境。常见的过滤方法包括:根据手机号码过滤,未知联系人信息过滤;黑名单过滤;预置内容的过滤;一定时间预置内接收同一个号码发送的信息条数等。
[0004]虽然目前的安全软件可以拦截大多数垃圾信息,但垃圾制造者也在不断的改进垃圾信息的表达方式。比如:为了防止关键词的屏蔽,通过将关键词通过一些特殊字符隔开;对于表达的内容通过同音字、谐音字表达。有的垃圾推送者甚至将上述多种方法的组合,导致安全软件无法有效拦截垃圾信息,从而给用户带来烦恼。


【发明内容】

[0005]本发明提供一种移动终端及其有效过滤垃圾信息的方法和装置,以达到有效过滤垃圾信息的目的,克服上述现有安全软件无法识别到垃圾关键字的缺陷。
[0006]本发明解决上述技术问题的技术方案如下。
[0007]根据本发明的一个方面,提供的一种有效过滤垃圾信息的方法,该方法包括:接收到消息时,获取接收到消息的消息内容;将消息内容中的文字转换成拼音,并获取转换后的消息内容所包含的全部拼音;通过输入法词库对转换成的拼音进行语义分析;根据语义分析的结果,判断消息内容是否为垃圾消息,若是,则过滤消息内容。
[0008]优选地,针对上述通过输入法词库对转换成的拼音进行语义分析,该方法还包括:根据输入法词库,将获取到的拼音翻译成所有可能的中文语句;对每一种翻译后的语句进行分词,获取所有语句分词后的所有词汇;以所有可能的语句的数量为基数,计算每个词汇出现的频率;根据预设的垃圾关键字的权重,获取每个词汇的权重,若预设的垃圾关键字中没有对应的词汇,则将该词汇的权重记为零;结合每个词汇出现的频率以及该词汇权重,计算消息内容的垃圾相似度。
[0009]优选地,针对上述根据语义分析的结果,判断消息内容是否为垃圾消息,该方法还包括:当计算的垃圾相似度的值超过预设的阈值时,判断消息内容为垃圾消息。
[0010]优选地,在上述通过输入法词库对转换成的拼音进行语义分析的步骤之前,该方法还包括:提取消息内容中所包含的预设的字符;剔除提取到的字符。
[0011]优选地,在上述将消息内容中的文字转换成拼音的步骤之前,该方法还包括:判断消息内容中的文字是否包含有预设的字段,若是,则判断消息内容为垃圾消息。
[0012]优选地,上述消息内容包括邮件消息、短息消息、应用程序接收到的消息。
[0013]根据本发明的另一个方面,提供的一种有效过滤垃圾信息的装置,该装置包括:消息内容获取模块,用于接收到消息时,获取接收到消息的消息内容;拼音转换模块,用于将消息内容中的文字转换成拼音,并获取转换后的消息内容所包含的全部拼音;语义分析模块,用于通过输入法词库对转换成的拼音进行语义分析;第一判断模块,用于根据语义分析的结果,判断消息内容是否为垃圾消息,若是,则过滤消息内容。
[0014]优选地,该有效过滤垃圾信息的装置还包括:翻译模块,用于根据输入法词库,将获取到的拼音翻译成所有可能的中文语句;分词模块,用于对每一种翻译后的语句进行分词,获取所有语句分词后的所有词汇;频率计算模块,用于以所有可能的语句的数量为基数,计算每个词汇出现的频率;权重获取模块,用于根据预设的垃圾关键字的权重,获取每个词汇的权重,若预设的垃圾关键字中没有对应的词汇,则将该词汇的权重记为零;垃圾相似度计算模块,用于结合每个词汇出现的频率以及该词汇权重,计算消息内容的垃圾相似度;第二判断模块,用于当计算的垃圾相似度的值超过预设的阈值时,判断消息内容为垃圾消息。
[0015]优选地,该有效过滤垃圾信息的装置还包括:字符提取模块,用于提取消息内容中所包含的预设的字符;字符剔除模块,用于剔除提取到的字符。
[0016]根据本发明的又一个方面,提供的一种移动终端,该移动终端包括上述一种有效过滤垃圾信息的装置。
[0017]本发明提供了一种移动终端及其有效过滤垃圾信息的方法和装置,将消息内容中的特殊字符剔除,并将接收到的消息内容转换成拼音,再根据拼音的语义判断接收到的消息是否为垃圾消息,使得垃圾推送者通过将消息内容中的某些文字编辑成拼音或在消息内容中插入特殊字符的方式躲避被检测到垃圾关键字的意图无所遁形,给用户一个清净的使用环境。

【专利附图】

【附图说明】
[0018]图1为根据本发明的一个实施例的有效过滤垃圾信息的方法的流程图;
[0019]图2为根据本发明的一个实施例的语义分析方法的流程图;
[0020]图3为根据本发明的一个实施例的剔除特殊字符的方法的流程图;
[0021]图4为根据本发明的一个实施例的有效过滤垃圾信息的装置的示范性结构框图;
[0022]图5为根据本发明的一个实施例的语义分析模块的示范性结构框图;
[0023]图6为根据本发明的一个实施例的移动终端的示范性结构框图。

【具体实施方式】
[0024]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0025]实施例一
[0026]图1为根据本发明的一个实施例的有效过滤垃圾信息的方法的流程图,下面结合图1来描述根据本发明的一个实施例的有效过滤垃圾信息的方法,如图1所示,为了避免垃圾消息推送者将消息中的部分文字编辑成拼音以逃避垃圾关键字的识别,该方法包括以下步骤:
[0027]S10、接收到消息时,获取接收到的消息的消息内容;
[0028]S20、将消息内容中的文字转换成拼音,并获取转换后的消息内容所包含的全部拼曰;
[0029]S30、通过输入法词库对转换成的拼音进行语义分析;
[0030]S40、根据语义分析的结果,判断消息内容是否为垃圾消息,若是,则过滤消息内容,否则,正常(常规)显示消息内容。
[0031]其中,在上述步骤S20之前,该有效过滤垃圾信息的方法还包括初步过滤,具体的,该初步过滤的方法为:
[0032]判断消息内容中的文字是否包含有预设的字段,若是,则判断消息内容为垃圾消息。该预设的字段包括但不限于:中奖、折扣、礼包等。
[0033]如果在初步过滤阶段就能识别接收到的消息为垃圾消息,就没有必要进行后续的拼音转换以及语义识别动作,节约程序。
[0034]作为可选的,上述初步过滤的方法还可以包括:
[0035]检测发来消息的号码是否为预设的黑名单号码,若是,则过滤所述接收到的消息。
[0036]其中,上述消息内容包括但不限于邮件消息、短息消息、应用程序接收到的消息。该应用程序例如微信、QQ等即时聊天工具。
[0037]作为可选的,该有效过滤垃圾信息的方法还可以包括:
[0038]获取接收到消息的消息内容时,检测垃圾信息拦截功能是否开启,若是,则进入步骤S20,并执行后续的步骤,若否,则退出。
[0039]实施例二
[0040]图2为根据本发明的一个实施例的语义分析方法的流程图,如图2所示,本发明在包括上述步骤S10、步骤S20外,上述步骤S30具体包括:
[0041]S31、根据输入法词库,将获取到的拼音翻译成所有可能的中文语句;
[0042]S32、对每一种翻译后的语句进行分词,获取所有语句分词后的所有词汇;
[0043]S33、以所有可能的语句的数量为基数,计算每个词汇出现的频率;
[0044]S34、根据预设的垃圾关键字的权重,获取每个词汇的权重,若预设的垃圾关键字中没有对应的词汇,则将该词汇的权重记为零;
[0045]S35、结合每个词汇出现的频率以及该词汇权重,计算消息内容的垃圾相似度。
[0046]对应的,上述步骤S40具体为步骤S41,其中:
[0047]步骤S41、当计算的垃圾相似度的值超过预设的阈值时,判断消息内容为垃圾消息,过滤消息内容,否则,正常显示消息内容。
[0048]其中,上述结合每个词汇出现的频率以及该词汇权重,计算消息内容的垃圾相似度,可以理解的是将垃圾关键字的权重与该词汇出现的频率同时纳入判断垃圾消息的条件,计算消息内容的垃圾相似度可以采用乘法来计算,即将权重乘以对应词汇出现的频率作为垃圾相似度的值。当垃圾关键词有多个时,可以采用以下计算方法:
[0049]X = a1b1+a2b2+a3b3+""" +anbn
[0050]X表示最终垃圾相似度的值,an表示第η个关键字出现的频率,bn表示第η个关键字的权重,η为自然数。根据本发明的一个示例的关于an的计算方法为:
[0051]an = m/M
[0052]m表示第n个关键字(词汇)出现的总的次数,M表示可能翻译成的语句的数量。
[0053]实施例三
[0054]图3为根据本发明的一个实施例的剔除特殊字符的方法的流程图,如图3所示,为了避免由于垃圾推送者编辑消息时插入特殊字符导致垃圾关键字识别不出来,本发明在包括上述步骤S10、步骤S20、步骤S30、步骤S40外(步骤S40在图3中未示出),还包括:
[0055]S51、提取消息内容中所包含的预设的字符;
[0056]S52、剔除提取到的字符。
[0057]作为可选的,上述步骤S51、S52可以如图所示在步骤SlO和步骤S20之间,也可以将步骤S51、S52置于步骤S20和步骤S30之间。
[0058]其中,上述预设的字符包括但不限于空格、“等特殊字符。
[0059]实施例四
[0060]图4为根据本发明的一个实施例的有效过滤垃圾信息的装置的示范性结构框图,下面根据图4来描述有效过滤垃圾信息的装置100,如图4所示,该装置包括:
[0061]消息内容获取模块10,用于接收到消息时,获取接收到消息的消息内容;
[0062]拼音转换模块20,用于将消息内容中的文字转换成拼音,并获取转换后的消息内容所包含的全部拼音;
[0063]语义分析模块30,用于通过输入法词库对转换成的拼音进行语义分析;
[0064]第一判断模块40,用于根据语义分析的结果,判断消息内容是否为垃圾消息,若是,则过滤消息内容,否则,正常显示消息内容。
[0065]其中,为了避免由于插入特殊字符导致垃圾关键字识别不出来,该有效过滤垃圾信息的装置100还包括:
[0066]字符提取模块51,用于提取消息内容中所包含的预设的字符;
[0067]字符剔除模块52,用于剔除提取到的字符。
[0068]其中,上述预设的字符包括但不限于空格、“等特殊字符。
[0069]实施例五
[0070]图5为根据本发明的一个实施例的语义分析模块的示范性结构框图,如图5所示,上述语义分析模块30具体包括:
[0071]翻译模块31,用于根据输入法词库,将获取到的拼音翻译成所有可能的中文语句;
[0072]分词模块32,用于对每一种翻译后的语句进行分词,获取所有语句分词后的所有词汇;
[0073]频率计算模块33,用于以所有可能的语句的数量为基数,计算每个词汇出现的频率;
[0074]权重获取模块34,用于根据预设的垃圾关键字的权重,获取每个词汇的权重,若预设的垃圾关键字中没有对应的词汇,则将该词汇的权重记为零;
[0075]垃圾相似度计算模块35,用于结合每个词汇出现的频率以及该词汇权重,计算消息内容的垃圾相似度。
[0076]对应的,上述第一判断模块40具体包括第二判断模块41,该第二判断模块41用于当计算的垃圾相似度的值超过预设的阈值时,判断消息内容为垃圾消息。
[0077]实施例六
[0078]图6为根据本发明的一个实施例的移动终端的示范性结构框图,如图6所示的移动终端11,该移动终端11包括上述的有效过滤垃圾信息的装置100。
[0079]本发明通过将消息内容中的特殊字符剔除,并将接收到的消息内容转换成拼音,再根据拼音的语义判断接收到的消息是否为垃圾消息,使得垃圾推送者通过将消息内容中的某些文字编辑成拼音或在消息内容中插入特殊字符的方式躲避被检测到垃圾关键字的意图无所遁形,给用户一个清净的使用环境。
[0080]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种有效过滤垃圾信息的方法,其特征在于,所述方法包括: 接收到消息时,获取接收到消息的消息内容; 将所述消息内容中的文字转换成拼音; 通过输入法词库对转换成的拼音进行语义分析; 根据语义分析的结果,判断所述消息内容是否为垃圾消息,若是,则过滤所述消息内容。
2.根据权利要求1所述的有效过滤垃圾信息的方法,其特征在于,针对所述通过输入法词库对所述转换成的拼音进行语义分析,所述方法还包括: 根据输入法词库,将所述获取到的拼音翻译成所有可能的中文语句; 对每一种翻译后的语句进行分词,获取所述所有语句分词后的所有词汇; 以所述所有可能的语句的数量为基数,计算所述每个词汇出现的频率; 根据预设的垃圾关键字的权重,获取所述每个词汇的权重; 结合所述每个词汇出现的频率以及该词汇权重,计算所述消息内容的垃圾相似度。
3.根据权利要求2所述的有效过滤垃圾信息的方法,其特征在于,针对所述根据语义分析的结果,判断所述消息内容是否为垃圾消息,所述方法还包括: 当所述计算的垃圾相似度的值超过预设的阈值时,判断所述消息内容为垃圾消息。
4.根据权利要求1所述的有效过滤垃圾信息的方法,其特征在于,在所述通过输入法词库对所述转换成的拼音进行语义分析的步骤之前,所述方法还包括: 提取所述消息内容中所包含的预设的字符; 剔除所述提取到的字符。
5.根据权利要求1所述的有效过滤垃圾信息的方法,其特征在于,在所述将所述消息内容中的文字转换成拼音的步骤之前,所述方法还包括: 判断所述消息内容中的文字是否包含有预设的字段,若是,则判断所述消息内容为垃圾消息。
6.根据权利要求1所述的有效过滤垃圾信息的方法,其特征在于,所述消息内容包括邮件消息、短息消息、应用程序接收到的消息。
7.一种有效过滤垃圾信息的装置,其特征在于,所述装置包括: 消息内容获取模块,用于接收到消息时,获取接收到消息的消息内容; 拼音转换模块,用于将所述消息内容中的文字转换成拼音,并获取转换后的消息内容所包含的全部拼音; 语义分析模块,用于通过输入法词库对所述转换成的拼音进行语义分析; 第一判断模块,用于根据语义分析的结果,判断所述消息内容是否为垃圾消息,若是,则过滤所述消息内容。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括: 翻译模块,用于根据输入法词库,将所述获取到的拼音翻译成所有可能的中文语句; 分词模块,用于对每一种翻译后的语句进行分词,获取所述所有语句分词后的所有词汇; 频率计算模块,用于以所述所有可能的语句的数量为基数,计算所述每个词汇出现的频率; 权重获取模块,用于根据预设的垃圾关键字的权重,获取所述每个词汇的权重; 垃圾相似度计算模块,用于结合所述每个词汇出现的频率以及该词汇权重,计算所述消息内容的垃圾相似度; 第二判断模块,用于当所述计算的垃圾相似度的值超过预设的阈值时,判断所述消息内容为垃圾消息。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括: 字符提取模块,用于提取所述消息内容中所包含的预设的字符; 字符剔除模块,用于剔除所述提取到的字符。
10.一种移动终端,其特征在于,所述移动终端包括上述权利要求7?9任一项所述的>j-U ρ?α装直。
【文档编号】G06F17/27GK104268203SQ201410489999
【公开日】2015年1月7日 申请日期:2014年9月23日 优先权日:2014年9月23日
【发明者】王贤伟 申请人:深圳市中兴移动通信有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1