一种确定短信拦截关键词的方法

文档序号:7857165阅读:1719来源:国知局
专利名称:一种确定短信拦截关键词的方法
技术领域
本发明涉及通信领域,尤其涉及一种确定短信拦截关键词的方法。
背景技术
在现有技术中,关键字的添加都是人工干预,即需要人工从大量的垃圾短信中分析出关键字,再通过手工的方式添加进垃圾短信拦截系统,关键词可能随着时间的推移,发生了变种,用预先设定的关键词就不能将含有变种的关键词短信拦截下来,又需要人工分析短信提取变种关键字,整个过程需要投入大量人力,人力成本过高。由于需要人工分析短信提取变种关键字,对于变种关键字,手工添加进系统时间相对滞后,不能很好发挥关键字作用,且人工提取变种关键字遗漏机率大
发明内容
本发明的目的是提供一种确定短信拦截关键词的方法,解决现有技术中关键词采用人工输入方式造成的滞后及不全的问题,通过预设关键词探针,对一系列可能变种的关键词进行分析收集,获取新的准确的关键词,对关键词库自动进行实时更新,以使用这些关键词拦截垃圾短信或广告短信时拦截准确率更高。为了实现上述发明目的,本发明提供了一种确定短信拦截关键词的方法,包括预设探针关键字;实时采集移动网络中传输的所有短消息,抽取包含所述预设的探针关键字的短消息;结合分词技术对所述抽取出来的包含探针关键字的短消息进行分析,获取变种关键词;对所述获取的变种关键词进行分析,确定拦截新关键词,其中对获取的变种关键词进行分析包括词性分析、出现频率分析。优选的,所述实时采集移动网络中传输的所有短消息步骤,具体为实时采集移动网络中传输的所有短消息,并剔除短消息内容中的特殊字符。优选的,所述结合分词技术对所述抽取出来的包含探针关键字的短消息进行分析,获取变种关键词步骤,进一步包括利用分词技术对所述抽取出来的包含探针关键字的短消息进行分词;将分解出来的词汇与所述探针关键字进行匹配,获取变种关键词。其中,所述对所述获取的变种关键词进行分析,确定拦截新关键词步骤之后,还包括将确定的拦截新关键词加入到短信拦截关键词数据库,供垃圾短信拦截系统调用以进行垃圾短信实时拦截。与现有技术相比,本发明具有如下有益效果
本发明通过预设关键词探针,对一系列可能变种的关键词进行分析收集,获取新的准确的关键词,对关键词库进行实时自动更新,以使用这些关键词拦截垃圾短信或广告短信时拦截准确率更高。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图
图I为本发明实施例一确定短信拦截关键词方法的流程 图2为本发明实施例二确定短信拦截关键词方法的流程图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实 施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参见图1,为本发明实施例一确定短信拦截关键词方法的流程图,所述确定短信拦截关键词的方法,包括如下步骤
步骤SlOl :预设探针关键字;
步骤S102 :实时采集移动网络中传输的所有短消息,抽取包含所述预设的探针关键字的短消息;本步骤实时采集移动网络中传输的所有短消息后,为了更准确的识别变种关键词,可以先剔除短消息内容中的特殊字符,再从剔除特殊字符后的短消息中抽取包含所述预设的探针关键字的短消息;
步骤S103:结合分词技术对所述抽取出来的包含探针关键字的短消息进行分析,获取变种关键词,具体可以为利用分词技术对所述抽取出来的包含探针关键字的短消息进行分词;将分解出来的词汇与所述探针关键字进行匹配,获取变种关键词。步骤S104 :对所述获取的变种关键词进行分析,确定拦截新关键词,将确定的拦截新关键词加入到短信拦截关键词数据库,供垃圾短信拦截系统调用以进行垃圾短信实时拦截。其中对获取的变种关键词进行分析包括词性分析、出现频率分析。本发明实施例针对可能变种的关键词,系统对这些关键词通过该方法进行实时更新,确定出合理的关键词,能在利用该关键词拦截垃圾短信或广告短信时更准确。下面结合图2流程图,详细说明本发明实施例方法。参见图2,为本发明实施例二确定短信拦截关键词方法的流程图,包括如下步骤 步骤S201 :预设探针关键字,如票、税、平方、抵押等
步骤S202 :平台实时采集移动网络中传输的所有短消息,并剔除短消息内容中的特殊字符。用户可以预先配置短消息中的特殊字符,如空格,下划线等,平台在对短消息进行分析之前按照用户配置的特殊字符,将特殊字符从短信内容中剔除;例如,用于预先配置空格、“”等特殊字符为需要剔除的字符,当平台采集到内容为“髪
@票&代#开,请-联*系1223222”的短息时,剔除掉特殊字符后,该短息变为“髪票代开,请联系1223222”。步骤S203 :抽取步骤S202中剔除过特殊字符后的短消息中,包含所述预设的探针关键字的短消息,如前述剔除过特殊字符后的短消息“髪票代开,请联系1223222”包含票字,则将其抽取出来。步骤S204 :利用分词技术对所述抽取出来的包含探针关键字的短消息进行分词,如将内容为“髪票代开,请联系1223222”的短消息进行分词后,得到髪票、代开、联系等词汇。步骤S205 :将分解出来的词汇与所述探针关键字进行匹配,获取变种关键词,如将上述髪票、代开、联系几个词与之前预设的探针关键字,如票、税、平方、抵押等进行比对,得出髪票为变种关键词。步骤S206 :对所述获取的变种关键词的词性、出现频率等进行分析,确定拦截新关键词,以步骤S205的结果为例,将抽取出的关键字“髪票”在所有短信出现的次数进行分析,超过一定百分比(可配置),即可以认为“髪票”为一个垃圾短信关键字,例如,送分析的短信有1000条,其中300条短信包含“髪票”,出现频率大于或等于30%,即为垃圾短信关键字;
步骤S207 :将确定的拦截新关键词加入到短信拦截关键词数据库,供垃圾短信拦截系 统调用以进行垃圾短信实时拦截。本发明实施例通过预设关键词探针,对一系列可能变种的关键词进行分析收集,获取新的准确的关键词,对关键词库进行实时自动更新,以使用这些关键词拦截垃圾短信或广告短信时拦截准确率更高。本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。本发明并不局限于前述的具体实施方式
。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
权利要求
1.一种确定短信拦截关键词的方法,其特征在于,包括 预设探针关键字; 实时采集移动网络中传输的所有短消息,抽取包含所述预设的探针关键字的短消息; 结合分词技术对所述抽取出来的包含探针关键字的短消息进行分析,获取变种关键词; 对所述获取的变种关键词进行分析,确定拦截新关键词,其中对获取的变种关键词进行分析包括词性分析、出现频率分析。
2.如权利要求I所述的方法,其特征在于,所述实时采集移动网络中传输的所有短消息步骤,具体为 实时采集移动网络中传输的所有短消息,并剔除短消息内容中的特殊字符。
3.如权利要求2所述的方法,其特征在于,所述结合分词技术对所述抽取出来的包含探针关键字的短消息进行分析,获取变种关键词步骤,进一步包括 利用分词技术对所述抽取出来的包含探针关键字的短消息进行分词; 将分解出来的词汇与所述探针关键字进行匹配,获取变种关键词。
4.如权利要求3所述的方法,其特征在于,所述对所述获取的变种关键词进行分析,确定拦截新关键词步骤之后,还包括 将确定的拦截新关键词加入到短信拦截关键词数据库,供垃圾短信拦截系统调用以进行垃圾短信实时拦截。
全文摘要
本发明公开了一种确定短信拦截关键词的方法,包括预设探针关键字;实时采集移动网络中传输的所有短消息,抽取包含所述预设的探针关键字的短消息;结合分词技术对所述抽取出来的包含探针关键字的短消息进行分析,获取变种关键词;对所述获取的变种关键词进行分析,确定拦截新关键词并将其加入到短息拦截关键词数据库,实现对关键词数据库的实时自动更新,以使根据关键词数据库中的关键词进行垃圾短信或广告短信的拦截时,准确率更高。
文档编号H04W12/12GK102761848SQ20121027084
公开日2012年10月31日 申请日期2012年8月1日 优先权日2012年8月1日
发明者王纯斌, 谢崇竹 申请人:成都四方信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1