一种短信智能删除模块的制作方法

文档序号:7771186阅读:139来源:国知局
一种短信智能删除模块的制作方法
【专利摘要】本发明公开了一种短信智能删除模块,目的在于通过对短信的内容进行关键信息的提取后,来断定短信是否为垃圾短信,根据判断结果对短信进行处理。包括短信特征词提取、关键字标注、短信内容判断和短信处理四个步骤。短信处理分为短信保留和短信删除两种方式。实现上述短信特征词的提取需要建立词典,好的词典是中文分词准确率的保障。
【专利说明】一种短信智能删除模块
【技术领域】
[0001]本发明涉及短信智能删除领域,更具体的讲是一种通过对短信的内容进行关键信息的提取后,来断定短信是否为垃圾短信,根据判断结果对短信进行处理的模块。
[0002]
【背景技术】
[0003]短信short message service,简称SMS是用户通过手机或其他电信终端直接发送或接收的文字或数字信息,用户每次能接收和发送短信的字符数,是160个英文或数字字符,或者70个中文字符。1992年,当世界上第一条短信在英国沃尔丰的GSM网络上通过PC向移动电话发送成功的时候,谁也不会想到,当初这项由电信运营商为解决手机话费过高而推出的低廉文本信息的服务,这个看似非常小孩玩意的一个通讯交流的东西,竟会在多年后对人们的经济文化生活,甚至对政治都产生了如此大的影响。
[0004]1992年,世界上第一条短信在英国沃达丰的网络上通过电脑向手机发送成功,从而宣布手机短信诞生。至于中国的第一条短信诞生于何时何地已无从知晓,但据考证,中国的移动通信网络早在1994年就具备了短信功能,只是那时有手机的人根本不需要它罢了。随着手机的日益普及,从1998年开始,移动、联通先后大范围拓展短信业务:2000年,中国手机短信息量突破10亿条;2001年,达到189亿条;2004年,数字飞涨到900亿条。于是短信理所应当地成为了第五种传播工具,“信生活”的提法也因此诞生;于是从1998年至今,七年的时间里,不管你愿意与否,短信已逐渐走入我们的生活,成为生活的一部分,我们的生活也因短信而改变着。
[0005]据工信部最新公布统计数据显示,2012年,全国移动短信发送量达到8973.1亿条,同比增长仅2.1%,增幅为四年最低。两项数据对比可以发现,我国手机用户增速远大于短信业务,我国2012年短信均发送量实际下滑了 9%左右。
[0006]工信部数据显示,2012年我国移动电话用户达到11亿户,其中短信业务用户达到
7.6亿户,渗透率为68.8%,手机网民用户约为4.2亿,渗透率为38.2%。另一方面,在我国11亿手机用户中,腾讯微信用户超过3亿户,渗透率为27.3%。而在中国每10个手机网民中,就有超过7个为微信用户。
[0007]电信行业研究咨询机构欧文咨询公司之前也曾发布公告称,随着大量智能手机用户转而使用免费短信应用软件,至2012年底,全球电信运营商将因此损失230亿美元短信收入。
[0008]随着信息的不断发展,各种各类的短信如腊月的大雪一样漫天纷舞,手机已经脱离了那个纯净、安静的世界;无论是手机传统的短信还是各种社交应用如:微信,陌陌等,各种垃圾短信不期而至。
[0009]何为垃圾短息,垃圾短信,就是凡用户没有定制过的包含有广告、欺骗、色情、诅咒等违法内容以及短时间内连续发送同样内容,影响用户的正常使用、工作和生活的任何信息均为垃圾短信。[0010]那么短信的智能拦截、删除就成为了各个通讯界、专家研究的热点。
[0011]
【发明内容】

[0012]本发明公开了一种短信智能删除模块,目的在于通过对短信的内容进行关键信息的提取后,来断定短信是否为垃圾短信,根据判断结果对短信进行处理。
[0013]本发明是采取以下技术方案实现的:一种短信智能删除模块,包括短信特征词提取、关键字标注、短信内容判断和短信处理四个步骤。短信处理分为短信保留和短信删除两种方式。
[0014]本发明的实现还包括以下的技术方案:
上述短信特征词提取将涉及到中文文本信息提取与中文分词算法,本发明将采取正向最大匹配算法对关键字进行提取。
[0015]实现上述短信特征词的提取需要建立词典,好的词典是中文分词准确率的保障。
[0016]正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的。我们来举个例子:
待分词文本content [] = {〃中〃,〃华〃,〃民〃,〃族〃,〃从〃,〃此〃,〃站〃,〃起〃,〃来",〃了 ","。"}
词表:dict[] = {〃中华〃,〃中华民族〃,〃从此〃,〃站起来〃}
(I)从content [I]开始,当扫描到content [2]的时候,发现〃中华〃已经在词表dict[]中了。但还不能切分出来,因为我们不知道后面的词语能不能组成更长的词(最大匹配)。
[0017](2)继续扫描content [3],发现〃中华民〃并不是diet []中的词。但是我们还不能确定是否前面找到的〃中华〃已经是最大的词了。因为〃中华民〃是dict[2]的前缀。
[0018](3)扫描content [4],发现〃中华民族〃是diet []中的词。继续扫描下去。
[0019](4)当扫描content[5]的时候,发现〃中华民族从〃并不是词表中的词,也不是词的前缀。因此可以切分出前面最大的词一〃中华民族"。
[0020]本发明的优点和有益效果,具体体现在以下几个方面:
1.本发明在一定程度上改进对于垃圾短信的删除是一种改进,在不断对垃圾短信进行处理的过程中自动完善垃圾短信词库,保持对于垃圾短信的判断准确率不断增加,对于模块的强大性有着至关重要的作用。
[0021]2.接下来可以对于某些特定信息,比如某些人、某些单位的信息进行定时删除,这样可以降低手机信息的存储量。
[0022]3.同时也提高实现信息查找的效率,不用在浩瀚的手机信息中翻来翻去的寻找某
一条信息。
[0023]
【专利附图】

【附图说明】
[0024]图1是本发明的执行步骤示意图;图2是自动建立词典的流程图。
【具体实施方式】
[0025]以下结合说明书附图1对本发明的实施做进一步详述:
一种短信智能删除模块,包括短信特征词提取、关键字标注、短信内容判断和短信处理四个步骤。短信处理分为短信保留和短信删除两种方式。
[0026]上述短信特征词提取将涉及到中文文本信息提取与中文分词算法,本发明将采取正向最大匹配算法对关键字进行提取。
[0027]正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的。我们来举个例子:
待分词文本content [] = {〃中〃,〃华〃,〃民〃,〃族〃,〃从〃,〃此〃,〃站〃,〃起〃,〃来",〃了 ","。"}
词表:dict[] = {〃中华〃,〃中华民族〃,〃从此〃,〃站起来〃}
(I)从content[l]开始,当扫描到content [2]的时候,发现〃中华〃已经在词表dict[]中了。但还不能切分出来,因为我们不知道后面的词语能不能组成更长的词(最大匹配)。
[0028](2)继续扫描content [3],发现〃中`华民〃并不是diet []中的词。但是我们还不能确定是否前面找到的〃中华〃已经是最大的词了。因为〃中华民〃是dict[2]的前缀。
[0029](3)扫描content [4],发现〃中华民族〃是dict[]中的词。继续扫描下去。
[0030](4)当扫描content[5]的时候,发现〃中华民族从〃并不是词表中的词,也不是词的前缀。因此可以切分出前面最大的词一〃中华民族"。
[0031]以下结合说明书附图2对字典的建立做进一步详述:
好的词典是中文分词准确率的保障,那么如何构建词典,第一要对目前比较流行的垃圾短信进行收集,对其特征词进行相应人工提取,构建一个信息量较全的词典,比如说流行的垃圾短信有:“开发票”、“办证”、“sim卡克隆”等;第二,对这些词的存储结构进行整理,按照英文字母顺序进行短语的存储,每个字母索引下的词按照由长到短进行存储,这样将有益于最大匹配实现。
[0032]字典建立的程序实现:
/林
*构建内存词典的Trie树结点 V
public class TrieNode {
/**结点关键字,其值为中文词中的一个字*/
public char key= (char)O;
/**如果该字在词语的末尾,则bound=true*/
public boolean bound=false;
/**指向下一个结点的指针结构,用来存放当前字在词中的下一个字的位置*/
public HashMap〈Character,TrieNode> childs = newHashMap<Character, TrieNode>();
public TrieNode(){

}
public TrieNode(char k){
this.key=k;

}
}
利用本发明所述的技术方案,或本领域的技术人员在本发明技术方案的启发下,设计出类似的技术方案,而达到上述技术效果的,均是落入本发明的保护范围。
【权利要求】
1.一种短信智能删除模块,其特征在于:包括短信特征词提取、关键字标注、短信内容判断和短信处理四个步骤,实现上述短信特征词的提取需要建立词典,上述短信处理步骤分为短信保留和短信删除两种方式。
2.根据权利要求1所述的一种短信智能删除模块,其特征在于:所述短信特征词提取步骤米取正向最大匹配算法。
3.根据权利要求1所述的一种短信智能删除模块,其特征在于:所述短信处理步骤分为短信保留和短信删除两种方式。
【文档编号】H04W88/02GK103888921SQ201310433559
【公开日】2014年6月25日 申请日期:2013年9月21日 优先权日:2013年9月21日
【发明者】牛晓芳 申请人:天津思博科科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1