基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统的制作方法

文档序号:7779363阅读:488来源:国知局
基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统的制作方法
【专利摘要】本发明提供一种基于朴素贝叶斯分类的手机垃圾短信过滤系统和方法,其中该系统包括:信息截取模块,对新收到的短信息进行信息截取;缓存;黑名单过滤模块,基于预先设定的黑名单对新短信息进行过滤处理;关键词过滤模块,基于预先设定的关键词对对新短信息进行过滤处理;朴素贝叶斯分类智能过滤模块,基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果概率比超过预设的阀值,则判断为垃圾短信,否则为正常短信。本发明的基于朴素贝叶斯分类的手机垃圾短信过滤系统和方法通过黑名单、关键字、朴素贝叶斯分类技术和中文分词技术结合的方法,智能判别短信是否为垃圾短信,从而实现对垃圾短信的过滤。
【专利说明】基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
【技术领域】
[0001]本发明涉及通信【技术领域】,尤其是短信处理技术,具体而言涉及一种基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统。
【背景技术】
[0002]随着飞速发展的移动通信技术和手机普及率的快速增长,使得手机短信的使用率迅速增加,短信业务正以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式。移动短信业务在飞速发展的过程中,一方面给广大使用者带来了各种方便;另一方面由于各种垃圾短信的大量出现,也带来了信息安全上的问题,影响了人们的正常生活。因而非常有必要将这些垃圾短信过滤掉。
[0003]通过对短信业务结构的分析,短信都是通过短信服务中心进行存储、转发,再到用户手机上。所以可以从两个方面对垃圾短信进行过滤,一种是短信息服务中心的过滤方式,另一种是手机终端的过滤方式。短信息中心目前尚未提供一个良好的垃圾短信过滤机制,在用户端仍然不间断地接收到垃圾短信、诈骗短信,甚至因为这些短信而发生财产损失和人生伤害。因此,有必要在手机终端采用过滤方式来实现垃圾短信过滤,但现有的有些手机软件使用黑名单技术来实现垃圾短信的过滤,其功能有限,并不能实现对垃圾短信的智能识别和过滤,尤其是针对垃圾短信、诈骗短信的内容带有干扰字符的情况下。

【发明内容】

[0004]本发明的目的在于提供一种基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统,采用了手机终端的过滤方式,通过黑名单、关键字技术,过滤黑名单中号码发送的垃圾短信和包含关键词的垃圾短信,并用朴素贝叶斯分类技术和中文分词技术结合的方法,智能判别短信是否为垃圾短信,从而实现对垃圾短信的过滤。
[0005]为达成上述目的,本发明所采用的技术方案如下:
[0006]一种基于朴素贝叶斯分类的手机垃圾短信过滤方法,包括以下步骤:
[0007]步骤1、准备阶段,其包括以下过程:
[0008]步骤1-1、选择一个或多个联系人号码作为黑名单号码,并将这些联系人号码存入
一黑名单数据库;
[0009]步骤1-2、选择一个或多个关键词作为过滤词,并将这些关键词存入一关键词数据库;
[0010]步骤1-3、对正常短信样本库和垃圾短信样本库进行分词和训练处理,得到特征词库,其中包括每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成特征向量;
[0011]步骤2、垃圾短信判定阶段,其包括以下过程:
[0012]步骤2-1、监听手机系统的短信事件,对新收到的短信息进行信息截取;
[0013]步骤2-2、判断短信息是否由黑名单数据库中的至少一个黑名单号码发送的,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-3 ;
[0014]步骤2-3、判断短信息的内容是否包含关键词数据库中的至少一个关键词,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-4 ;
[0015]步骤2-4、基于前述步骤1-3所得特征词库中的特征向量,使用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判定该短信息为垃圾短信,并进入步骤2-5,否则,判断为正常短信,进入步骤2-6 ;
[0016]步骤2-5、将判断为垃圾短信的短信息存入一垃圾短信数据库;
[0017]步骤2-6、将判断为正常短信的短信息存入手机系统收信箱。
[0018]进一步,前述步骤1-3包括以下步骤:
[0019]步骤1-3-1、获取正常短信样本库和垃圾短信样本库;
[0020]步骤1-3-2、对正常短信和垃圾短信进行分词处理,采用正向最大匹配算法和逆向最大匹配算法抽取词组,取该两种算法抽取结果的并集得到词组组合,为朴素贝叶斯分类训练提供样本词组;
[0021]步骤1-3-3、重复上述步骤1-3-2,直到对正常短信样本库和垃圾短信样本库中所有的正常短信和垃圾短信分词处理完毕,得到样本词组库;
[0022]步骤1-3-4、对样本词组库的分词结果进行统计,通过朴素贝叶斯分类算法进行训练处理,统计出正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,组成特征向量,从而得到整个样本词组库的特征词库。
[0023]进一步,前述步骤1-3-2包括以下步骤:
[0024]a)正常短信或垃圾短信的短信文本输入;
[0025]b)对输入的短信文本进行去噪处理;
[0026]c)采用正向最大匹配算法抽取词组;
[0027]d)采用逆向最大匹配算法抽取词组;
[0028]e)合并上述步骤c和d的抽取结果;以及
[0029]f)输出分词结果。
[0030]进一步,前述步骤2-4,包含以下步骤:
[0031]a)对短信息内容进行去噪处理,删除无用符号和/或数字;
[0032]b)匹配出短信息内容包含的特征词;
[0033]c)根据所包含特征词的条件概率计算此短信是或不是垃圾短信的概率;
[0034]d)判断是垃圾短信与不是垃圾短信的概率比是否高于一指定阈值:如果是,则判断为正常短信;如果否,则判断为垃圾短信;以及
[0035]e)输出判断结果。
[0036]进一步,前述基于朴素贝叶斯分类的手机垃圾短信过滤方法,在步骤2之后还包括以下步骤:
[0037]步骤3、查看存储于垃圾短信数据库中的垃圾短信拦截记录。
[0038]进一步,前述基于朴素贝叶斯分类的手机垃圾短信过滤方法,在步骤3之后还包括以下步骤:
[0039]步骤4、删除或恢复存储于垃圾短信数据库中的垃圾短信。[0040]根据本发明的改进,还提出一种基于朴素贝叶斯分类的手机垃圾短信过滤系统,包括:
[0041]一信息截取模块,用于监听手机系统的短信事件,对新收到的短信息进行信息截取;
[0042]一缓存,与所述信息截取模块数据连接,用于存储所述截取的短信息;
[0043]一黑名单过滤模块,与所述信息截取模块数据连接,用于基于预先设定的黑名单对新短信息进行过滤处理;
[0044]—关键词过滤模块,与所述信息截取模块数据连接,用于基于预先设定的关键词对对新短信息进行过滤处理; [0045]一朴素贝叶斯分类智能过滤模块,与所述信息截取模块数据连接,基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判断为垃圾短信,否则判断为正常短?目;
[0046]—垃圾短信存储模块,用于存储被判断为垃圾短信的新短信息;以及
[0047]一垃圾短信操作控制模块,与前述垃圾短信存储模块以及一手机系统短信箱数据交互,用于根据外部输入的操作对垃圾短信存储模块中的新短信息进行下述操作中的一种:查看、删除、恢复以及答复。
[0048]进一步,所述黑名单过滤模块包括黑名单输入控制模块、黑名单数据库、号码获取模块以及黑名单判断模块,其中:
[0049]黑名单输入控制模块,用于根据外部输入的操作控制黑名单号码的存储;
[0050]黑名单数据库,用于存储黑名单号码;
[0051]号码获取模块,与所述信息截取模块数据连接,用于获取新短信息的发信人号码;
[0052]黑名单判断模块,与号码获取模块数据连接,用于判断新短信息的发信人号码是否包含在黑名单数据库内。
[0053]进一步,所述关键词过滤模块包括关键词输入控制模块、关键词数据库、短信内容获取模块以及关键词判断模块,其中:
[0054]关键词输入控制模块,用于根据外部输入的操作控制关键词的存储;
[0055]关键词数据库,用于存储关键词;
[0056]短信内容获取模块,与所述信息截取模块数据连接,用于获取新短信息的短信内容;
[0057]关键词判断模块,与短信内容获取模块数据连接,用于判断新短信息的短信内容是否包含关键词数据库中的至少一个关键词。
[0058]进一步,所述朴素贝叶斯分类智能过滤模块包括样本短信库输入模块、分词模块、特征向量抽取模块、去噪处理模块以及朴素贝叶斯分类的垃圾短信判断模块,其中:
[0059]样本短信库输入模块,用于输入正常短信样本库以及垃圾短信样本库;
[0060]分词模块,用于对正常短信样本库和垃圾短信样本库中的样本短信采用正向最大匹配算法和逆向最大匹配算法相结合的方法抽取样本词组,组成样本词组库;
[0061]特征向量抽取模块,用于对样本词组库进行特征抽取,获取正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,得到整个样本词组库的特征词库;
[0062]去噪处理模块,与所述信息截取模块数据连接,用于对新短信息的短信内容进行去噪处理,删除无用符号和/或数字;
[0063]朴素贝叶斯分类的垃圾短信判断模块,与去噪处理模块数据连接,用于基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判断为垃圾短信,否则判断为正常短?目。
[0064]由以上本发明的技术方案可知,本发明的有益效果在于:
[0065]1、针对不法商贩经常变换号码发送垃圾短信,如果仅使用黑名单判断是否为垃圾短信,用户还是会经常受到骚扰,如果仅使用关键词作为判别条件,判定的错误率会很高,而且用户也会为敏感词的设置烦恼。为了弥补这两种判定的单一性和不准确性,本发明使用了朴素贝叶斯分类技术,通过对样本库(包括正常短信和垃圾短信)训练,得到特征库,以此作为判定短信的依据,实现智能识别垃圾短信。系统在接收短信的时候,自动通过短信内容对新短信息进行判断。例如短信“恭喜您在《快乐大本营》节目的抽奖中了小轿车一部,请尽快登陆kldby.com领取奖品”会被直接判定为中奖类垃圾短信。
[0066]2、由于中文的复杂性,难以在中文句子中获得特征词,朴素贝叶斯分类获取普遍应用只在对英文处理上,而本发明结合了中文分词算法,可以为朴素贝叶斯分类算法提供中文短信分割后的词组作为特征词,实现了对中文短信的分类判定。
[0067]3、分词处理时,如 果只采用一种分词算法,可能会有关键词被遗漏。本发明对样本库进行分词处理时,采用逆向最大匹配算法和正向最大匹配算法相结合的方法,得到可能的所有的词组组合,弥补了仅使用一种分词匹配算法带来的误差,为朴素贝叶斯分类算法提供了更完整的样本,大大提高了智能判定短信的正确率。
[0068]4、对新短信息进行去噪处理,去除符号的干扰,提高垃圾短信判定的正确率。
[0069]5、为了使用户能够自主的排除不想要接收的垃圾短息,系统设计了数据库存储黑名单、关键词,用户可以自主的设置黑名单号码,可以自主的增删关键词,用此作为拦截垃圾短信的判别条件。
[0070]6、为了使用户能够查看垃圾短信记录,系统设计数据库存储垃圾短信记录,方便用户查看和恢复一些误删的垃圾短信。
【专利附图】

【附图说明】
[0071]图1为本发明一实施方式种基于朴素贝叶斯分类的手机垃圾短信过滤方法的实现过程示意图。
[0072]图2为图1实施例中垃圾短信判定过程的示例性流程示意图。
[0073]图3为图1实施例中朴素贝叶斯分类的垃圾短信智能过滤的实现流程示意图。
[0074]图4为图1实施例中分词处理的一个示例性流程示意图。
[0075]图5为图4实施例中正向最大匹配算法的实现流程示意图。
[0076]图6为本发明一实施方式种基于朴素贝叶斯分类的手机垃圾短信过滤系统的结构示意图。
[0077]图7为图6实施例中黑名单过滤模块的一个示例性结构示意图。[0078]图8为图6实施例中关键词过滤模块的一个示例性结构示意图。
[0079]图9为图6实施例中朴素贝叶斯分类智能过滤模块的一个示例性结构示意图。
【具体实施方式】
[0080]为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
[0081]图1所示为本发明一实施方式种基于朴素贝叶斯分类的手机垃圾短信过滤方法的实现过程,其中,基于朴素贝叶斯分类的手机垃圾短信过滤方法,包括以下2个基本步骤:步骤I—准备阶段,以及步骤2—垃圾短信判定阶段。下面结合图1-图5所示,对这两个阶段进行具体的说明。
[0082]如图1所示,步骤1、准备阶段,其包括以下过程:
[0083]步骤1-1、选择一个或多个联系人号码作为黑名单号码,并将这些联系人号码存入
一黑名单数据库;
[0084]步骤1-2、选择一个或多个关键词作为过滤词,并将这些关键词存入一关键词数据库;
[0085]步骤1-3、对正常短信样本库和垃圾短信样本库进行分词和训练处理,得到特征词库,其中包括每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成特征向量。
[0086]作为较佳的实施例,黑名单号码和关键词的选择具有用户自主性,用户可以自行设定黑名单号码与关键词,并存储在对应的黑名单数据库和关键词数据库中。黑名单数据库和关键词数据库可以配置在手机系统的数据库中,例如安卓手机系统的SQLite数据库中。
[0087]当用户欲添加黑名单时,可以手动添加或者从手机联系人中选择,可以查看和删除黑名单,从黑名单联系人发来的任意短信都将被拦截,存入垃圾短信数据库内。该垃圾短信数据库也可以是配置在手机系统的数据库中,例如安卓手机系统的SQLite数据库中。
[0088]同理地,用户可以自主添加关键词,如“中奖、“汇钱”等,当新短信包含关键词时,不论新短信的号码是否在黑名单中,此短信都将被拦截,存入垃圾短信记录数据库。用户可以查看和删除已有的关键词。
[0089]作为优选的实施例,如图3并参考图1所示,前述步骤1-3包括以下步骤:
[0090]步骤1-3-1、获取正常短/[目样本库和垃圾短/[目样本库;
[0091]步骤1-3-2、对正常短信和垃圾短信进行分词处理,采用正向最大匹配算法和逆向最大匹配算法抽取词组,取该两种算法抽取结果的并集得到词组组合,为朴素贝叶斯分类训练提供样本词组;
[0092]步骤1-3-3、重复上述步骤1-3-2,直到对正常短信样本库和垃圾短信样本库中所有的正常短信和垃圾短信分词处理完毕,得到样本词组库;
[0093]步骤1-3-4、对样本词组库的分词结果进行统计,通过朴素贝叶斯分类算法进行训练处理,统计出正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,组成特征向量,从而得到整个样本词组库的特征词库。
[0094]在该步骤1-3中,准备短信样本库(包括正常短信样本库和垃圾短信样本库)后,对其进行分词处理,对切割后的词组进行词频统计,选择特征向量,得到特征库,其中包含每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成特征向量。
[0095]将短信分为K类:,记为C= IC1, C2, C3, , CJ,垃圾短信和正常短信S和S’,则每个类Ci的先验概率为P (Ci), i=l, 2,...,k,其值为Ci类的样本数除以训练集总样本数η。对分词结果提供的词组进行统计,得出特征词的条件概率。
[0096]在可选的实施例中,正常短信样本库和垃圾短信样本库可以从网络中更新,也可以手动添加。
[0097]作为优选的实施例,参考图4所示,前述步骤1-3-2的分词处理包括以下步骤:
[0098]a)正常短信或垃圾短信的短信文本输入;
[0099]b)对输入的短信文本进行去噪处理;
[0100]c)采用正向最大匹配算法抽取词组;
[0101]d)采用逆向最大匹配算法抽取词组;
[0102]e)合并上述步骤c和d的抽取结果;以及
[0103]f)输出分词结果。
[0104]例如,对于分词文本“有意见分歧”,通过两种算法分词得到的结果为“有意”、“见”、“分歧”和“有”、“意见”、“分歧”。本实施例中取结果的并集,得到可能的所有的词组组合,弥补了仅使用一种分词匹配算法带来的误差,为朴素贝叶斯分类算法提供了更完整的样本,大大提高了智能判定短信的正确率。
[0105]图5所示为分词程序中正向最大匹配算法的流程图。正向最大匹配算法,从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。图中词典是分词匹配算法中匹配为词组的依据,本实施例中选新华字典作为分词程序词典,当然并不以此为限制。
[0106]如图5所示,正向最大匹配法完成分词的一部分处理,其包括以下过程:
[0107]a)将词典的每个词条读入内存,最长是4字词,最短是I字词;
[0108]b)从样本短信中读入一段(一行)文字,保存为字符串;
[0109]c)如果字符串长度大于4个中文字符,则取字符串最左边的4个中文字符,作
[0110]为候选词;否则取出整个字符串作为候选词;
[0111]d)在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最右字,重复这步进行查找,直到候选词为I个中文字符;
[0112]e)将候选词从字符串中取出、删除,回到第3步直到字符串为空;
[0113]f)回到第b步,直到样本短信已读完。
[0114]逆向最大匹配算法,与正向最大匹配算法相反,从右到左将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。在此不做赘述。
[0115]下面介绍步骤2—垃圾短信判定阶段。
[0116]参考图1、图2结合图3所示,步骤2——垃圾短信判定阶段,其包括以下过程:
[0117]步骤2-1、监听手机系统的短信事件,对新收到的短信息进行信息截取;
[0118]步骤2-2、判断短信息是否由黑名单数据库中的至少一个黑名单号码发送的,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-3 ;
[0119]步骤2-3、判断短信息的内容是否包含关键词数据库中的至少一个关键词,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-4 ;[0120]步骤2-4、基于前述步骤1-3所得特征词库中的特征向量,使用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判定该短信息为垃圾短信,并进入步骤2-5,否则,判断为正常短信,进入步骤2-6 ;
[0121]步骤2-5、将判断为垃圾短信的短信息存入一垃圾短信数据库;
[0122]步骤2-6、将判断为正常短信的短信息存入手机系统收信箱。
[0123]作为优选的实施例,在上述步骤2之后还包括以下步骤:
[0124]步骤3、查看存储于垃圾短信数据库中的垃圾短信拦截记录。
[0125]作为更优选的实施例,在上述步骤3之后还包括以下步骤:[0126]步骤4、删除或恢复存储于垃圾短信数据库中的垃圾短信。
[0127]如图2所示,作为优选的实施例,前述步骤2-4,包含以下步骤:
[0128]a)对短信息内容进行去噪处理,删除无用符号和/或数字;
[0129]b)匹配出短信息内容包含的特征词;
[0130]c)根据所包含特征词的条件概率计算此短信是或不是垃圾短信的概率;
[0131]d)判断是垃圾短信与不是垃圾短信的概率比是否高于一指定阈值:如果是,则判断为正常短信;如果否,则判断为垃圾短信;以及
[0132]e)输出判断结果。
[0133]为了方便理解和说明,下面简要介绍下朴素贝叶斯分类的实现原理,如下:
[0134]将短信分为K类,记为C=IC1, C2, C3,...,Ck},则每个类Ci的先验概率为P(Ci), i=l, 2,...,k,其值为Ci类的样本数除以训练集总样本数η。
[0135]在给定的C类文本中第i个词出现的概率可以表示为:p(Wi|C)
[0136]对于一个给定类别C,词Wi的出现在短信D的概率表示为
[0137]P(D I O = Π I C)⑴
[0138]短信D属于类C的概率即P (C|D)有:
[0139]p(D I C) =( 2 )
'p(C)

p1./)Π ο
[0140]p(C I D) = ^.....................?................'.....................^(3)

P(D)
[0141]通过朴素贝叶斯定理将上述概率处理成似然度的形式:
[0142]P(ClD) = ^P(OlC)(4)

/>(()
[0143]即,去垃圾短信和正常短信为类S和S’,则
[0144]P(DIS) = IIP(WiIS)(5)
[0145]P(DIS) = OMwfIS')(6)
[0146]每个短彳目是或不是垃圾短彳目的概率是:[0147]是垃圾短信_率=抑ID、=器Is)(7)
[0148]不是垃圾短信的概率:
【权利要求】
1.一种基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,包括以下步骤: 步骤1、准备阶段,其包括以下过程: 步骤1-1、选择一个或多个联系人号码作为黑名单号码,并将这些联系人号码存入一黑名单数据库; 步骤1-2、选择一个或多个关键词作为过滤词,并将这些关键词存入一关键词数据库;步骤1-3、对正常短信样本库和垃圾短信样本库进行分词和训练处理,得到特征词库,其中包括每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成特征向量; 步骤2、垃圾短信判定阶段,其包括以下过程: 步骤2-1、监听手机系统的短信事件,对新收到的短信息进行信息截取; 步骤2-2、判断短信息是否由黑名单数据库中的至少一个黑名单号码发送的,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-3 ; 步骤2-3、判断短信息的内容是否包含关键词数据库中的至少一个关键词,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-4 ; 步骤2-4、基于前述步骤1-3所得特征词库中的特征向量,使用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判定该短信息为垃圾短信,并进入步骤2-5,否则,判断为正常短信,进入步骤2-6 ;步骤2-5、将判断为垃圾短信的短信息存入一垃圾短信数据库; 步骤2-6、将判断为正常短信的短信息存入手机系统收信箱。
2.根据权利要求1所述的基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,前述步骤1-3包括以下步骤: 步骤1-3-1、获取正常短信样本库和垃圾短信样本库; 步骤1-3-2、对正常短信和垃圾短信进行分词处理,采用正向最大匹配算法和逆向最大匹配算法抽取词组,取该两种算法抽取结果的并集得到词组组合,为朴素贝叶斯分类训练提供样本词组; 步骤1-3-3、重复上述步骤1-3-2,直到对正常短/[目样本库和垃圾短/[目样本库中所有的正常短信和垃圾短信分词处理完毕,得到样本词组库; 步骤1-3-4、对样本词组库的分词结果进行统计,通过朴素贝叶斯分类算法进行训练处理,统计出正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,组成特征向量,从而得到整个样本词组库的特征词库。
3.根据权利要求2所述的基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,前述步骤1-3-2包括以下步骤: a)正常短信或垃圾短信的短信文本输入; b)对输入的短信文本进行去噪处理; c)采用正向最大匹配算法抽取词组; d)采用逆向最大匹配算法抽取词组; e)合并上述步骤c和d的抽取结果;以及 f )输出分词结果。
4.根据权利要求1-3中任意一项所述的基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,前述步骤2-4,包含以下步骤: a)对短信息内容进行去噪处理,删除无用符号和/或数字; b)匹配出短信息内容包含的特征词; c)根据所包含特征词的条件概率计算此短信是或不是垃圾短信的概率; d)判断是垃圾短信与不是垃圾短信的概率比是否高于一指定阈值:如果是,则判断为正常短信;如果否,则判断为垃圾短信;以及 e)输出判断结果。
5.根据权利要求1所述的基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,前述基于朴素贝叶斯分类的手机垃圾短信过滤方法,在步骤2之后还包括以下步骤: 步骤3、查看存储于垃圾短信数据库中的垃圾短信拦截记录。
6.根据权利要求5所述的基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,前述基于朴素贝叶斯分类的手机垃圾短信过滤方法,在步骤3之后还包括以下步骤: 步骤4、删除或恢复存储于垃圾短信数据库中的垃圾短信。
7.一种基于朴素贝叶斯分类的手机垃圾短信过滤系统,其特征在于,包括: 一信息截取模块,用于监听手机系统的短信事件,对新收到的短信息进行信息截取; 一缓存,与所述信息截取模块数据连接,用于存储所述截取的短信息; 一黑名单过滤模块,与所述信息截取模块数据连接,用于基于预先设定的黑名单对新短信息进行过滤处理; 一关键词过滤模块,与所述信息截取模块数据连接,用于基于预先设定的关键词对对新短信息进行过滤处理; 一朴素贝叶斯分类智能过滤模块,与所述信息截取模块数据连接,基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判断为垃圾短信,否则判断为正常短信;一垃圾短信存储模块,用于存储被判断为垃圾短信的新短信息;以及一垃圾短信操作控制模块,与前述垃圾短信存储模块以及一手机系统短信箱数据交互,用于根据外部输入的操作对垃圾短信存储模块中的新短信息进行下述操作中的一种:查看、删除、恢复以及答复。
8.根据权利要求7所述的基于朴素贝叶斯分类的手机垃圾短信过滤系统,其特征在于,所述黑名单过滤模块包括黑名单输入控制模块、黑名单数据库、号码获取模块以及黑名单判断模块,其中: 黑名单输入控制模块,用于根据外部输入的操作控制黑名单号码的存储; 黑名单数据库,用于存储黑名单号码; 号码获取模块,与所述信息截取模块数据连接,用于获取新短信息的发信人号码; 黑名单判断模块,与号码获取模块数据连接,用于判断新短信息的发信人号码是否包含在黑名单数据库内。
9.根据权利要求7所述的基于朴素贝叶斯分类的手机垃圾短信过滤系统,其特征在于,所述关键词过滤模块包括关键词输入控制模块、关键词数据库、短信内容获取模块以及关键词判断模块,其中: 关键词输入控制模 块,用于根据外部输入的操作控制关键词的存储;关键词数据库,用于存储关键词; 短信内容获取模块,与所述信息截取模块数据连接,用于获取新短信息的短信内容; 关键词判断模块,与短信内容获取模块数据连接,用于判断新短信息的短信内容是否包含关键词数据库中的至少一个关键词。
10.根据权利要求7所述的基于朴素贝叶斯分类的手机垃圾短信过滤系统,其特征在于,所述朴素贝叶斯分类智能过滤模块包括样本短信库输入模块、分词模块、特征向量抽取模块、去噪处理模块以及朴素贝叶斯分类的垃圾短信判断模块,其中: 样本短信库输入模块,用于输入正常短信样本库以及垃圾短信样本库; 分词模块,用于对正常短信样本库和垃圾短信样本库中的样本短信采用正向最大匹配算法和逆向最大匹配算法相结合的方法抽取样本词组,组成样本词组库; 特征向量抽取模块,用于对样本词组库进行特征抽取,获取正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,得到整个样本词组库的特征词库; 去噪处理模块,与所述信息截取模块数据连接,用于对新短信息的短信内容进行去噪处理,删除无用符号和/或数字; 朴素贝叶斯分类的垃圾短信判断模块,与去噪处理模块数据连接,用于基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比`超过预设的阀值,则判断为垃圾短信,否则判断为正常短信。
【文档编号】H04M1/725GK103634473SQ201310654754
【公开日】2014年3月12日 申请日期:2013年12月5日 优先权日:2013年12月5日
【发明者】李文娟, 李千目, 戚湧, 候君, 孙向军 申请人:南京理工大学连云港研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1