一种引进查询软件的综合性短信过滤方法

文档序号:7747687阅读:170来源:国知局
专利名称:一种引进查询软件的综合性短信过滤方法
技术领域
本发明是一种采用基于关键字、通讯录和基于查询软件三层机制相结合的总体架 构,采用的多重垃圾短信检测手段,能有效地提高垃圾短信判断的准确度,降低误删率,在 一定程度上提高了短信拦截的成功率,属于移动终端信息安全的技术领域。
背景技术
随着中国手机用户的大量猛增,手机短信业务也凭借其价格便宜、随时随地收发 等优点得到快速、大面积的普及。与此同时,随之引发的“垃圾短息”问题也愈演愈烈。垃圾短信的猖獗现状不仅严重困扰手机用户的生活,同时也会引发一系列社会问 题,如利用短信传播谣言、煽动闹事等。因此,有效地屏蔽、过滤掉那些让人厌恶的垃圾短信 便显得格外具有现实意义。到目前为止,垃圾短信过滤的研究已有一定的历史,也提出了各种各样的技术方 案。诸如"关键字匹配"、“基于手机通讯录"、“基于用户信任度抽样法"等等,并达 到了一定的效果。但通过调查统计发现,单一的技术方案由于存在无可规避的技术缺陷,总 会给垃圾短信传播留有可乘之机,也因此降低了技术方案的预期效果。本发明提出了一种新的技术方案。该方案采用了传统技术方案的一些可取之处, 并首次引入"基于手机归属地查询"的构想,在提升垃圾短信过滤效果的同时,也具有简 易、实用的特点。现有技术方案及其缺陷1.基于关键字的过滤机制该方案公开了一种手机过滤短消息的方法,其特征是用户通过预先设定的关键词 来过滤接收到的短消息。主要包括下列步骤(1)用户预先设定需要过滤的短消息的关键 词;(2)手机协议层接收短消息中心发来的SMS-DELIVER数据包;(3)手机应用层分析接收 到的SMS-DELIVER的数据内容,判断是否含有预设的关键词;⑷如果含有预设的关键词, 则抛弃该短消息并向网络端回复相应的信号指示;(5)否则正常接收该短消息并向网络端 回复相应的信号指示。本发明通过手机软件过滤掉那些含有用户设定关键词的用户不希望 收到的短消息,并且无需为这些垃圾短消息支付不必要的费用。使用本发明提出的方法,可 以使手机用户能够自由自主的进行短消息的过滤。该方案对那些包含“使用频度比较高的关键字”的短信在一定程度上是有效的。但 垃圾短消息种类日益繁多,关键词设置需要不断积累。并且不法分子有可能采用同音字或 其他相近词句进行替代以逃避垃圾短信过滤机制,一方面增加了短信过滤的难度,另外一 方面也会大大降低屏蔽效果。此外,某些关键词设置不当容易导致短消息过滤不完全或将 正常短消息错误删除。2.基于通讯录的过滤机制该方案是一种基于手机通讯录的短消息过滤方法,所述方法包括手机默认设置 用户接收通讯录中的手机号码发来的短消息;手机提取短消息中发送方的手机号码,检查通讯录中是否至少有一个手机号码与之相同;如果没有,则检查用户设置是否提示不在通 讯录中的手机号码发过来的短消息;如果用户设置为提示,则提示用户接收或者丢弃该短 消息;如果用户设置为不提示,则直接丢弃该短消息;如果找到了一个与发送方手机号码 相同的号码,则检查该号码的是否接收短消息的标记;如果标记为接收,则把该短消息正常 显示给用户;否则手机丢弃该短消息。该方案,在占用较少手机终端资源的情况下,使手机用户方便地、自主地、有效地 免除垃圾短消息的干扰。但其缺点也很明显,即容易删除一些临时的陌生号码发来的有用
短信息。

发明内容
技术问题本发明的目的是提供一种引进查询软件的综合性短信过滤方法,采用 基于关键字、黑白名单和手机号归属地的多重过滤机制,能有效地提高准确度,降低误删 率,适应短信过滤高效性、准确性的要求。技术方案本发明的一种引进查询软件的综合性短信过滤方法是一种基于查询软 件并结合两种传统过滤手段的新型的综合性体系架构传统的基于关键字的短信过滤方案具有简单、针对性强等特点,对某些常用的敏 感性性词汇具有较强的过滤效果。但由于中国汉字繁目众多,存在许多相近相似词汇,因此 难以做到一一规避,容易漏掉尚未更新的敏感词汇,降低了屏蔽效果。司样,基于通讯录的过滤机制,目的性更强,对已知的恶意号码起到了很好的屏蔽 作用。不过对于那些临时的、恶意的或有用的号码却无能为力,容易出现误收或误删的情 况。本技术方案保留上述技术方案的优点,并引进“基于手机号归属地查询软件”的概 念,做到了很好的补充作用,有效地提高了短信过滤的准确度。具体方法为1).进入手机“设置选项”,选择开启或关闭垃圾短信过滤功能,当用户选择开启短 信过滤功能后,手机终端则会对短信来电进行监控;2).开启此功能后,短信过滤规则设置a)在特征库中设定关键词汇,b)设定黑、白名单,c)在手机号归属地名单中添加受信任用户号码归属地,3).手机协议层接收短消息中心发来的短信发送数据包,由手机应用层提取接收 到的短信发送数据包的内容与发送短信的手机号码并存储;4).关键词匹配若出现匹配对则视为垃圾短信;否则转向下一模块作进一步分 析;该步骤具体包括内容变换、词组分割及拼音替换;5).通讯录名单匹配已提取的短消息中发送方手机号码,检查是否存在通讯录 中的黑、白名单之列;若存在,根据黑、白名单之分输出判定结果;否则视为可疑短信转向 下一步;6).基于归属地匹配将发送可疑短信息手机号提交给手机号归属地查询模块, 并返回查询结果;为排除可能查询失败的情况,一旦查询失败则返回失败信息且把此短信当作垃圾短信处理并输出判定结果,若查询成功则转入步骤7);7).将成功查询的结果与手机归属地列表中记录逐一进行核对,检测是否在受信 任用户号码归属地名单中;否则视作垃圾短信处理,输出判定结果;8).依据判定结果进行相应处理,判定为合法信息时用户接收;否则为垃圾短信, 过滤处理。所述的关键词匹配的方法如下1)提取短信内容,短信原始内容通常为英文、数字和中文的混杂,2)对短信内容进行有意义的词组分割,得到一系列有意义的词汇,3)根据关键词汇设定,进行拼音替换,4)在分割得到的有意义词汇中,顺序匹配查找是否包含设定的关键字,得出结果 并做判定。所述的通讯录名单匹配的方法如下1)将提取短信发送方号码,将其与权力要求1步骤2中B选项通讯录中预设的黑 白名单进行匹配,2)顺序查找通讯录黑名单,若与其中某项匹配,则列为非法短信并输出判定结果; 否则进入3 ;3)查找通讯白名单内容,存在匹配项则视为合法短信;否则进入4 ;4)视为可疑手机号码,转入下一步骤查询其归属地作为进一步判定条件。所述的基于归属地匹配的方法如下1)将提取短信发送方手机号,作为查询软件输入,查询得到其归属地;2)将查询结果与设定的受信任归属地进行匹配,若也不属于受信任归属地,则视 为非法短信,输出判定结果。子模块及关键技术1.复杂关键字匹配分析子模块该分析子模块是整个短信过滤机制中第一道防线。通过对接收到短消息内容进行 词汇筛选,并与预设敏感词汇进行匹配。存在匹配对则视为垃圾短信予以屏蔽,否则转入下 一模块。主要涉及到汉字语法分析、拼音替换等技术。2.通讯录分析子模块通过在该子模块中设定黑白名单,白名单添加受信任用户号码,黑名单添加已知 的恶意号码。通过对号码进行精确性匹配,对短信性质实行判断。对于通讯录中不存在的 号码,则视为可疑号码,进入下一子模块进一步分析判断。3.基于查询软件子模块该子模块对短信息号码进行归属地查询,在实现方式上类似于子模块2部分。该 模块部分实现了一种群体划分效果,能对于某些更换号码的特定区域用户进行有效识别。有益效果本发明技术方案中引入基于查询软件进行短信识别的概念,并结合利 用了传统技术手段优点,实现了一种综合式的多重过滤机制。基于关键字查询部分实行拼 音替换能有效扩大敏感词汇识别范围;黑白名单双重设置,针对性更强;而引进查询软件 通过对短信息来源地进行分析,能更进一步对短信性质予以识别。该新型性、综合性的方案 提高了垃圾短信识别的准确度,降低了误删率。
具有简单易操作性,通过查询短信源地点,对号码进行区域群体性划分,扩大识别 范围的优点。


图1为该技术方案总体框架图,图2为短信分析模块具体示意图,图3为关键字匹配子模块示意图。
具体实施例方式(1)在通用手机设置模块增添垃圾短信过滤选项,手机用户可自行选择是否开启 短信过滤功能。当用户选择开启短信过滤功能后,手机终端则会对短信来电进行监控。(2)开启此功能后,子模块监测设置(a)在特征库中设定敏感词汇(b)设定黑白名单(c)在手机号归属地名单中中添加受信任用户号码归属地。(3)手机协议层接收短消息中心发来的SMS-DELIVER数据包,由手机应用层提取 接收到的SMS-DELIVER数据包的内容与发送短信的手机号码并存储。(4)受限敏感关键词匹配。值得说明的是,受限敏感关键字分为两种对于某些词 组如"法轮功",由于中国文字具有复杂性特征,垃圾短信中可以采用"发轮功"等相近 词组替代,我们称之为〃易替关键字〃,可以备份存取其拼音〃 falungong",对于其他〃 普通型关键字"则无需备份存取以减少查找的匹配次数。若出现匹配对则视为垃圾短信; 否则转向下一模块作下一步分析。(5)提取短消息中发送方手机号码,检查是否存在通讯录中的黑白名单之列。若存 在,根据黑、白名单之分输出判定结果;否则视为可疑短信转向下一步。(6)将可疑发送方手机号提交给手机号归属地查询模块,利用查询软件搜索手机 号归属地并返回查询结果;为排除可能查询失败的情况,一旦查询失败则返回failure信 息且把此短信当作垃圾短信处理并输出判定结果,为此应适时更新手机号查询库。若查询 成功则转入步骤(7)。(7)将成功查询的结果与手机归属地列表中记录进行核对,检测是否在受信任用 户号码归属地名单中;否则视作垃圾短信处理,输出判定结果。(8)综合上述查询步骤得出的结论,依据判定结果对短信进行相应处理,判定为合 法信息时用户予以接收,否则进行过滤处理。所述的关键词匹配的方法如下1)提取短信内容,短信原始内容通常为英文、数字和中文的混杂,2)对短信内容进行有意义的词组分割,得到一系列有意义的词汇,3)根据关键词汇设定,进行拼音替换,4)在分割得到的有意义词汇中,顺序匹配查找是否包含设定的关键字,得出结果 并做判定。所述的通讯录名单匹配的方法如下
1)将提取短信发送方号码,将其与权力要求1步骤2中B选项通讯录中预设的黑 白名单进行匹配,2)顺序查找通讯录黑名单,若与其中某项匹配,则列为非法短信并输出判定结果; 否则进入3 ;3)查找通讯白名单内容,存在匹配项则视为合法短信;否则进入4 ;4)视为可疑手机号码,转入下一步骤查询其归属地作为进一步判定条件。所述的基于归属地匹配的方法如下1)将提取短信发送方手机号,作为查询软件输入,查询得到其归属地;2)将查询结果与设定的受信任归属地进行匹配,若也不属于受信任归属地,则视 为非法短信,输出判定结果。本发明的优点1)主要技术引入拼音替换概念解决的问题通过将接收到的短消息内容同特征库中特征项匹配来初步判断是否 为垃圾短信。对于某些出现频率高的词汇进行拼音替换技术,例如法(fa)轮功=发(fa) 轮功。技术优点现有技术缺少拼音替换的概念,该方法可有效扩大敏感词汇识别范围。2)主要技术引进查询软件进行垃圾短信过滤。解决的问题通过手机号查询软件对短信息源地点进行识别,提高了对短信性质 判断的准确度。例如某恶意号码通过变更号码尾数,以试图规避垃圾短信检测机制,可通 过该子模块部分进行区域群体性划分,实现准确性拦截。
权利要求
一种引进查询软件的综合性短信过滤方法,其特征在于该方法具体如下1).进入手机“设置选项”,选择开启或关闭垃圾短信过滤功能,当用户选择开启短信过滤功能后,手机终端则会对短信来电进行监控;2).开启此功能后,短信过滤规则设置a)在特征库中设定关键词汇,b)设定黑、白名单,c)在手机号归属地名单中添加受信任用户号码归属地,3).手机协议层接收短消息中心发来的短信发送数据包,由手机应用层提取接收到的短信发送数据包的内容与发送短信的手机号码并存储;4).关键词匹配若出现匹配对则视为垃圾短信;否则转向下一模块作进一步分析;该步骤具体包括内容变换、词组分割及拼音替换;5).通讯录名单匹配已提取的短消息中发送方手机号码,检查是否存在通讯录中的黑、白名单之列;若存在,根据黑、白名单之分输出判定结果;否则视为可疑短信转向下一步;6).基于归属地匹配将发送可疑短信息手机号提交给手机号归属地查询模块,并返回查询结果;为排除可能查询失败的情况,一旦查询失败则返回失败信息且把此短信当作垃圾短信处理并输出判定结果,若查询成功则转入步骤7);7).将成功查询的结果与手机归属地列表中记录逐一进行核对,检测是否在受信任用户号码归属地名单中;否则视作垃圾短信处理,输出判定结果;8).依据判定结果进行相应处理,判定为合法信息时用户接收;否则为垃圾短信,过滤处理。
2.根据权利要求1所述的一种引进查询软件的综合性短信过滤方法,其特征在于所述 的关键词匹配的方法如下1)提取短信内容,短信原始内容通常为英文、数字和中文的混杂,2)对短信内容进行有意义的词组分割,得到一系列有意义的词汇,3)根据关键词汇设定,进行拼音替换,4)在分割得到的有意义词汇中,顺序匹配查找是否包含设定的关键字,得出结果并做 判定。
3.根据权利要求1所述的一种引进查询软件的综合性短信过滤方法,其特征在于所述 的通讯录名单匹配的方法如下1)将提取短信发送方号码,将其与权力要求1步骤2中B选项通讯录中预设的黑白名 单进行匹配,2)顺序查找通讯录黑名单,若与其中某项匹配,则列为非法短信并输出判定结果;否 则进入3 ;3)查找通讯白名单内容,存在匹配项则视为合法短信;否则进入4;4)视为可疑手机号码,转入下一步骤查询其归属地作为进一步判定条件。
4.根据权利要求1所述的一种引进查询软件的综合性短信过滤方法,其特征在于所述 的基于归属地匹配的方法如下1)将提取短信发送方手机号,作为查询软件输入,查询得到其归属地;2)将查询结果与设定的受信 任归属地进行匹配,若也不属于受信任归属地,则视为非 法短信,输出判定结果。
全文摘要
一种引进查询软件的综合性短信过滤方法,引入基于查询软件进行短信识别的概念,并结合利用了传统技术手段优点,实现了一种综合式的多重过滤机制。基于关键字查询部分实行拼音替换能有效扩大敏感词汇识别范围;黑白名单双重设置,针对性更强;而引进查询软件通过对短信息来源地进行分析,能更进一步对短信性质予以识别。该新型性、综合性的方案提高了垃圾短信识别的准确度,降低了误删率。具有简单易操作性,通过查询短信源地点,对号码进行区域群体性划分,扩大识别范围的优点。
文档编号H04M1/2745GK101888445SQ20101016221
公开日2010年11月17日 申请日期2010年4月30日 优先权日2010年4月30日
发明者孙知信, 宫婧, 谭雪理 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1