一种垃圾短信过滤方法

文档序号:7646663阅读:579来源:国知局
专利名称:一种垃圾短信过滤方法
技术领域
本发明属于网络通信技术领域的短信息处理技术,具体来讲,涉及一种在 通信系统的短信服务中心对用户短信进行监管和过滤的方法。
背景技术
近几年来,由于移动通信技术的快速发展,催化了诸多增值服务的产生。 短信作为移动通信的增值服务之一,在为人们提供价格低廉和便捷的通信服务 的同时,滋生了大量以传播淫秽色情、商业欺诈、恶意诋毁以及商业广告等不 良信息为目的垃圾短信。这些垃圾短信严重干扰人们生活、妨害社会安全以及 造成网络拥塞,垃圾短信的监管问题已经受到社会各界的广泛重视。除了从立 法层面加强对信息发布进行监管外,更重要的是要从技术层面探索垃圾短信有 效的防范技术。现有技术中,垃圾短信的过滤方式可以分为两种 一种是基于短信服务中 心的过滤方式,另外一种是基于用户手机的过滤方式。基于用户手机的过滤方式,如2007年03月07日公开的,公告号为CN 1929513A,名称为"一种短消息过滤方法"的中国发明专利,公布的短信过滤 方法为通过用户在手机上设置过滤敏感词;手机接收到来自短消息中心的短 信并保存在内存中;手机根据敏感词对短信内容进行字符串匹配,如果有敏感 词出现在短信内容中,则丢弃该短信,并向短消息中心发送成功接收消息;如 果在短信内容中没有发现敏感词,保存该短信。但这种基于用户手机的过滤方 式受手机处理能力、敏感词涵盖领域以及即时更新能力等方面的制约。目前,对于垃圾短信的过滤还是主要依靠基于短信服务中心的过滤方式进 行,如2006年01月25日公开的中国发明专利,公告号为CN 1725874A,名称 为"一种实现短消息业务的方法",公布了一种过滤方式,该方法中用户在网络 侧设置自身对应的短信过滤规则,在网络侧向接受方发送短信之前,网络侧根 据接收方的短信过滤规则判断是否需要过滤该短信,如果是,则不发送该短信;
否则,向接受方发送该短信。基于短信服务中心的过滤方式可以对短信中的敏 感词进行有效地更新,因而是目前的主流技术,己经有大量成熟的产品推出, 如北京启明星辰信息技术有限公司推出的天清短消息监控系统、北京宏基联合 网络技术开发有限公司的短信过滤系统SMS、成都西朗科技发展有限公司的SLMT短信监控系统、重庆瑞笛科技有限公司的Attractor VII-SMEYE短信息安 全系统、深圳市正普信息有限公司的ZP⑧-SM短信安全过滤系统等系统,以及 中兴、华为、思科、朗讯、惠普等公司推出垃圾短信产品等。另外,从短信的过滤技术,即垃圾短信的判定方法方面,主要是依据构成 短信的文字本身进行判断,目前主要采用基于关键词或基于内容的垃圾短信过 滤方法。基于关键词的垃圾短信过滤是设置一些关键词,只要具有这些关键词的短 信,就认定为垃圾短信,并予以滤掉,这种方法存在大量的査找运算以及漏判 或误判等缺陷。基于内容的垃圾短信过滤是采用机器学习方法把短信自动分为正常短信和 垃圾短信。目前用于短信自动分类的机器学习方法主要有朴素贝叶斯、SVM、 KNN、人工神经网络、Winnow算法等。基于内容的垃圾短信过滤与基于关键词 的垃圾短信过滤相比,其运算量更大。采用这些方法过滤时,短信服务中心需要对短信进行逐条分析,才能判断 是否是垃圾短信,因此处理的效率比较低。同时不管是基于关键词还是基于内 容的垃圾短信过滤方法,都存在大量运算,这样会造成短信服务中心网络堵塞, 其解决方法可采用放弃部分垃圾短信的过滤或延迟短信转发。发明内容本发明的目的在于克服上述现有技术中的不足,提供一种不需要对短信进 行逐条分析、处理效率较高的垃圾短信过滤方法。为实现上述发明目的,本发明的垃圾短信过滤方法,其特征在于,包括以 下步骤第一步,给每个短信用户设置一个用户信任度;第二步,根据短信用户的信任度,对经过短信服务中心的短信进行不同强
度的抽样过滤,用户信任度越低,抽样强度越高,用户信任度越高,抽样强度 越低,未被抽样到的短信作为正常短信予以发送,被抽样到的短信作为可疑短 信进入下一步;第三步,被抽样到的可疑短信,采用依据构成短信的文字信息确定短信是 否是垃圾短信,如是,直接过滤掉,如果不是,认定为正常短信,予以发送;第四步,依据短信用户短信发送情况,修改该短信用户的用户信任度,正 常短信的发送量越大,垃圾短信的发送量越小,用户信任度就会提高,反之, 则降低。依据构成短信的文字信息判定是否是垃圾短信的过滤方法,主要有前述的 基于关键词或基于内容的垃圾短信过滤方法。抽样强度,即抽样频率,也就是指在一定时间范围内,短信抽样数与总的 用户发送的短信数量之比。传统的垃圾短信过滤方法,需要对短信进行逐条分析,才能判断是否是垃 圾短信,因此处理的效率比较低。但实际情况是大部分用户所发送的短信都不 是垃圾短信,没有必要逐条分析,兼顾过滤的准确率和效率,本发明在假定大 多数用户发送短信为正常短信,只有极少数用户发送短信为垃圾短信的前提下, 在传统垃圾短信过滤方法的基础上,创新性地提出根据用户信任度的不同,对 发送到短信服务中心的短信进行不同强度的抽样,抽样到的短信再依据构成短 信的文字内容确定短信是否是垃圾短信,而不必对每一条短信进行逐条分析的 垃圾短信抽样过滤方法,提高了短信处理效率, 一定程度上解决了短信服务中 心网络堵塞。


图1是本发明一种具体实施方式
对垃圾短信过滤的流程图;图2是图1所示用户信任度抽样过滤步骤的具体实施方式
的流程图;图3是图1所示短信长度过滤步骤的具体实施方式
的流程图;图4是图1所示短信关键词过滤步骤的具体实施方式
的流程图;图5是图1所示短信内容过滤步骤的具体实施方式
的流程图;图6是图1所示正常短信处理流程的具体实施方式
的流程图7是图1所示垃圾短信处理流程的具体实施方式
的流程图;具体实施方式
下面结合附图,对本发明优选具体实施方式
进行描述。需要提醒注意的是, 在以下的描述中,当采用的已知功能和设计的详细描述也许会淡化本发明的主 题内容时,这些描述在这儿将被忽略。图1是本发明一种具体实施方式
对垃圾短信过滤的流程图。在本实施例中, 将本发明垃圾短信过滤方法融入并体现在用户信任度抽样过滤步骤、短信长度 过滤步骤短信关键词过滤步骤和短信内容过滤步骤,以及短信短信处理流程和 垃圾短信处理流程中。正常短信处理流程和垃圾短信的处理流程主要是为修改 以及怎样修改用户信任度以及怎样以及用户信任度抽样过滤提供的短信情况, 即垃圾短信和正常短信的发送情况,具体在下面的说明书中有详细的叙述。在本实施例中,本发明垃圾短信过滤方法的第三步将依据构成短信的文字 信息确定短信是否是垃圾短信的过滤方法,顺序地采用短信长度过滤、短信关 键词过滤和短信内容过滤三种过滤方法的结合,提高过滤的准确性。当然,在 具体实施时,本发明的第三步也可以选择采用短信长度过滤、短信关键词过滤 方法或短信内容过滤的其中一种。同时,本实施例中,第三步创新性地将上述 依次进行的短信长度过滤、短信关键词过滤以及短信内容过滤三种短信过滤的 组合起来,由于其在过滤时花费的时间依次增加,同时,在后的过滤方法处理 的可疑短信数量,由于前面的过滤,即部分可疑短信排除为垃圾短信并作为正 常短信予以发送后,会更少一些,这样在兼顾垃圾短信过滤系统处理的准确性 的同时,也提高了处理效率。下面分别对四个过滤步骤进行详细描述。过滤步骤l:用户信任度抽样过滤所谓用户信任度抽样,是指根据用户的信任度对用户所发送的短信进行相 应频率(强度)的抽样过滤。用户信任度是指对用户发送正常短信的信任程度, 可以依据用户垃圾短信的发送量、正常短信的发送量和总的短信发送量计算而 成。如果不同用户的垃圾短信发送量、正常短信发送量和总的短信发送量不同, 那么信任度就不同。因此,对这些用户抽样监测的频率(强度)也就不一样。 一般地讲,用户信任度越低,用户发送垃圾短信的可能性越大,被抽样的频率 强度越高;用户信任度越高,用户发送垃圾短信的可能性越小,被抽样的频率 强度越低。被抽样到的短信作为可疑短信,到下一步进行基于短信长度的过滤;未被抽样到的短信作为正常短信,并予以发送。同时,在本实施例中,结合传统的黑名单/白名单过滤方法,即在白名单 中的短信用户发送短信不受限制,默认发出的均为正常短信,在黑名单的短信 用户是被禁止发送任何短信,对已经确认的黑名单/白名单短信用户进行管理。如果用户的信任度为o,那么表示该用户为黑名单用户,则该用户所发送的短信是垃圾短信,将直接过滤掉;当用户的信任度为1,则表示该用户为白名单用户, 即特权用户,用户所发送的短信是正常短信,直接给予通过,不再进行依据构 成短信的文字本身确定短信是否是垃圾短信的垃圾短信过滤。而信任度位于0 到1区间内的用户,则是普通用户。普通用户发送的短信,将按其信任度的不 同,进行不同频率强度的抽样,对被抽取到的短信进行依据构成短信文字内容 判定短信是否是垃圾短信。这样,就将本发明的垃圾短信的过滤方法与传统黑 名单/白名单过滤方法结合起来了。 过滤步骤2:短信长度的过滤接收上一步来的可疑短信,计算短信内容的长度,判断短信内容的长度是 否超过设定的阈值。当短信长度超过设定阈值时,该短信为可疑短信,到下--步进行关键词过滤;短信的长度小于设定阈值时,该短信为正常短信,并予以 发送。基于短信长度的过滤方法主要根据设定的垃圾短信最小长度阈值来判断用 户发送的短信是否为正常短信。由于短信的长度有一定的限制, 一般为140个 英文字符长度,也就是70个中文字符。根据统计发现垃圾和非垃圾短信在长度 上有很明显的区别,垃圾短信普遍具有更长的长度,也就是说具有更多的信息。 因此可以根据短信的长度对短信进行初步的判定, 一般长度比较短的短信是垃 圾短信的可能性相对比较小。在该模块中的短信长度,可以通过分析历史垃圾 短信的长度分布模式而动态设定。过滤步骤3:短信关键词过滤接收上一步来的可疑短信,根据设定的关键词列表,检测用户发送的短信
中是否含有设定关键词,当用户发送含有某一关键词的短信量达到设定的阈值 时,提示管理员进行确认。如果是垃圾短信,直接拦截;若为正常短信,则给 予补发。若含有某关键词的短信数量未达到设定的阈值,则该短信作为可疑短 信到下一步进行短信内容过滤。关键词过滤主要通过设定一些关键词来判断用户发送垃圾短信的可能性。 系统初始时有一个初始值关键词列表,根据系统的运行情况由系统管理员对其 进行灵活调整,从位于垃圾短信库中提取新的垃圾关键词扩充到关键词列表中, 并由系统管理员定时删除过时的关键词。过滤歩骤4:短信内容过滤短信内容过滤主要根据短信的内容进行分类过滤。在本实施例中,该内容 过滤主要采用贝叶斯分类算法,其训练样本来自于正常短信库和垃圾短信库。 接收上一步来的可疑短信,对其进行自动的分类。分类为正常短信的将直接予 以发送,并放入正常短信库中;若判断为垃圾短信,则拦截掉,并放入垃圾短 信库中。同时根据新扩充的正常短信和垃圾短信更新分类器。在本实施例中,根据用户的信任度确定对不同短信用户的过滤强度,这样 使得大部分用户所发送的短信都能直接通过,只有小部分用户所发送的短信接 受相应的检测,大大提高了过滤系统的处理效率;此外,在本实施例中,本发 明还整合了传统的垃圾短信过滤技术,构成了一个多种方式的垃圾短信过滤方 法,对抽样到的短信进行有效的判别,较之采用单一过滤技术准确性有了很大 提高。图2是图1所示用户信任度抽样过滤步骤一种具体实施方式
的流程图。在 本实施例中,用户信任度抽样过滤的具体步骤为 a)、初始化用户信息 统计用户短信的发送量w附,,正常短信的发送量附,。则用户的信任度为柳附'.其他 (1)
,'是用户编号,最小信任度c"化—M/7V和最大信任度cm&一M^可以根据情况 自适应的调整以符合实际要求,同时防止普通用户的信任度过低导致用户发送 的短信直接被认为是垃圾短信,或者信任度过高导致对使用用户过于疏于监控。 一般地,ct^^一M/7V可取0. 5, cm^—M4Z可取0.9995。黑名单用户信任度为0,特权用户信任度为1,直接过滤或予以发送,这类用户不需要进行抽样分析 短信的文字内容,则可判定短信是否是垃圾短信。此时,用户发送垃圾短信的 频率<formula>formula see original document page 10</formula>(2)
根据奈特斯特抽样原理,则用户发送垃圾短信抽样强度,即抽样频率<formula>formula see original document page 10</formula> (3)当cre^Y —M/iV取0. 5时,用户抽样频率为1,当cm/" —M4X取0. 9995时, 抽样频率0. 001.用户抽样间隔数<formula>formula see original document page 10</formula>
当cre必一M4X取0.5时,用户抽样间隔数为1,即对用户发送的短信进行连 续检测。cre必一M4Z取0.9995时,抽样间隔数为1000,即对用户发送的短信每 隔1000条进行抽样一次,并作为可疑短信。当用户为没有历史信息的新用户时, 则用户信任度设为cr^^, M/7V,用户短信的发送量wm,和正常短信的发送量m,都为0,此时需要连续确认用户发送的短信以获取用户发送短信的情况。 设置有连续抽样标志y/ag,, y^g,/n^表示需要连续抽样,当/7艰=々/^表示不 需要连续抽样。当用户发送的短信需要连续抽样时,"表示连续为正常短信的最 大条数, 一般取用户信任度最大时的抽样间隔数。此时设有一个计数器nl,,表 示连续检测时连续为正常短信的数量,初始值为O。b)、接收用户短信,检索用户信任度,判断是否为O、 l或其他值。 如果为O,则为黑名单用户,短信给予拦截;如果l,则为特权用户,短信给予直接通过,并予以发送;如果为其他值,则进行下一步。c) 、用户短信发送量w^ =^,+1,当连续抽样标志y^g,-^^时,转到过 滤步骤2,即短信长度过滤步骤。否则按(1)式计算用户信任度,当 c^&^cre必—MW,设/吸,-加e转到过滤步骤2。其他情况,则进行下一步。d) 、计数器^ +1 , 初始值为0,计算用户短信的抽样间隔数。若^ &>2terv《, 转到过滤步骤2,即对该条短信进行抽样,同时将,,置0;否则短信按正常短信 直接通过,并予以发送。此时用户正常短信的发送量w,-m,.+l。图3是图1所示短信长度过滤步骤的具体实施方式
的流程图。接收来自过 滤步骤l,即用户信任度抽样过滤步骤的可疑短信l,进行短信长度过滤。设垃 圾短信的长度大于x,因此,当短信的长度小于x时,则认为该短信是正常短信, 给予直接通过,并予以发送;对短信长度大于等于x时短信需要进行进一步的处理,作为可疑短信。其具体的过滤歩骤为a) 、接收步骤l,即用户信任度抽样过滤步骤来的可疑短信l;b) 、计算每条短信的长度;c) 、判断短信的长度是否大于设置的x,如果小于转到下一步d,否则转到e步;d) 、短信为正常短信,进入正常短信处理流程;e) 、该短信为可疑短信,转到过滤步骤2,即短信关键字过滤步骤。图4是图1所示短信关键词过滤步骤一种具体实施方式
的流程图。具体的 过滤步骤为a) 、接收步骤2,即短信长度过滤步骤来的可疑短信2;b) 、依据关键字列表,判断用户发送短信中是否含有设定的关键词,若没有,则将该短信作为可疑短信,转到过滤步骤3,即短信内容过滤步骤;若有, 对应的关键词数量^y, =fe_y, +1;C)、判断关键词的数量是否小于设定的一定频率的阈值如果小于,则转 到过滤步骤3,即短信内容过滤步骤;若检索到该用户发送包含有相同关键词内容的短信达到一定频率阈值,提 示相关系统管理人员确认核实是否属于垃圾短信Cl)、若是垃圾短信,则进入垃圾短信处理流程。 C2)、若是正常短信,则进入正常短信处理流程。图5是图1所示短信内容过滤步骤的具体实施方式
的流程图。具体的过滤步骤如下a) 、接收经步骤3的关键词过滤后的可疑短信3,进行特征提取后进入b步;b) 、参照训练样本特征库,根据可疑短信的特征信息,采用贝叶斯分类算法对可疑短信3进行分类;bl)、若是垃圾短信,则进入垃圾短信处理流程;b2)、若是正常短信,则进入正常短信处理流程。 图6是图1所示正常短信处理流程的一种具体实施方式
的流程图。当用户 短信确定为正常短信后,正常短信的发送量附,-w, + l,并判断当连续抽样标志 如g,是否为^e:如果-flg,不为&we,将该短信予以发送,返回到过滤步骤l,即用户信任度抽样过滤步骤;如果,则连续正常短信数W, ,判断Ml,是否小于(1-"e浙)x":如果"l,乂(l-o^逾,)x",则将该短信予以发送,返回到过滤步骤l,即用户信任度抽样过滤步骤;若A》(1 -tre淑,)x ",则^"g, = , = 0 ,并将该短信予以发送,返回到过滤步骤l,即用户信任度抽样过滤步骤。图7是图1所示垃圾短信处理流程的一种具体实施方式
的流程图。当用户短信确定为垃圾短信后,判断当连续抽样标志y/"g,是否为如果y^gi,则连续正常短信数"l, = 0 ; 如果^kg, = /a&e ,则连续正常短信数"l, = 0 , yZag, = ; 将该短信予以拦截,返回到过滤步骤l,即用户信任度抽样过滤步骤。 尽管上面对本发明说明性的具体实施方式
进行了描述,。以便于本技术领域 的技术人员理解本发明,但应当清楚,本发明不限于具体实施方式
的范围,对 本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定 的本发明的精神和范围内,这些变化是显而易见的, 一切利用本发明构思的发 明创造均在保护之列。
权利要求
1、一种垃圾短信过滤方法,其特征在于,包括以下步骤第一步,给每个短信用户设置一个用户信任度;第二步,根据短信用户的信任度,对经过短信服务中心的短信进行不同强度的抽样过滤,用户信任度越低,抽样强度越高,用户信任度越高,抽样强度越低,未被抽样到的短信作为正常短信予以发送,被抽样到的短信作为可疑短信进入下一步;第三步,被抽样到的可疑短信,采用根据短信的文字信息来判定短信是否是垃圾短信的过滤方法,如是,直接过滤掉,如果不是,认定为正常短信,予以发送;第四步,依据短信用户短信发送情况,修改该短信用户的用户信任度,正常短信的发送量越大,垃圾短信的发送量越小,用户信任度就会提高,反之,则降低。
2、 根据权利要求1所述的垃圾短信过滤方法,其特征在于,所述的根据短 信的文字信息判定短信是否是垃圾短信的过滤方法为顺序地采用短信长度过 滤、短信关键词过滤和短信内容过滤相结合的过滤方法。
3、 根据权利要求1或2所述的垃圾短信过滤方法,其特征在于,所述的用户信任度为<formula>formula see original document page 2</formula>其中^m,为用户短信的发送量,m,为正常短信的发送量,/是用户编号,crea^_M/7V最小信任度值,cmfe_M4X为最大信任度。
4、 根据权利要求3所述的垃圾短信过滤方法,其特征在于,所述的抽样强 度为— s譜/ /《=2x j朋/r一/ =2x(l — cm/",.)。
5、 根据权利要求3所述的垃圾短信过滤方法,其特征在于,所述的抽样过滤为计数器^^,+l,《初始值为0,计算用户短信的抽样间隔数:<formula>formula see original document page 3</formula>若(^WmW,,对该条短信进行抽样,可疑短信进入下一步,同时将《置0; 否则短信按正常短信直接通过,并予以发送。
6、 权利要求3所述的垃圾短信过滤方法,其特征在于,所述的用户信任度 是经过一定数量的连续抽样后,按照3上述的公式计算得到。
7、 根据权利要求6所述的垃圾短信过滤方法,其特征在于,依据构成短信 的文字信息确定短信是否是垃圾短信,如是,则需要重新经过一定数量的连续 抽样。
全文摘要
本发明公开了一种垃圾短信过滤方法,包括以下步骤给每个短信用户设置一个用户信任度;根据短信用户的信任度,对短信进行不同强度的抽样过滤,未被抽样到的短信作为正常短信予以发送,被抽样到的短信作为可疑短信;可疑短信,采用依据构成短信的文字信息确定短信是否是垃圾短信,如是,直接过滤掉,如果不是,认定为正常短信,予以发送;依据短信用户短信发送情况,修改该短信用户的用户信任度。本发明在传统垃圾短信过滤方法的基础上,创新性地提出根据用户信任度的不同,对短信进行不同强度的抽样,再依据构成短信的文字内容确定短信是否是垃圾短信,不对每一条短信进行逐条分析,提高了短信处理效率,一定程度上解决了短信服务中心网络堵塞。
文档编号H04W4/14GK101150756SQ200710050448
公开日2008年3月26日 申请日期2007年11月8日 优先权日2007年11月8日
发明者彦 傅, 娜 关, 周俊临, 尚明生, 钟延辉, 陈安龙 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1