垃圾短信过滤方法及引擎的制作方法

文档序号:7803539阅读:337来源:国知局
垃圾短信过滤方法及引擎的制作方法
【专利摘要】本发明提供了一种垃圾短信过滤方法和垃圾短信过滤引擎。所述方法可以包括:通过短信内容分类器确定短信的类别;根据用户个性化信息配置表,判断所述短信的类别是否属于用户感兴趣或反感的类别;以及根据判断结果过滤所述短信。根据本发明的实施例,实现了一种基于短信内容的个性化短信过滤系统,提高了垃圾短信过滤的准确率。
【专利说明】垃圾短信过滤方法及引擎
【技术领域】
[0001]本发明涉及移动通信领域,更具体地,涉及垃圾短信的过滤方法和设备。
【背景技术】
[0002]近些年,随着移动电话的普及率越来越高,以及短信的成本越来越低,利用短信来实现营销、甚至实施诈骗的行为越来越多。用户不希望接收到的或与用户无关的大量的短信被称为垃圾短信。根据统计,约有35%的移动电话用户不同程度地受到过垃圾短信的骚扰。每个用户平均每月收到的垃圾短信约为8条。按照2013年3月底中国移动电话用户总数已达11.46亿的统计来保守估计,我国移动电话用户平均每天收到的垃圾短信总量将超过三亿条。垃圾短信已经成为一个严重的社会问题。
[0003]为了避免垃圾短信的骚扰,智能移动电话的用户通常选择安装垃圾短信过滤引擎来避免骚扰。然而,现有的短信过滤技术在用户个性化方面存在很大欠缺。众所周知,同一条短信或者某一类短信对于一些用户而言可能是垃圾短信,而对于另外一些用户而言却可能属于宝贵的信息。例如,房地产广告短信可能对于绝大部分用户都属于垃圾信息,但是对于刚好有购房等相关需求的用户而言却是有用的信息。又如,一些教育培训、投资理财等广告推广类信息是否属于垃圾短信也取决于用户当时的兴趣需求。然而,目前针对用户个性化的技术解决方案主要停留在短信发送号码层面,即通过用户设置自定义黑白名单对特定号码进行硬性判断。这种基于发送方号码的黑白名单的方案虽然能起到一定效果,但是不能从“用户在特定时间段对特定内容类别的信息感兴趣”这一角度解决问题,因而也就无法完成基于短信内容的用户个性化垃圾短信过滤。
[0004]因此,需要一种更有效的考虑用户个性化需求的短信过滤机制。

【发明内容】

[0005]为了实现该目的,本发明提供了一种改进的垃圾短信过滤方法和垃圾短信过滤引擎,其不仅考虑短信发送方号码,还考虑用户对短信内容的个性化需求。
[0006]为了解决现有短信过滤机制欠缺用户个性化考虑的问题,本发明提出:通过引入基于统计的文本分类系统对短信进行内容分类,通过用户的主动配置或使用过程中的反馈信息来捕捉用户兴趣点和/或反感点,从而在现有短信过滤系统的基础上辅以个性化的短信分类判定,给出更加符合用户需求的最终结果。
[0007]根据本发明的一个方面,提供了一种垃圾短信过滤方法。该方法可以包括:通过短信内容分类器确定短信的类别;根据用户个性化信息配置表,判断所述短信的类别是否属于用户感兴趣或反感的类别;以及根据判断结果过滤所述短信。
[0008]在本发明的一些实施例中,所述短信内容分类器可以是基于支持向量机SVM模型。在本发明的另一些实施例中,所述短信内容分类器可以是基于朴素贝叶斯模型。根据本发明的实施例,所述短信内容分类器是通过基于众多样本的训练而获得的。
[0009]在本发明的一些实施例中,所述用户个性化信息配置表可以是由用户主动配置的。在本发明的另一些实施例中,所述用户个性化信息配置表可以根据用户反馈来自动配置。在本发明的一些优选实施例中,可以既通过用户主动配置用户个性化信息配置表,而且通过收集用户反馈来自动更新用户个性化信息配置表,从而不断地完善用户个性化信息配置表。
[0010]在一些实施例中,根据本发明实施例的短信过滤方法主要针对安卓系统的移动电话。
[0011]在本发明的一些实施例中,过滤所述短信不仅依据短信的类别是否属于用户感兴趣或反感的类别的判断结果,还依据所述短信的发送方号码。
[0012]根据本发明的第二方面,提供了一种垃圾短信过滤引擎。该垃圾短信过滤引擎可以包括:短信内容分类器,配置用于确定短信的类别;用户个性化信息收集单元,配置用于收集用户个性化信息以维护用户个性化信息配置表;判断单元,配置用于根据用户个性化信息配置表,判断所述短信的类别是否属于用户感兴趣或反感的类别;以及过滤单元,配置用于根据判断结果过滤所述短信。
[0013]在一些优选实施例中,根据本发明的垃圾短信过滤引擎针对安卓系统的移动电话。
[0014]在一些实施例中,根据本发明的垃圾短信过滤引擎作为客户端安装在移动电话上。
[0015]在另一些实施例中,根据本发明的垃圾短信过滤弓I擎安装在服务器上。
[0016]根据本发明的第三方面,提供了一种移动电话,其包括根据本发明实施例的垃圾短信过滤引擎。
[0017]根据本发明的第四方面,提供了一种服务器,其与移动电话可通信地耦合,并且包括根据本发明实施例的垃圾短信过滤弓I擎。
[0018]本发明的垃圾短信过滤方案相当于在现有的垃圾短信过滤系统上,添加了一个基于统计的文本内容分类器,根据用户个性化的设定或反馈,对输入短信得出综合判断作为最终过滤结果。从而,与现有短信过滤机制相比,本发明的短信过滤机制在用户个性化方面提供了更优的性能。
【专利附图】

【附图说明】
[0019]通过下面结合【专利附图】
附图
【附图说明】本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
[0020]图1示意性地示出了在其中可以使用本发明实施例的移动通信系统100的应用场景的不意图;
[0021]图2示意性地示出了根据本发明实施例的垃圾短信过滤方法的流程图;
[0022]图3示意性地示出了根据本发明实施例的获得基于SVM模型的短信内容分类器的方法的流程图;以及
[0023]图4示意性示出了根据本发明实施例的垃圾短信过滤引擎的框图。
[0024]在本发明的所有附图中,相同或相似的结构均以相同或相似的附图标记进行标识。【具体实施方式】
[0025]现在将参考附图来详细描述本发明,附图中示出了本发明的说明性实施例,以使得本领域技术人员能够实现本发明。应该注意:以下附图和示例不意味着将本发明的范围限制为单一实施例,相反通过互换和组合不同实施例的一些或全部所述或所示元素形成其他实施例也是可能的。此外,在可以使用已知组件来部分或完全实现本发明的特定元素的情况下,将仅描述这些已知组件中为了理解本发明所必需的那部分组件,且将省略对这些已知组件中其他部分的详细描述,以使得本发明更突出。除非本文中另行指出,否则本领域技术人员应该理解:尽管本发明的一些实施例描述为用软件实形式现,但是本发明不受限于此,而是也可以用硬件、软件和硬件的组合来实现,且反之亦然。除非本文中另行明确声明,否则在本说明书中,不应将示出了单一组件的实施例视为是限制性的,而是本发明意在包含包括多个相同组件在内的其他实施例,且反之亦然。此外,本发明包含本文中作为示意所引用的已知组件的当前和将来开发的等价物。
[0026]如前所述,同一条短信或者某一类短信对于一些用户而言可能是垃圾短信,而对于另外一些用户而言却可能属于宝贵的信息。因此,由短信过滤机制的服务提供商设置基于短信发送方号码的黑白名单的过滤机制不能满足不同用户的个性化需求。另一方面,在现实生活中营销/推广类的短信数量众多,而且会不断出现新的营销短信发送方,因此由用户个人针对每个短信发送方号码设置黑白名单将是繁琐的,甚至是不现实的。
[0027]此外,越来越多的营销短信发送方可能使用从中国移动、联通、电信等运营商处购买的提供短信批量发送服务的商用短信号码(例如,以区号如021、075开头的号码,或者以106开头的号码)来发送短信。因此,依据现有的发送方号码的黑白名单的机制,容易漏报使用这些商用短信号码作为发送方的短信中的垃圾短信。如果用户将这些商用短信号码都设置为黑名单,则又可能将用户希望接收的真实的商家的推荐活动短信误报为垃圾短信。
[0028]因此,为了提高垃圾短信过滤效率,减少漏报和误报,本发明提出在垃圾短信过滤机制中除了考虑其他因素之外还考虑用户对短信内容的个性化需求。
[0029]图1是示出了根据本发明的移动通信系统100的应用场景的示意图。如图1所示,移动通信系统100可以包括移动电话120和服务器110。作为示例,在图中示出了四个移动电话120-1、120-2、120-3和120-4。但是应该理解,系统100可以包括更多或更少的移动电话。移动电话120通过通信网络130与服务器110相连。通信网络130的示例可以包括但不限于:互联网、移动通信网络。
[0030]服务器110通常是由提供垃圾短信过滤引擎的应用厂商维护和管理的。应用产商可以通过服务器110采集用户举报的短信以生成短信样本集,并且对短信样本集进行处理,以改进垃圾短信过滤引擎的过滤效果,减少误报和漏报。尽管图中仅示出一个服务器110,但是应该理解可以存在两个或更多的服务器110。还应该理解,服务器110可以是单独的物理实体,也可以分布在两个或更多个物理实体上。
[0031]移动电话120可以是能够发送和接收短信的任意移动电话。移动电话120上可以安装根据本发明实施例的垃圾短信过滤引擎。在本发明中短信不仅可以包括SMS消息,也可以包括彩信。当用户发现垃圾短信过滤引擎漏报或误报了短信时,可以使用其移动电话120向应用厂商进行举报。应该理解,本发明并不局限于所涉及的各个移动电话的具体通信协议,可以包括但不限于2G、3G、4G、5G无线通信技术,WCDMA, CDMA2000、TD-SCDMA无线技术等。不同的移动电话可以采用相同的通信协议,也可以采用不同的通信协议。本发明也不局限于移动电话的具体操作系统,可以包括但不限于Android、iOS、Windows Mobile、Symbian、Windows Phone、Blackberry OS等。不同的移动电话可以采用相同的操作系统,也可以采用不同的操作系统。应该注意,本发明的短信过滤方案特别适合于Android系统的移动电话。
[0032]服务器110和移动电话120可以通过各种无线通信协议进行通信,包括2G、3G、4G、5G 网络,WCDMA、CDMA2000、TD-SCDMA 系统、无线局域网(WLAN),等等。
[0033]下面参考图2和图3对本发明的垃圾短信过滤机制进行描述。
[0034]图2示意性地示出了根据本发明实施例的垃圾短信过滤方法200的流程图。当接收到某个短信时,垃圾短信过滤引擎将执行方法200以判断该短信(该短信也被称为待评测短?目)是否是垃圾短/[目。
[0035]在步骤S210中,通过短信内容分类器确定短信的类别。[0036]短信内容分类器指的是机器学习领域中基于统计的分类模型,比如常见的朴素贝叶斯或支持向量机(Support Vector Machine,简称SVM)分类器。下文主要以文本分类领域常用且具有良好分类性能的SVM为例进行说明。下文中也将这种基于SVM模型的短信内容分类器简称为SVM分类器。SVM的原理主要是在高维空间中找出分类间隔最大的决策超平面。
[0037]SVM分类器的实现大体可以分为训练和判别两部分。在训练之前,需要首先建立短信分类体系。完备的分类体系将是进行准确分类的前提。该短信分类体系可以根据大量短信样本统计得到。例如,根据对众多短信样本的统计可以将短信分为房地产、教育培训、投资理财、旅游出行等十余个常见类别。
[0038]下面,具体参考图3说明根据本发明实施例的SVM短信内容分类器的训练过程。
[0039]在步骤S310中,收集各个类别的短信样本。各个短信样本被赋予类别标签。比如房地产类设为1,教育培训设为2,等等。应该理解,可以以各种已知的或将来开发的其他方式来设置类别标签。
[0040]在步骤S320中,对短信样本逐一进行分词处理。作为示例,一条房地产类别的短信内容如下:“房价新闻!军博步行十分钟,长安街南酒店式精装小私邸,三条地铁零距离。全款80万!低于普宅价格!内部认购惊人优惠仅7天!垂询:58936688”。该短信经过分词处理后变为“房价新闻军博步行十分钟长安街南酒店式精装小私邸三条地铁零距离全款80万低于普宅价格内部认购惊人优惠仅7天垂询58936688”。
[0041]在步骤S330中,对短信样本进行特征选取。短信样本经过分词后,得到的所有特征词(keyword)就构成了特征向量空间。考虑到由于全部特征词构成的空间维度过高,为了简化计算复杂度可以仅选取那些对于分类的重要性高的部分维度。例如,该特征选取可以通过下述常用方法来实现:术语频率(Term Frequency,简称“TF”)、术语频率-逆文本频率(Term Frequency -1nverse Document Frequency,简称 “TF-1DF”)、信息增益(Information Gain,简称“IG”)等方法。优选地,对于短信这种短文本,可以选取最简单的TF方法。在TF方法中,选取TF值排名在前N(例如,在实验中选取N= 1000)的词语作为最终特征向量。
[0042]在步骤S340中,形成SVM模型。在步骤S330中完成了特征选取之后,原始的短信文本就可以转化为特征向量空间中的一个个样本点。所有的样本点输入后经过SVM模型计算即可找出分类决策面,从而完成模型的训练,得到SVM模型主体。
[0043]可选地,为了获取更好的分类效果,可以在可选步骤S350中对模型参数C(松弛变量)和gamma(径向基函数核所含参数)进行优化。例如,可以采用交叉验证(crossvalidation)经过多次训练,选出具有最好分类准确率的C和ga_a。
[0044]经过上述步骤,可以完成SVM模型的训练,于是方法300结束。
[0045]这种训练好的SVM模型可以作为根据本发明实施例的垃圾短信过滤引擎使用的短信内容分类器。例如,在步骤S210中,在接收到短信时,可以将该待评测短信输入SVM模型,经过计算得到该短信的分类判别结果。实验证明,在实际系统评测中,根据训练好的SVM模型对短信进行分类,分类准确率可以达到98%以上。
[0046]关于SVM模型的更多内容可以参考Joachims T.的论文“Text categorizationwith support vector machines: learning with many relevant features,,, Proceedingsof10th European Conference on Machine Learning(ECML-98),Chemnitz, DE, 1998:137-142。在此,通过引用将其全部内容并入本文。
[0047]在步骤S220中,根据用户个性化信息配置表,判断待评测短信的类别是否属于用户感兴趣或反感的类别。
[0048]如上文提到的,不同用户在不同时间段对不同类别信息的感兴趣程度或者反感程度是不一样的。如何能够最大程度地准确捕捉到这些用户个性化要素,是关系到短信过滤系统的最终性能的关键。本发明提出,使用用户个性化信息配置表来跟踪用户的兴趣点或反感点。根据本发明的实施例,例如可以通过下述两种方式来捕捉用户的兴趣点或反感点。
[0049](I)让用户主动进行配置
[0050]在应用层面上,可以允许用户自行配置用户个性化信息配置表,直接选择感兴趣的或者反感的短信类别。
[0051](2)在使用过程中提示用户反馈
[0052]由于大部分用户可能不习惯或者不愿意进行主动配置,则还可以在使用过程中收集反馈信息,例如收集关于漏报或误报的信息。例如,对于某个用户未配置类别的短信,短信过滤引擎可能将其判定为垃圾短信放入垃圾箱,而用户有将其从垃圾箱还原出的操作;或者短信过滤引擎将该某个短信判定为正常短信未加拦截,而用户有将其拖入垃圾箱的操作。在发现上述任一情况下,系统可以发出提示信息,以便提示用户是否将该类短信配置为兴趣点或者反感点。通过收集这种反馈信息,可以不断完善用户个性化信息配置表。
[0053]应该理解,上述两种方法可以单独使用也可以结合使用。而且,根据本发明的短信过滤系统还可以配置默认的用户个性化信息配置表。
[0054]在步骤S230中,可以根据步骤S220中的判断结果来过滤短信。在一个实施例中,当判断结果表明短信的类别是用户个性化信息配置表中配置的用户的感兴趣类别时(第一判别结果),可以将该短信判别为正常短信不加拦截。当判断结果表明短信的类别是用户个性化信息配置表中配置的用户的反感类别时(第二判别结果),可以将该短信判别为垃圾短信,从而将该短信放入垃圾箱。当判断结果表明短信的类别既不属于用户个性化信息配置表中配置的用户的感兴趣类别也不属于用户的反感类别时(第三判别结果),可以根据默认规则对该短信进行过滤,例如可以将这类短信视为正常短信不加拦截。[0055]优选地,本发明的短信过滤引擎不仅考虑短信的类别是否属于用户感兴趣或反感的类别,还考虑其他过滤标准,如短信的发送方号码。例如,在存在基于发送方号码的黑白名单的情况下,可以将上述属于第三判别结果的短信进行进一步的过滤,甚至也可以将属于第一判决结果的短信也进行进一步的过滤。
[0056]由于基于发送方号码的黑白名单的过滤方法是已知的,在此不再赘述。
[0057]图4示意性示出了根据本发明实施例的垃圾短信过滤引擎400的框图。与现有的垃圾短信过滤引擎类似,根据本发明的垃圾短信过滤引擎可以作为客户端安装在移动电话上,也可以安装在服务器上。
[0058]如图所示,垃圾短信过滤引擎400可以包括短信内容分类器410、
[0059]用户个性化信息收集单元420、判断单元430以及过滤单元440。
[0060]短信内容分类器410可以配置用于确定待评测短信的类别。如上所述,短信内容分类器410可以基于支持向量机SVM模型,或者可以基于朴素贝叶斯模型。根据本发明的实施例,短信内容分类器410是基于众多样本而训练得到的。
[0061]用户个性化信息收集单元420可以配置用于维护用户个性化信息配置表。该用户个性化信息配置表可以是由用户主动配置的。此外,该用户个性化信息配置表可以根据用户反馈来自动配置。在本发明的一些优选实施例中,可以既通过用户主动配置用户个性化信息配置表,而且通过收集用户反馈来自动更新用户个性化信息配置表,从而不断地完善用户个性化信息配置表。可选地,用户个性化信息收集单元420还可以配置默认的用户个性化信息配置表。
[0062]判断单元430可以配置用于根据用户个性化信息配置表,判断待评测短信的类别是否属于用户感兴趣或反感的类别。判断结果可以包括:
[0063]属于用户个性化信息配置表中配置的用户的感兴趣类别(第一判别结果);属于用户个性化信息配置表中配置的用户的反感类别(第二判别结果);以及,既不属于用户的感兴趣类别也不属于用户的反感类别时(第三判别结果)。
[0064]过滤单元440可以配置用于根据上述判断结果过滤所述短信。例如,当出现第一判别结果时,将短信判别为正常短信不加拦截。当出现第二判别结果时,将该短信判别为垃圾短信,从而将该短信放入垃圾箱。当出现第三判别结果时,根据默认规则对该短信进行过滤,例如可以将该短信视为正常短信不加拦截。优选地,本发明的短信过滤引擎400不仅考虑短信的类别是否属于用户感兴趣或反感的类别,还考虑其他过滤标准,如短信的发送方号码。例如,在存在基于发送方号码的黑白名单的情况下,过滤单元440可以将上述第三判别结果的短信(甚至属于第一判决结果的短信)进行进一步的过滤。
[0065]短信内容分类器410、用户个性化信息收集单元420和判断单元430以及过滤单元440可以分别实现在上述步骤S210、220和230完成的操作,在此不再赘述。
[0066]可选地,根据本发明实施例的垃圾短信过滤引擎还可以包括其他单元,如接收单元、存储单元等等。该接收单元可以配置用于接收待过滤(或测评)的短信、用户反馈信息等等。该存储单元可以配置用于存储接收的短信、用户反馈信息、用户个性化信息配置表和/或其他过滤标准、以及垃圾短信过滤过程中使用的或生成的其他数据。
[0067]上文已经结合优选实施例对本发明进行了描述。本领域技术人员可以理解,上面示出的方法和设备仅是示例性的。本发明的方法并不局限于上面示出的步骤和顺序。本发明的垃圾短信过滤引擎可以包括比示出的部件更多或更少的部件。本领域技术人员根据所示实施例的教导可以进行许多变化和修改。
[0068]本发明的设备及其部件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。
[0069]本发明可以实现诸多优点。本发明的技术方案在现有垃圾短信过滤系统的基础上,引入了机器学习领域的文本分类器,通过对短信分类以及与用户个性化信息配置的比较匹配,实现了一种基于短信内容的个性化短信过滤系统,从而进一步提高了垃圾短信过滤的准确率。
[0070]本领域技术人员应该理解,尽管通过具体实施例描述了本发明,但是本发明的范围不限于这些具体实施例。本发明的范围由所附权利要求及其任何等同含义限定。
【权利要求】
1.一种垃圾短信过滤方法,包括: 通过短信内容分类器确定短信的类别; 根据用户个性化信息配置表,判断所述短信的类别是否属于用户感兴趣或反感的类别;以及 根据判断结果过滤所述短信。
2.根据权利要求1所述的方法,其中所述短信内容分类器基于支持向量机SVM模型。
3.根据权利要求1所述的方法,其中所述用户个性化信息配置表是由用户主动配置的。
4.根据权利要求1或3所述的方法,其中所述用户个性化信息配置表根据用户反馈来自动更新。
5.根据权利要求1一 3中任一项所述的方法,其用于安卓系统的移动电话。
6.一种垃圾短信过滤引擎,包括: 短信内容分类器,配置用于确定短信的类别; 用户个性化信息收集单元,配置用于维护用户个性化信息配置表; 判断单元,配置用于根据用户个性化信息配置表,判断所述短信的类别是否属于用户感兴趣或反感的类别;以及 过滤单元,配置用于根据判断结果过滤所述短信。
7.根据权利要求6所述的引擎,其中所述短信内容分类器基于支持向量机SVM模型。
8.根据权利要求6所述的引擎,其中所述用户个性化信息配置表是由用户主动配置的。
9.根据权利要求6或8所述的引擎,其中所述用户个性化信息配置表还根据用户反馈来自动更新。
10.一种移动电话,其包括根据权利要求6-9中任一项所述的引擎。
【文档编号】H04W12/12GK103957516SQ201410200231
【公开日】2014年7月30日 申请日期:2014年5月13日 优先权日:2014年5月13日
【发明者】孟宪巍 申请人:北京网秦天下科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1