举报短信处理方法及处理系统的制作方法

文档序号:7771234阅读:255来源:国知局
举报短信处理方法及处理系统的制作方法
【专利摘要】本发明提供了一种举报短信处理方法,所述举报短信包括被举报的短信内容和用户判断结果。所述方法包括:针对每个被举报的短信内容,确定垃圾短信过滤引擎对被举报的短信内容的判断结果,所述判断结果指示被举报的短信内容是正常内容还是垃圾内容;统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数;基于所述第一举报用户数和所述第二举报用户数,计算所述被举报的短信内容的贡献值。所述方法还包括:基于所计算的贡献值,对各个被举报的短信内容进行筛选。根据本发明的方法可以自动地从海量的举报短信中筛选出对于改进垃圾短信过滤策略有贡献的短信,极大地提高处理效率。
【专利说明】举报短信处理方法及处理系统
【技术领域】
[0001]本发明涉及移动通信领域,更具体地,涉及用于改进垃圾短信过滤引擎的举报短信处理方法和处理系统。
【背景技术】
[0002]近些年,随着移动电话的普及率越来越高,以及短信的成本越来越低,利用短信来实现营销、甚至实施诈骗的行为越来越多。这些正常用户不希望接收到的或与用户无关的大量的短信被称为垃圾短信。根据统计,约有35%的移动电话用户不同程度地受到过垃圾短信的骚扰。每个用户平均每月收到的垃圾短信约为8条。按照2013年3月底中国移动电话用户总数已达11.46亿的统计来保守估计,我国移动电话用户平均每天收到的垃圾短信总量将超过三亿条。垃圾短信已经成为一个严重的社会问题。
[0003]为了避免垃圾短信的骚扰,智能移动电话的用户通常选择安装具有垃圾短信过滤功能的应用来避免骚扰。目前,市面上具有垃圾短信过滤功能的主流应用能够过滤掉大部分的垃圾短信,但也会漏掉一些垃圾短信(漏报)或是错误地把一些用户认为的正常短信识别为垃圾短信并拦截(误报)。为了保证短信过滤引擎具有良好的过滤效果,应用厂商通常会采用手机客户端举报的方式来收集这些漏报短信和误报短信,然后可以对举报的这些短信进行标注和分析,进而优化或改进过滤策略,获得更好的过滤效果。然而举报短信的数目通常是海量级的,对所有的举报短信都进行标准和分析以用于改进过滤策略是不现实的、也是不必要的。
[0004]因此,需要一种有效的举报短信处理机制,其能够从海量的举报短信中筛选出有利于改进过滤策略的有限数目的举报短信,从而提高后续对举报短信的标注和分析效率。

【发明内容】

[0005]为了实现该目的,本发明提供了一种举报短信处理方法和举报短信处理系统。本发明提出同时考虑举报短信的用户判断结果与短信过滤引擎的判断差异性以及用户关注度这两个因素来筛选举报短信。
[0006]根据本发明的一个方面,提供了一种举报短信处理方法。所述举报短信包括被举报的短信内容和用户判断结果。所述方法包括针对每个被举报的短信内容通过下述方式计算贡献值:确定垃圾短信过滤引擎对被举报的短信内容的判断结果,所述判断结果指示被举报的短信内容是正常内容还是垃圾内容;统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数;以及,基于所述第一举报用户数和所述第二举报用户数,计算所述被举报的短信内容的贡献值。所述方法还包括;基于所计算的贡献值,对各个被举报的短信内容进行筛选。
[0007]在本发明的一些实施例中,可以按照下述公式计算被举报的短信内容的贡献值:
[0008]CValue=-1g((Csame+a )/(Cdif+a ))*Ctotal,
[0009]其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,a是平滑因子,以及Ctotal表示总的举报用户数。
[0010]在本发明的一些实施例中,可以通过下述方式统计用户判断结果与引擎判断结果一致的第一举报用户数Csame以及用户判断结果与引擎判断结果不一致的第二举报用户数Cdif:统计将被举报的短信内容举报为正常内容的用户数Cn ;以及,统计将被举报的短信内容举报为垃圾内容的用户数Cspam,其中,如果引擎判断结果指示被举报的短信内容是正常内容,则 Csame=Cn, Cdif=Cs ;否则 Csame=Cs, Cdif=Cn。
[0011]在本发明的一些实施例中,基于所计算的贡献值对各个被举报的短信内容进行筛选可以包括:选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。
[0012]在本发明的一些实施例中,基于所计算的贡献值对各个被举报的短信内容进行筛选可以包括:基于所计算的贡献值,对各个被举报的短信内容进行排序。可选地,可以基于所计算的贡献值,仅对贡献值大于阈值的被举报的短信内容进行排序。
[0013]根据本发明的第二方面,提供了一种举报短信处理系统。所述举报短信包括被举报的短信内容和用户判断结果。所述系统包括垃圾短信过滤引擎,配置为判断被举报的短信内容是正常内容还是垃圾内容。所述系统还包括统计单元,配置为:针对每个被举报的短信内容,统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数。所述系统还包括计算单元,配置为:基于所述第一举报用户数和所述第二举报用户数,计算被举报的短信内容的贡献值。所述系统还包括筛选单元,配置为:基于所计算的贡献值,对各个被举报的短信内容进行筛选。
[0014]在本发明的一些实施例中,所述计算单元可以配置为按照下述公式计算贡献值:
[0015]CValue=-1g((Csame+a )/(Cdif+a ))*Ctotal,
[0016]其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。
[0017]在本发明的一些实施例中,所述统计单元可以进一步配置为:统计将被举报的短信内容举报为正常内容的用户数;统计将被举报的短信内容举报为垃圾内容的用户数。
[0018]在本发明的一些实施例中,所述筛选单元可以进一步配置为:选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。
[0019]在本发明的一些实施例中,所述筛选单元可以进一步配置为:基于所计算的贡献值,对各个被举报的短信内容进行排序。可选地,可以基于所计算的贡献值,仅对贡献值大于阈值的被举报的短信内容进行排序。
[0020]根据本发明的举报短信处理方法和系统可以有效地在海量的举报短信中筛选出有限数目的有利于改进过滤策略的举报短信,从而提高后续对举报短信的标注和分析效率。
【专利附图】

【附图说明】
[0021]通过下面结合【专利附图】
附图
【附图说明】本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:[0022]图1示意性地示出了在其中可以使用本发明实施例的移动通信系统100的应用场景的不意图;
[0023]图2示意性地示出了根据本发明实施例的举报短信处理方法的流程图;以及
[0024]图3示意性示出了根据本发明实施例的举报短信处理系统的框图。
[0025]在本发明的所有附图中,相同或相似的结构均以相同或相似的附图标记进行标识。
【具体实施方式】
[0026]下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
[0027]图1是示出了根据本发明的移动通信系统100的应用场景的示意图。如图1所示,移动通信系统100可以包括移动终端120和服务器110。作为示例,在图中示出了四个移动终端120-1、120-2、120-3和120-4。但是应该理解,系统100可以包括更多或更少的移动终端。移动终端120通过通信网络130与服务器110相连。通信网络130的示例可以包括但不限于:互联网、移动通信网络。
[0028]服务器110通常是由提供垃圾短信过滤引擎的应用厂商维护和管理的。应用产商可以通过服务器110收集用户举报的短信,并且对举报短信进行处理,以改进垃圾短信过滤引擎的过滤效果,减少误报和漏报。下文中将参考图2和图3对其进行详细描述。尽管图中仅示出一个服务器110,但是应该理解可以存在两个或更多的服务器110。还应该理解,服务器110可以是单独的物理实体,也可以分布在两个或更多个物理实体上。
[0029]移动终端120可以是能够发送和接收短信的任意移动终端。当用户发现垃圾短信过滤引擎漏报或误报了短信时,可以使用其移动终端120向应用产商进行举报该漏报或误报的短信。应该理解,本发明并不局限于所涉及的各个移动终端的具体通信协议,可以包括但不限于2G、3G、4G、5G无线通信技术,WCDMA, CDMA2000、TD-SCDMA无线技术等。不同的移动终端可以采用相同的通信协议,也可以采用不同的通信协议。本发明也不局限于移动终端的具体操作系统,可以包括但不限于Android、iOS、Windows Mobile、Symbian、WindowsPhone、Blackberry OS等。不同的移动终端可以采用相同的操作系统,也可以采用不同的操作系统。
[0030]服务器110和移动终端120可以通过各种无线通信协议进行通信,包括2G、3G、4G、5G 网络,WCDMA、CDMA2000、TD-SCDMA 系统、无线局域网(WLAN),等等。
[0031]如前所述,为了改进垃圾短信过滤引擎的过滤效果,应用厂商通常会采用手机客户端举报的方式来收集漏报和误报的短信,然后对举报的这些短信进行标注和分析,以便优化或改进垃圾短信过滤引擎的过滤策略,获得更好的过滤效果。然而举报短信的数目通常是海量级的,对所有的举报短信都进行标准和分析是不现实的、也是不必要的。
[0032]发明人认识到,各个举报短信的重要程度是不同的,用户广泛关注同时又是当前过滤弓I擎无法解决的短信样本对于改进过滤弓I擎的贡献较大。根据本发明实施例的方案可以自动地从海量的举报短信中筛选出这些对于改进过滤引擎贡献度较大的短信样本。仅筛选出的短信样本被用于改进垃圾短信过滤引擎。于是,根据本发明的方法可以显著减少需要处理的举报短信的数目。从而,可以以较少的处理时间和成本来标注和分析这些“有用”的短信样本,提高处理效率。
[0033]下面结合图2和图3对本发明进行详细描述。
[0034]图2示意性地示出了根据本发明实施例的举报短信处理方法200的流程图。方法200可以由服务器110来执行。
[0035]实际应用中,应用厂商的服务器110可以将收集的举报短信存储在举报短信数据库中。根据本发明实施例的举报短信处理方法200可以开始于读取举报短信数据库中的举报短信。举报短信通常可以包括被举报的短信内容和用户判断结果。
[0036]在步骤S210中,由当前垃圾短信过滤引擎对被举报的短信内容(下文中也称为被举报短信)进行判断。得到的判断结果(下文中称为引擎判断结果)指示该被举报的短信内容是正常内容还是垃圾内容。
[0037]在步骤S220中,针对被举报的短信内容(或称被举报短信)进行统计,包括统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数。
[0038]在优选的实施例中,可以统计将被举报的短信内容举报为正常内容的用户数,并且统计将被举报的短信内容举报为垃圾内容的用户数。于是,当步骤S210中的引擎判断结果是正常内容时,统计将被举报的短信内容举报为正常内容的用户数对应于统计用户判断结果与引擎判断结果一致的第一举报用户数;而统计将被举报的短信内容举报为垃圾内容的用户数对应于统计用户判断结果与引擎判断结果不一致的第二举报用户数。另一方面,当步骤S210中的引擎判断结果是垃圾内容时,统计将被举报的短信内容举报为正常内容的用户数对应于统计用户判断结果与引擎判断结果不一致的第二举报用户数;而统计将被举报的短信内容举报为垃圾内容的用户数对应于统计用户判断结果与引擎判断结果一致的第一举报用户数。
[0039]然后,在步骤S230中,可以基于步骤S220中的统计结果,计算该被举报短信的贡献值。
[0040]如前所述,发明人已经认识到,用户广泛关注同时又是当前过滤引擎无法解决的短信样本对于改进过滤引擎的贡献较大。另外,对于同一内容的短信,不同的用户可能有不同的判断结果。对于一个具体的短信,当统计发现多数用户的判断结果与引擎判断结果不一致时,该短信样本是对于改进垃圾短信过滤引擎有贡献的短信样本。而且,对于该具体的短信,举报的用户数越多,受影响的用户越多,则它的贡献值应该越大。当统计发现多数用户的判断结果与引擎判断结果一致时,该短信样本对于改进垃圾短信过滤引擎没有贡献。[0041 ] 在本发明的优选实施例中,可以按照下述公式来计算被举报的短信内容的贡献值:
[0042]CValue=-1g((Csame+a )/(Cdif+a ))*Ctotal (I)
[0043]其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。在实际计算中,Ctotal可以是Csame和Cdif的和。平滑因子α是为了避免在Cdif为O时造成分母为O而添加的,其可以是任何正数。优选地,α的值可以取I。
[0044]应该理解,本发明不局限于上述贡献值的具体计算公式。本发明可以采用与Csame和Cdif或其等价物有关的其他公式来计算贡献值,只要该公式同时考虑用户与垃圾短信过滤引擎的判断差异性以及用户关注度这两个因素。
[0045]例如,作为替代,可以采用下述公式(2)来计算贡献值
[0046]CValue=-1g((Csame+ a )/(Cdif+ a ))*Cdif (2)
[0047]其中CValue、Csame、Cdif和α的含义与公式(I)中的相同。
[0048]然后,可以针对数据库中的不同内容的被举报短信,重复执行步骤S210到S230,直到计算出每个被举报短信的贡献值。
[0049]然后,在步骤S240中,可以基于所计算的贡献值,对各个被举报的短信进行筛选。例如,可以选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。作为替代或补充,可以基于所计算的贡献值,对各个被举报的短信内容进行排序。于是,仅筛选出排名在前的预定数目(例如前100名)的被举报的短信内容。于是,根据本发明的方法可以显著减少需要后续标准和分析以改进垃圾短信过滤引擎的被举报短信的数目。
[0050]下面结合一个实际示例对本发明的举报短信处理方法200进行详细说明。
[0051]假设,在本示例中,在步骤S230中,采用下式来计算贡献值
[0052]CValue=-1g((Csame+1)/(Cdif+1))*(Cn+Cs) (3)其中,Csame 和 Cdif 分别表不用户判断与当前引擎判断是否一致的用户数,Cn表示将短信举报为正常的用户数,Cs表示将短信举报为垃圾的用户数。如果针对一个被举报短信,引擎判断结果是“正常”时,Csame=Cn, Cdif=Cs ;否则 Csame=Cs, Cdif=Cn0 该公式(3)可以看作公式(I)在 α = I 时的变形。
[0053]下表中示出了根据公式(3)计算的不同的被举报短信的贡献值。
【权利要求】
1.一种举报短信处理方法,所述举报短信包括被举报的短信内容和用户判断结果,所述方法包括: 针对每个被举报的短信内容, 确定垃圾短信过滤引擎对被举报的短信内容的判断结果,所述判断结果指示被举报的短?目内容是正常内容还是垃圾内容; 统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数; 基于所述第一举报用户数和所述第二举报用户数,计算所述被举报的短信内容的贡献值;以及 基于所计算的贡献值,对各个被举报的短信内容进行筛选。
2.根据权利要求1所述的方法,其中计算所述被举报的短信内容的贡献值按照下述公式执行:
CValue=-1g((Csame+a )/(Cdif+a )) *Ctotal, 其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用 户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。
3.根据权利要求1或2所述的方法,其中所述统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数包括: 统计将被举报的短信内容举报为正常内容的用户数;以及 统计将被举报的短信内容举报为垃圾内容的用户数。
4.根据权利要求1或2所述的方法,其中基于所计算的贡献值对各个被举报的短信内容进行筛选包括:选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。
5.根据权利要求1或2所述的方法,其中基于所计算的贡献值对各个被举报的短信内容进行筛选包括:基于所计算的贡献值,对各个被举报的短信内容进行排序。
6.一种举报短信处理系统,所述举报短信包括被举报的短信内容和用户判断结果,所述系统包括: 垃圾短信过滤引擎,配置为判断被举报的短信内容是正常内容还是垃圾内容; 统计单元,配置为:针对每个被举报的短信内容,统计用户判断结果与引擎判断结果一致的第一举报用户数以及用户判断结果与引擎判断结果不一致的第二举报用户数; 计算单元,配置为:基于所述第一举报用户数和所述第二举报用户数,计算被举报的短信内容的贡献值;以及 筛选单元,配置为:基于所计算的贡献值,对各个被举报的短信内容进行筛选。
7.根据权利要求6所述的系统,其中所述计算单元配置为按照下述公式计算贡献值: CValue=-1g((Csame+a )/(Cdif+a )) *Ctotal, 其中CValue表示贡献值,Csame表示用户判断结果与引擎判断结果一致的第一举报用户数,Cdif表示用户判断结果与引擎判断结果不一致的第二举报用户数,α是平滑因子,以及Ctotal表示总的举报用户数。
8.根据权利要求6或7所述的系统,其中所述统计单元进一步配置为:统计将被举报的短信内容举报为正常内容的用户数;以及 统计将被举报的短信内容举报为垃圾内容的用户数。
9.根据权利要求6或7所述的系统,其中所述筛选单元进一步配置为:选择贡献值大于阈值的被举报的短信内容作为用于改进垃圾短信过滤引擎的举报样本。
10.根据权利要求6或7所述的系统,其中所述筛选单元进一步配置为:基于所计算的贡献值,对各个被举报 的短信内容进行排序。
【文档编号】H04M1/66GK103458383SQ201310435442
【公开日】2013年12月18日 申请日期:2013年9月23日 优先权日:2013年9月23日
【发明者】孟宪巍 申请人:北京网秦天下科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1