垃圾信息处理方法及装置的制造方法

文档序号:8267238阅读:453来源:国知局
垃圾信息处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及通信领域,具体而言,涉及一种垃圾信息处理方法及装置。
【背景技术】
[0002]短消息业务是基于移动通讯网络的简短文本信息收发方式。消息由短信服务中心(Short Message Service Center,简称为SMSC)负责接收、转存和发送。该业务广泛应用于所有移动通信网络:全球移动通信(Global system for Mobile Communicat1n,简称为GSM)、码分多址(Code Divis1n Multiple Access,简称为CDMA)、个人便携式电话系统(Personal Handyphone System,简称为PHS),以及宽带码分多址接入(WidebandCode Divis1n Multiple Access,简称为 WCDMA)、CDMA2000、时分同步码分多址接入(TimeDivis1n-Synchronous Code Divis1n Multiple Access,简称为 TD-SCDMA)等 3G 网络,发展迅速,并有着更广的发展前景,已经日益成为手机用户应用最频繁的业务之一。而不少商家亦越来越青睐这一便捷、低廉的广告途径。然而这也带来了新的问题:如何更高效地过滤垃圾短消息。
[0003]在申请号为:CN200510086930,发明名称为“一种短消息业务系统及其实现短消息过滤的方法”的专利文件中提出,在短消息中心设置过滤垃圾短信条件,对满足条件的消息进行鉴权,并根据鉴权结果控制短信的下发。能实现对垃圾短信的实时监控、实时过滤。
[0004]另外,在相关技术中垃圾短信监控策略主要采用流量门限规则、内容关键字匹配规则、目的号码连续性、消息投送状态等进行垃圾短信监控。基于规则的监控,很容易被垃圾发送者识别并化解,但是,目前垃圾短信发送趋向于团伙性、单号码低频性、内容多变性,即成百上千号码参与一种垃圾短信发送,每个号码仅发送少量的消息,并且发送的内容多变,传统的基于流量门限、内容关键字匹配、目的号码联系特征等难以有效识别这些垃圾短消息,通常只能拦截其中一部分垃圾短信,难以将整个团伙识别并拦截。
[0005]因此,在相关技术中存在无法对整个团伙垃圾拦截的问题。

【发明内容】

[0006]本发明提供了一种垃圾信息处理方法及装置,以至少解决相关技术中存在的无法对整个团伙垃圾拦截的问题。
[0007]根据本发明的一个方面,提供了一种垃圾信息处理方法,包括:获取垃圾信息种子;以所述垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;确定与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码,和/或,确定与所述垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
[0008]优选地,获取所述垃圾信息种子包括以下至少之一:由垃圾信息监控系统监控到的垃圾信息提供所述垃圾信息种子;由短消息中心获取信息话单文件中的信息提供所述垃圾信息种子;由用户投诉的垃圾信息提供所述垃圾信息种子。
[0009]优选地,确定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码包括:将与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码划分为垃圾信息主叫号码团伙集;依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码。
[0010]优选地,依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码包括:对所述垃圾信息主叫号码团伙集中的号码进行排序;获取排序后的预定间隔内的连续号码数;判断所述连续号码数是否超过第一预定阈值;在判断结果为是的情况下,确定信息主叫号码为所述垃圾信息号码。
[0011]优选地,确定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息包括:将与所述垃圾信息种子有直接或间接虫网关系的所述信息划分为垃圾信息内容团伙集;依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息。
[0012]优选地,通过以下方式至少之一依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息包括:通过判断所述垃圾信息内容团伙集中所述信息与所述垃圾信息种子间公共字符个数与消息最大长度的比的方式来获得所述信息与所述垃圾信息种子的相似性值,在相似性值超过第二预定阈值的情况下,确定所述信息为所述垃圾信息;判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的发送条数,在发送条数超过第三预定阈值的情况下,确定所述信息为所述垃圾信息;判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的参与主叫号码数,在所述参与主叫号码数超过第四预定阈值的情况下,确定所述信息为所述垃圾信息。
[0013]根据本发明的另一方面,提供了一种垃圾信息处理装置,包括:获取模块,用于获取垃圾信息种子;处理模块,用于以所述垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;第一确定模块,用于确定与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码;和/或,第二确定模块,用于确定与所述垃圾信息种子有直接或间接虫网关系的信息为垃圾信息。
[0014]优选地,所述获取模块包括以下至少之一:第一提供单元,用于由垃圾信息监控系统监控到的垃圾信息提供所述垃圾信息种子;第二提供单元,用于由短消息中心获取信息话单文件中的信息提供所述垃圾信息种子;第三提供单元,用于由用户投诉的垃圾信息提供所述垃圾信息种子。
[0015]优选地,所述第一确定模块包括:第一切分单元,用于将与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码划分为垃圾信息主叫号码团伙集;第一判定单元,用于依据所述垃圾信息主叫号码团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息主叫号码为所述垃圾信息号码。
[0016]优选地,所述第一判定单元包括:排序子单元,用于对所述垃圾信息主叫号码团伙集中的号码进行排序;获取子单元,用于获取排序后的预定间隔内的连续号码数;判断子单元,用于判断所述连续号码数是否超过第一预定阈值;第一确定子单元,用于在判断结果为是的情况下,确定信息主叫号码为所述垃圾信息号码。
[0017]优选地,所述第二确定模块包括:第二切分单元,用于将与所述垃圾信息种子有直接或间接虫网关系的所述信息划分为垃圾信息内容团伙集;第二判定单元,用于依据所述垃圾信息内容团伙集判定与所述垃圾信息种子有直接或间接虫网关系的所述信息为所述垃圾信息。
[0018]优选地,所述第二判定单元包括以下至少之一:第二确定子单元,用于通过判断所述垃圾信息内容团伙集中所述信息与所述垃圾信息种子间公共字符个数与消息最大长度的比的方式来获得所述信息与所述垃圾信息种子的相似性值,在相似性值超过第二预定阈值的情况下,确定所述信息为所述垃圾信息;第三确定子单元,用于判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的发送条数,在发送条数超过第三预定阈值的情况下,确定所述信息为所述垃圾信息;第四确定子单元,用于判断所述垃圾信息内容团伙集中与所述垃圾信息种子有直接或间接虫网关系的所述信息的参与主叫号码数,在所述参与主叫号码数超过第四预定阈值的情况下,确定所述信息为所述垃圾信息。
[0019]通过本发明,采用获取垃圾信息种子;以所述垃圾信息种子为起点,以预定的话单文件集为爬虫处理体,采用以信息内容爬垃圾信息主叫号码,以垃圾信息主叫号码爬信息内容的方式进行迭代爬行处理;确定与所述垃圾信息种子有直接或间接虫网关系的信息主叫号码为垃圾信息号码,和/或,确定与所述垃圾信息种子有直接或间接虫网关系的信息为垃圾信息,解决了相关技术中存在无法对整个团伙垃圾拦截的问题,进而达到了能够对垃圾主叫号码团伙以及垃圾内容团伙进行有效识别,大幅提升垃圾信息治理的效果。
【附图说明】
[0020]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0021]图1是根据本发明实施例的垃圾信息处理方法的流程图;
[0022]图2是根据本发明实施例的垃圾信息处理装置的结构框图;
[0023]图3是根据本发明实施例的垃圾信息处理装置中获取模块22的优选结构框图;
[0024]图4是根据本发明实施例的垃圾信息处理装置中第一确定模块26的优选结构框图;
[0025]图5是根据本发明实施例的垃圾信息处理装置中第一确定模块26
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1