用于识别大量号码低频发送垃圾短信情况的方法

文档序号:7983276阅读:316来源:国知局
专利名称:用于识别大量号码低频发送垃圾短信情况的方法
技术领域
本发明涉及ー种识别发送垃圾短信情况的方法,尤其涉及ー种用于识别大量号码低频发送垃圾短信情况的方法。
背景技术
短信息服务作为移动通信网络的ー种基本业务,在为用户提供便捷消息通信服务的同时,也为信息垃圾的传播提供了渠道。目前,垃圾短信有着愈演愈烈的趋势,垃圾短信不但带来用户投诉的不良影响,还存在着恶意欠费问题,因此需要对垃圾短信进行实时监控拦截。随着对垃圾短信治理カ度的加大,垃圾短信的发送行为也逐渐变化,目前发现了ー种使用大量号码低速发送垃圾短信的情况,具有以下特征:1、购买大量手机号码同时低速发送垃圾短信;2、每个号码选取多条垃圾短信循环或随机发送;3、不同号码发送的具有相同垃圾信息的垃圾短信内容不尽相同,中间随机加入干扰字符或文字。对于上述的大量号码低速发送垃圾短信的情况,现有的基于频次和内容的拦截方式都不能有效进行识别。

发明内容
本发明的目的在于克服现有技术的缺陷而提供ー种用于识别大量号码低频发送垃圾短信情况的方法,通过内容特征相似度的方法,将短信内容中提炼出的初步内容生成对应的内容特征,并对内容特征进行累加计数,定期统计识别短信内容特征的发送次数满足用户设置的最小阈值的内容特征,对满足要求的所有内容特征逐个查找对应的主叫号码集合,然后根据设定的主叫号码离散规则来判断是否将主叫号码集合中的各主叫号码加入到嫌疑名单,从而有效识别出大量号码发送垃圾短信的情况并避免对正常短信的误拦,克服了现有短信拦截技术只能识别单一主叫发送垃圾短信的情況。实现上述目的的技术方案是:—种用于识别大量号码低频发送垃圾短信情况的方法,包括下列步骤:步骤S0,设定剔除规则、相似度计算规则、相似度最小阈值、发送次数最小阈值、统计周期以及主叫号码离散规则;步骤SI,读取短信信息,包括主叫号码和短信内容;步骤S2,根据所述剔除规则,排除短信内容中的干扰元素,生成初歩内容特征; 步骤S3,若现有的内容特征集合为空,将初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为I ;若现有的内容特征集合不为空,根据所述的相似度计算规则,计算初歩内容特征和现有的内容特征集合中逐个内容特征的相似度,并与所述的相似度最小阈值逐个比较,根据比较結果,生成对应于该初步内容特征的内容特征,并保存到内容特征集合中,同时对该内容特征的发送次数进行累加;
步骤S4,判断此刻时间与上一次统计时间的时间差,是否大于或者等于所述的统计周期,若是,则进入步骤S5 ;若否,则进入步骤SI ;步骤S5,提取当前内容特征集合中发送次数大于或者等于所述的发送次数最小阈值的内容特征;步骤S6,对于步骤S5中选取的所有内容特征,按顺序依次选择其中ー个内容特征,追溯该内容特征对应的主叫号码集合;步骤S7,判断步骤S6中生成的主叫号码集合中的不同主叫号码个数是否符合设定的主叫号码离散规则,若符合,进入步骤S8 ;若不符合,进入步骤S9 ;步骤S8,将步骤S6中生成的主叫号码集合中的主叫号码加入到嫌疑名单;步骤S9,检查步骤S5中选取的所有内容特征是否均处理完毕,若未处理完毕,进入步骤S6。上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述步骤S3中现有的内容特征集合不为空吋,若由计算所得的相似度均小于所述的相似度最小阈值,则将所述的初歩内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为I ;若由计算所得的相似度中至少有ー个大于或者等于所述的相似度最小阈值,则选取相似度最大的内容特征作为所述的初步内容特征的内容特征,并将该内容特征的发送次数加I。上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述剔除规则为:剔除短信内容中的干扰字符或干扰文字,其中,剔除的干扰字符或干扰文字需要预先进行设定。上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述相似度计算规则为:S(A,B) =f(A n B)*2*10(V(f(A)+f⑶),其中,函数S(A,B)表示相似度,函数f (A)和f (B)分别表示集合A和集合B的元素个数,函数f(A n B)表示集合A和集合B的交集元素的个数。上述的用于识别大量号码低频发送垃圾短信情况的方法,其中,所述主叫号码离散规则为:不同的主叫号码的个数大于或者等于H,H为正整数。本发明的有益效果:本发明针对大量号码同时低速发送垃圾短信的情况,从短信发送的内容入手,通过生成发送短信的初歩内容特征来排除垃圾短信中的干扰元素,并使用内容特征相似度的方法进ー步优化短信内容特征的准确性和高效性;定期统计识别短信内容特征的发送次数满足用户设置的最小阈值的内容特征;对满足要求的所有内容特征逐个查找对应的主叫号码集合,然后根据设定的主叫号码离散规则来判断是否将主叫号码集合中的各主叫号码加入到嫌疑名单;利用内容特征的相似度和对应的主叫号码离散规则能够有效识别出大量号码发送垃圾短信的情况并避免对正常短信的误拦,克服了现有短信拦截技术只能识别单一主叫发送垃圾短信的情况,能有效提升发送垃圾短信号码的识别效率,达到治理大量号码发送垃圾短信的目的。


图1是本发明的用于识别大量号码低频发送垃圾短信情况的方法的工作流程的示意图。
具体实施例方式下面将结合附图对本发明作进ー步说明。请參阅图1,本发明的用于识别大量号码低频发送垃圾短信情况的方法,包括下列步骤:步骤SO,设定如下參数和规则:剔除规则:剔除短信内容中的干扰字符或干扰文字,其中,剔除的干扰字符或干扰文字要预先进行设定,例如,删除“*”、“#”、“,”字符;相似度计算规则:S(A,B)= f(A n B)*2*10(V(f(A)+f ⑶),其中,函数 S(A,B)表示相似度,函数f (A)和函数f (B)分别表示集合A和集合B的元素个数,函数f(A n B)表示集合A和集合B的交集元素的个数,相似度为0表示完全不同,相似度100表示完全相同;相似度最小阈值N,N为正整数;发送次数最小阈值M,M为正整数;统计周期P,P为正数;主叫号码离散规则:不同的主叫号码的个数大于或者等于H,H为正整数;步骤SI,读取短信信息,读取的信息包括主叫号码和短信内容;步骤S2,根据所述剔除规则,排除短信内容中的干扰元素,生成初歩内容特征;步骤S3,若现有的内容特征集合为空,将初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为I ;若现有的内容特征集合不为空,根据所述的相似度计算规则,计算初歩内容特征和现有的内容特征集合中逐个内容特征的相似度,并与相似度最小阈值N逐个比较,根据比较結果,生成对应于该初步内容特征的内容特征,并保存到内容特征集合中,同时对该内容特征的发送次数进行累加,此时分为两种情况:若由计算所得的相似度均小于相似度最小阈值N,则将所述的初歩内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为I ;若由计算所得的相似度中至少有ー个大于或者等于相似度最小阈值N,则选取相似度最大的内容特征作为所述的初步内容特征的内容特征,并将该内容特征的发送次数加I ;步骤S4,判断此刻时间与上一次统计时间的时间差,是否大于或者等于统计周期P,若是,则进入步骤S5 ;若否,则进入步骤SI ;步骤S5,提取当前内容特征集合中发送次数大于或者等于发送次数最小阈值M的内容特征Tl-Tm;步骤S6,对于步骤S5中选取的所有内容特征Tl-Tm,按顺序依次选择其中ー个内容特征Ti,其中为正整数,追溯该内容特征Ti对应的主叫号码集合;步骤S7,判断步骤S6中生成的主叫号码集合中的不同主叫号码个数是否符合设定的主叫号码离散规则,若符合,进入步骤S8 ;若不符合,进入步骤S9 ;步骤S8,将步骤S6中生成的主叫号码集合中的主叫号码加入到嫌疑名单;
步骤S9,检查步骤S5中选取的所有内容特征是否均处理完毕,若未处理完毕,进入步骤S6 ;若处理完毕,则结束。本实施例中,设定剔除规则为:删除”字符;相似度最小阈值N为50 ;发送次数最小阈值M为50 ;统计周期P为60分钟;主叫号码离散规则中的H为5。此时,请參阅以下的表I至表5,举例说明:若现有的内容特征集合为空,且读取两条短信信息并得到其初歩内容特征,如下表1:
权利要求
1.ー种用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,包括下列步骤: 步骤S0,设定剔除规则、相似度计算规则、相似度最小阈值、发送次数最小阈值、统计周期以及主叫号码离散规则; 步骤Si,读取短信信息,包括主叫号码和短信内容; 步骤S2,根据所述剔除规则,排除短信内容中的干扰元素,生成初歩内容特征; 步骤S3,若现有的内容特征集合为空,将初步内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为I ; 若现有的内容特征集合不为空,根据所述的相似度计算规则,计算初歩内容特征和现有的内容特征集合中逐个内容特征的相似度,并与所述的相似度最小阈值逐个比较,根据比较结果,生成对应于该初步内容特征的内容特征,并保存到内容特征集合中,同时对该内容特征的发送次数进行累加; 步骤S4,判断此刻时间与上一次统计时间的时间差,是否大于或者等于所述的统计周期,若是,则进入步骤S5;若否,则进入步骤SI ; 步骤S5,提取当前内容特征集合中发送次数大于或者等于所述的发送次数最小阈值的内容特征; 步骤S6,对于步骤S5中选取的所有内容特征,按顺序依次选择其中ー个内容特征,追溯该内容特征对应的主叫号码集合; 步骤S7,判断步骤S6中生成的主叫号码集合中的不同主叫号码个数是否符合设定的主叫号码离散规则,若符合,进入步骤S8 ;若不符合,进入步骤S9 ; 步骤S8,将步骤S6中生成的主叫号码集合中的主叫号码加入到嫌疑名单; 步骤S9,检查步骤S5中选取的所有内容特征是否均处理完毕,若未处理完毕,进入步骤S6。
2.根据权利要求1所述的用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,所述步骤S3中现有的内容特征集合不为空吋, 若由计算所得的相似度均小于所述的相似度最小阈值,则将所述的初歩内容特征作为其自身的内容特征保存到内容特征集合中,并将该内容特征的发送次数设置为I ; 若由计算所得的相似度中至少有ー个大于或者等于所述的相似度最小阈值,则选取相似度最大的内容特征作为所述的初步内容特征的内容特征,并将该内容特征的发送次数加1
3.根据权利要求1或2所述的用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,所述剔除规则为:剔除短信内容中的干扰字符或干扰文字,其中,剔除的干扰字符或干扰文字需要预先进行设定。
4.根据权利要求1或2所述的用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,所述相似度计算规则为:S(A,B) = f(A n B)*2*10(V(f(A)+f⑶),其中,函数S(A,B)表示相似度,函数f (A)和f (B)分别表示集合A和集合B的元素个数,函数f (A n B)表示集合A和集合B的交集元素的个数。
5.根据权利要求1或2所述的用于识别大量号码低频发送垃圾短信情况的方法,其特征在于,所述主叫号码离散规则为:不同的主叫号码的个数大于或者等于H,H为正整数。
全文摘要
本发明公开了一种用于识别大量号码低频发送垃圾短信情况的方法,该方法为通过生成短信内容的初步内容特征来排除垃圾短信中的干扰元素,并根据设定的相似度计算规则,计算初步内容特征和现有的内容特征集合中逐个内容特征的相似度,并与设定的相似度最小阈值的比较,生成对应的内容特征并累加计数;在满足统计周期条件时,选取满足发送次数最小阈值的内容特征,并对所有选取的内容特征逐个查找对应的主叫号码集合,根据设定的主叫号码离散规则判断是否将主叫号码集中的各主叫号码加入嫌疑名单。本发明克服了现有短信拦截技术只能识别单一主叫发送垃圾短信的情况,达到治理大量号码发送垃圾短信的目的。
文档编号H04W12/12GK103139730SQ20111037576
公开日2013年6月5日 申请日期2011年11月23日 优先权日2011年11月23日
发明者狄卫华 申请人:上海粱江通信系统股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1