一种虚假用户号码识别方法及装置制造方法

文档序号:7985191阅读:643来源:国知局
一种虚假用户号码识别方法及装置制造方法
【专利摘要】本发明公开了一种虚假用户号码识别方法及装置,用以准确识别短信发送号码是否为虚假用户号码,提高垃圾短信的拦截效率。其中,虚假用户号码识别方法,包括:针对任一用户号码,获取该用户号码在单位时间内的通信话单,所述通信话单包括语音话单和短信话单;根据获取的语音话单和短信话单,分别确定该用户号码在单位时间内的语音行为特征和短信行为特征;若所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,确定所述用户号码为虚假用户号码。
【专利说明】一种虚假用户号码识别方法及装置
【技术领域】
[0001]本发明涉及移动通信【技术领域】,尤其涉及一种虚假号码识别方法及装置。
【背景技术】
[0002]移动通信中的短信业务已成为移动用户之间常用的一种通信方式。由于短信的快捷与方便,可以通过短信进行信息交互或信息发布等。移动用户之间相互发送的普通短信主要用于信息的交流,基本上是两个人,或者多个人互相发送;而垃圾短信主要是利用短信进行不法信息的宣传,诈骗等活动,发送者不管接收用户是否愿意接收、是否能够接收到,按顺序或随机地在整个移动号码段内进行群发,其发送的短信数量与接收短信的用户号码数相当。
[0003]传统的垃圾短信发现手段主要是基于内容关键字过滤技术,通过在短信网关设备或个人终端上人工发现、配置垃圾短信关键字,收到短信后,获取短信内容进行关键字匹配,对于任一条件或组合条件匹配符合的方可判定为垃圾短信。一方面,该种方法的匹配精度较低,容易造成判断失误,导致用户进行投诉。如:出现“枪支”关键字则确定为垃圾短信,而实际发送垃圾短信的用户可以轻松通过谐音绕过关键字过滤,把“枪支”一词改写为“抢支”、“枪知”、“枪Zhi ”等,达到垃圾短信发送的目的,且过滤因子粒度极难分割,如果过滤因子设置过于粗放,将导致部分垃圾短信被漏截,如果过滤因子设置过于精细,将可能导致合法短信被误截,同时,配置过多的过滤因子或者其组合需要消耗更多的硬件时间资源,严重降低通信效率,且过滤因子的产生或者变动在业务流程上需要经历人工分析、发现、确认的过程,导致系统运行成本较高,且存在严重的滞后性,无法适应当前复杂瞬变的通信环境。
[0004]另一方面,垃圾短信发送用户通常通过虚假用户号码进行海量垃圾短信的发送,如果能够识别出短信发送号码为虚假用户号码,则可以从源头上拦截垃圾短信,提高垃圾短信拦截效率,而利用上述关键字匹配方法无法有效识别出短信发送号码是否为虚假用户号码。

【发明内容】

[0005]本发明实施例提高一种虚假用户号码识别方法及装置,用以准确识别短信发送号码是否为虚假用户号码,提高垃圾短信的拦截效率。
[0006]本发明实施例提供一种虚假用户号码识别方法,包括:
[0007]针对任一用户号码,获取该用户号码在单位时间内的通信话单,所述通信话单包括语音话单和短信话单;
[0008]根据获取的语音话单和短信话单,分别确定该用户号码在单位时间内的语音行为特征和短信行为特征;
[0009]若所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,确定所述用户号码为虚假用户号码。
[0010]本发明实施例提供一种虚假用户号码识别装置,包括:[0011 ] 获取单元,用于针对任一用户号码,获取该用户号码在单位时间内的通信话单,所述通信话单包括语音话单和短信话单;
[0012]第一确定单元,用于根据获取的语音话单和短信话单,分别确定该用户号码在单位时间内的语音行为特征和短信行为特征;
[0013]第二确定单元,用于若所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,确定所述用户号码为虚假用户号码。
[0014]本发明实施例提供的虚假用户号码识别方法,通过对用户号码在单位时间内的语音话单和短信话单进行统计分析,以获取其在单位时间内的语音行为特征和短信行为特征,当其语音行为特征和短信行为特征满足预设条件时,确定该用户号码为虚假用户号码。这样,使得后续在进行垃圾短信拦截时,可以直接从源头上拦截垃圾短信,提高了垃圾短信的拦截效率。
[0015]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
【专利附图】

【附图说明】
[0016]此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0017]图1为本发明实施例中,虚假用户号码识别方法的实施流程示意图;
[0018]图2为本发明实施例中,虚假用户号码识别装置的结构示意图。
【具体实施方式】
[0019]为了能够准确识别短信发送号码是否为虚假用户号码,特别是针对异网间、非点对点短信发送号码的识别,以从源头上拦截垃圾短信,提高垃圾短信的拦截效率,本发明实施例提供了 一种虚假用户号码识别方法及装置。
[0020]以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0021]实施例一
[0022]如图1所示,为本发明实施例提供的虚假用户号码识别方法的实施流程示意图,包括以下步骤:
[0023]S101、针对任一用户号码,获取该用户号码在单位时间内的通信话单;
[0024]其中,通信话单包括语音话单和短信话单,通过对该用户号码全量语音、短信业务数据的采集、处理,提取出全量的通信话单信息。由于各通信交换机采集的通信话单格式不同,因此,可以根据数据处理的实际需要,对用户号码的通信话单进行预处理,使得每条通信话单具有相同的是格式。如每条语音话单可以表示为=VOICE⑶R (RecordType,CallingCode, CalledCode, StartDateTime, EndDateTime, Duration)其中:RecordType 是语音话单类型;CallingCode是主叫号码;CalledCode是被叫号码;StartDateTime代表通话开始时间;EndDateTime:代表通话结束时间!Duration代表通话时长;每条短信话单可以表不为:SMSCDR (RecordType, CallingCode, CalledCode, StartDateTime, EndDateTime,MsgLen)其中:RecordType:短信话单类型(10表示接收,11表示发送);CalIingCode是短信发送号码;CalledCode是短信接收号码;StartDateTime是短信发送时间;EndDateTime是短信接收时间;MSgLen:是短信内容长度,这样,可以降低后续确定该用户号码对应的语音行为特征和短信行为特征的处理复杂度,提高处理效率。
[0025]需要说明的是,具体实施时,可以根据实际需要获取每一用户号码的通信话单,如果仅需要识别异网间短信发送号码进行识别时,可以针对每一用户号码,仅提取其网间通信话单,即该用户号码在单位时间内产生的异网语音话单和异网短信话单;或者仅针对该用户号码本网的通信话单进行提取,这样,后续在对提取到的通信话单进行处理时,能够减少数据处理数量,有效提高数据处理效率。
[0026]特别地,为了保证为全量语音业务、短信业务数据快速高效的处理,处理采用上述特定的数据结构来存储话单信息以外,本发明实施例还可以结合底层开发,多线程多进行并发执行,内存数据库等多种技术手段对通信话单进行处理。
[0027]例如,根据预处理后的数据结构,以及基于用户号码信息、号码的语音行为特征和短信行为特征等关键属性,可以快速地建立起号码特征内存索引,然后利用号码特征内存索引,对海量的号码特征属性信息高效地进行存储、统计和查询;对于语音和短信业务全量数据的加工处理,还需要借助内存数据库技术,来提高数据记录的检索和统计速度。在内存数据库中,建立以用户号码、语音行为特征和短信行为特征的记录索引,并以用户号码为主键,进行通信话单的查询和统计;采用内存数据库对服务器内存大小有一定要求,在服务器内存大小有限配置的情况下,为了能够充分利用服务器的处理能力,完成全量话单的处理,还可以增加内存数据分块和内存数据置换处理技术,将内存数据库的数据分块置换入文件。
[0028]具体实施时,单位时间的时长可以自行设置,例如可以设置为一周或者一个月均可,对此,本发明实施例不进行限定。
[0029]S102、根据获取的语音话单和短信话单,分别确定该用户号码在单位时间内的语音行为特征和短信行为特征;
[0030]S103、若该用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,确定该用户号码为虚假用户号码。
[0031]具体实施时,语音行为特征包括:语音通话数量,具体的,可以根据获取的、该用户号码的语音话单,统计该用户号码在单位时间内的语音通话数量,例如,可以根据用户号码一个月内的语音话单,统计其在一个月内的语音通话数量;短信行为特征可以但不限于包括:短信接收数量,具体的,可以根据获取的该用户号码的语音话单,统计该用户号码在单位时间内的短信接收数量,例如,可以根据用户号码最近一个月的短信话单,统计其一个月内接收到短信的数量。
[0032]相应地,预设条件可以设置为在单位时间内的语音通话数量不超过预设的语音通话数量阈值,且短信接收数量不超过预设的短信接收数量阈值。较佳地,具体实施时,语音通话数量阈值和短信接收数量阈值可以相同也可以不同,通常来说,虚假用户号码不会产生任何语音通话和接收到任何短信,因此,具体实施时,可以设置语音通话数量阈值和短信接收数量阈值均为零,即如果某一用户号码在一个月内语音通话数量为零、接收短信数量为零时,即可确定该用户号码为虚假用户号码。
[0033]本发明实施例提供的虚假用户号码识别方法,通过对用户号码在单位时间内的语音话单和短信话单进行统计,以获取其在单位时间内的语音行为特征和短信行为特征,当其语音行为特征和短信行为特征满足预设条件时,确定该用户号码为虚假用户号码。
[0034]实施例二
[0035]为了进一步提高虚假号码确定的准确性,实施例二在实施例一的基础上增加了短信行为特征包含的内容,并增加了预设条件。其中,短信行为特征还可以包括短信发送数量,而预设条件还可以包括:在单位时间内的短信发送数量超过第一短信发送数量阈值。即若用户号码在单位时间内的语音通话数量不超过语音通话数量阈值、短信接收数量不超过短信接收数量阈值时,进一步判断短信发送数量是否超过第一短信发送数量阈值,在判断结果为是时,确定该用户号码的语音行为特征和短信行为特征满足预设条件。
[0036]具体实施时,可以根据获取的短信话单,统计某一用户号码在单位时间内的短信发送数量,并结合预先设定的短信发送数量阈值判断该用户号码在单位时间内的短信发送数量是否超过短信发送数量阈值。需要说明的是,短信发送数量阈值可以根据实际需要进行设置,本发明实施例对此不进行限定。
[0037]实施例三
[0038]实施例三在实施例二的基础上,进一步增加了短信行为特征包含的内容,并基于此对预设条件进行了进一步的限定,以进一步增加确定结果的准确性。
[0039]其中,短信行为特征还可以包括:在该用户号码所发送短信中,包含相同字节内容的短信数量;所述预设条件,还包括:在单位时间内发送的、包含相同字节内容的短信数量超过第二短信发送数量阈值。即若用户号码在单位时间内的语音通话数量不超过语音通话数量阈值、短信接收数量不超过短信接收数量阈值以及短信发送数量超过第一短信发送数量阈值时,进一步判断该用户号码所发送的短信中、包含相同字节内容的短信数量超过第二短信发送数量阈值,在判断结果为是时,确定该用户号码的语音行为特征和短信行为特征满足预设条件。
[0040]具体实施时,可以根据根据获取的短信话单,统计该用户号码在单位时间内的所发送短信中、包含相同字节内容的短信数量;并结合预设的第二短信发送数量阈值,确定包含相同字节内容的短信数量是否超过第二短信发送数量阈值。
[0041]需要说明的是,第二短信发送数量阈值可以根据实际需要进行设置,可以和第一短信发送数量阈值相同,也可以不同本发明实施例对此不进行限定。
[0042]较佳地,具体实施时,还可以对上述实施例一、实施例二或者实施例三确定出的虚假用户号码发送给拨测平台进行自动语音拨测进行进一步验证,同时对其应答提示音进行录音,以获得该用户号码对应的应答提示音音频文件,采用音频分析工具对获得的音频文件进行分析识别,若分析结果为空号类型号码时,则确定该用户号码为虚假用户号码。其中,分析识别出应答提示音为“空号”或者“用户不存在”或者长忙音以及短忙音时,确定分析结果为空号类型号码。
[0043]基于同一发明构思,本发明实施例中还提供了一种虚假用户号码识别装置,由于上述装置解决问题的原理与虚假用户号码识别方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。[0044]实施例四
[0045]如图2所示,为本发明实施例提供的虚假用户号码识别装置的结构示意图,包括:
[0046]获取单元201,用于针对任一用户号码,获取该用户号码在单位时间内的通信话单,其中,通信话单包括语音话单和短信话单;
[0047]第一确定单元202,用于根据获取单元201获取的语音话单和短信话单,分别确定该用户号码在单位时间内的语音行为特征和短信行为特征;
[0048]第二确定单元203,用于若该用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,确定该用户号码为虚假用户号码。
[0049]具体实施时,语音行为特征包括:语音通话数量,第一确定单元202,可以用于根据获取的语音话单,统计该用户号码在单位时间的语音通话数量。
[0050]具体实施时,短信行为特征可以包括:短信接收数量,则第一确定单元202,还可以用于根据获取的短信话单,统计所述用户号码在单位时间的短信接收数量;第二确定单元203,可以用于若该用户号码在单位时间内的语音通话数量不超过语音通话数量阈值,且短信接收数量不超过短信接收数量阈值时,确定该用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件。
[0051]具体实施时,所述短信行为特征还可以包括:短信发送数量;则第一确定单元202,还可以用于根据获取的短信话单,统计该用户号码在单位时间内的短信发送数量;第二确定单元203,还可以用于若该用户号码在单位时间内的短信发送数量超过第一短信发送数量阈值时,确定该该用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件。
·[0052]具体实施时,短信行为特征还可以包括:所发送短信中,包含相同字节内容的短信数量;则第一确定单元202,还可以用于根据获取的短信话单,统计该用户号码在单位时间内的所发送短信中、包含相同字节内容的短信数量;第二确定单元203,还可以用于若该用户号码在单位时间内发送的、包含相同字节内容的短信数量超过第二短信发送数量阈值时,确定该用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件。
[0053]较佳地,虚假用户号码识别装置,还可以包括:
[0054]语音拨测单元,用于若该用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,在确定该用户号码为虚假用户号码之前,利用该用户号码进行语音拨测,获得该用户号码对应的应答提示音音频文件;
[0055]分析单元,用于分析语音拨测单元获得的音频文件;
[0056]第三确定单元,用于确定分析单元的分析结果为空号类型号码对应的应答提示
曰?
[0057]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0058]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0059]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0060]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0061]尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0062]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
【权利要求】
1.一种虚假用户号码识别方法,其特征在于,包括: 针对任一用户号码,获取该用户号码在单位时间内的通信话单,所述通信话单包括语音话单和短信话单; 根据获取的语音话单和短信话单,分别确定该用户号码在单位时间内的语音行为特征和短信行为特征; 若所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,确定所述用户号码为虚假用户号码。
2.如权利要求1所述的方法,其特征在于,所述语音行为特征包括:语音通话数量;以及 根据获取的语音话单,确定该用户号码在单位时间内的语音行为特征,具体包括: 根据获取的语音话单,统计所述用户号码在单位时间的语音通话数量。
3.如权利要求2所述的方法,其特征在于,所述短信行为特征包括:短信接收数量;所述预设条件包括:在单位时间内的语音通话数量不超过第一阈值,且短信接收数量不超过第二阈值;以及 根据获取的短信话单,确定该用户号码在单位时间内的短信行为特征,具体包括: 根据获取的短信话单,统计所述用户号码在单位时间的短信接收数量。
4.如权利要求3所述的方法,其特征在于,所述短信行为特征还包括:短信发送数量;所述预设条件还包括:在单位时间内的短信发送数量超过第三阈值;以及 根据获取的短信话单,确定该用户号码在单位时间内的短信行为特征,还包括: 根据获取的短信话单,统计所述用户号码在单位时间内的短信发送数量。
5.如权利要求3或4所述的方法,其特征在于,所述短信行为特征还包括:所发送短信中,包含相同字节内容的短信数量;所述预设条件,还包括:在单位时间内发送的、包含相同字节内容的短信数量超过第四阈值;以及 根据获取的短信话单,确定该用户号码在单位时间内的短信行为特征,还包括: 根据获取的短信话单,统计所述用户号码在单位时间内的所发送短信中、包含相同字节内容的短信数量。
6.如权利要求1所述的方法,其特征在于,还包括: 若所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,在确定所述用户号码为虚假用户号码之前,利用所述用户号码进行语音拨测,获得所述用户号码对应的应答提不首首频文件; 分析所述音频文件;以及 确定分析结果为空号类型号码对应的应答提示音。
7.一种虚假用户号码识别装置,其特征在于,包括: 获取单元,用于针对任一用户号码,获取该用户号码在单位时间内的通信话单,所述通信话单包括语音话单和短信话单; 第一确定单元,用于根据获取的语音话单和短信话单,分别确定该用户号码在单位时间内的语音行为特征和短信行为特征; 第二确定单元,用于若所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,确定所述用户号码为虚假用户号码。
8.如权利要求7所述的装置,其特征在于,所述语音行为特征包括:语音通话数量;以及 所述第一确定单元,具体用于根据获取的语音话单,统计所述用户号码在单位时间的语音通话数量。
9.如权利要求8所述的装置,其特征在于,所述短信行为特征包括:短信接收数量;以及 所述第一确定单元,具体用于根据获取的短信话单,统计所述用户号码在单位时间的短信接收数量; 第二确定单元,具体用于若所述用户号码在单位时间内的语音通话数量不超过第一阈值,且短信接收数量不超过第二阈值时,确定所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件。
10.如权利要求8或9所述的装置,其特征在于,所述所述短信行为特征还包括:短信发送数量;所述预设条件,还包括:在单位时间内的短信发送数量超过第三阈值;以及 所述第一确定单元,还用于根据获取的短信话单,统计所述用户号码在单位时间内的短信发送数量; 所述第二确定单元,还用于若所述用户号码在单位时间内的短信发送数量超过第三阈值时,确定所述用户号 码在单位时间内的语音行为特征和短信行为特征满足预设条件。
11.如权利要求10所述的装置,其特征在于,所述短信行为特征还包括:所发送短信中,包含相同字节内容的短信数量;以及 所述第一确定单元,还用于根据获取的短信话单,统计所述用户号码在单位时间内的所发送短信中、包含相同字节内容的短信数量; 所述第二确定单元,还用于若所述用户号码在单位时间内发送的、包含相同字节内容的短信数量超过第四阈值时,确定所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件。
12.如权利要求7所述的装置,其特征在于,还包括: 语音拨测单元,用于若所述用户号码在单位时间内的语音行为特征和短信行为特征满足预设条件,在确定所述用户号码为虚假用户号码之前,利用所述用户号码进行语音拨测,获得所述用户号码对应的应答提示音音频文件; 分析单元,用于分析所述语音拨测单元获得的音频文件;第三确定单元,用于确定所述分析单元的分析结果为空号类型号码对应的应答提示音。
【文档编号】H04W12/12GK103796207SQ201210435138
【公开日】2014年5月14日 申请日期:2012年11月2日 优先权日:2012年11月2日
【发明者】王卫, 武勇, 周连华, 许小泉, 刘炎 申请人:中国移动通信集团上海有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1