一种移动通信中的垃圾信息识别方法、装置和系统的制作方法

文档序号:7710602阅读:106来源:国知局
专利名称:一种移动通信中的垃圾信息识别方法、装置和系统的制作方法
技术领域
本发明涉及移动通信技术领域,更具体的,本发明涉及一种移动通信中的垃圾信 息识别方法、装置和系统。
背景技术
作为广告承载媒体,移动通信领域的各种信息较其他媒体有其特殊的优势。在巨 大利益的诱惑下,一些不法分子利用群发器代发各种垃圾信息,比如银行卡欺诈、六合彩、 假证贩卖、楼盘广告等等。垃圾信息一度泛滥成灾,广大手机用户不堪其扰。在运营商投入 巨大人力物力对垃圾信息进行重拳打击下,垃圾信息泛滥的势头被明显遏制,但由于垃圾 信息发送黑产业的成本低廉利润巨大,垃圾信息仍在不断地騷扰着手机用户。当前的移动通信中的垃圾信息识别方法主要是基于对单个号码的发送特征进行 分析,以确定哪些号码是垃圾短信发送号码。这些发送特征包括流量特征、被叫分布特征、 短信内容特征等。然而,垃圾信息群发商为躲避运营商的监控封堵,采取了多种变种手段。其中一种 使用大量号码作为主叫,单号码小流量的手段尤为突出。该方法将原来由1个号码发送的 垃圾信息量分解到N个号码,每个号码发送量只有原来的1/N。比如,不法分子使用一个千 号段中的接近1000个号码,每个号码每小时的发送量还不到10条,但整体发送的垃圾信息 却是一个庞大的数字。由于单个号码发送频次极低,现有技术的流量特征监控手段基本对 此失效。至于现有技术的内容监控技术,由于该技术对于预设关键字的依赖性,尽管其对非 法涉黑涉黄的内容有较高的识别率,但对于内容千变万化的商业广告信息的识别率却非常 低。因此,当前的垃圾信息识别技术都较难识别这种批量号码群集发送的新模式。

发明内容
本发明实施方式提出一种移动通信中的垃圾信息识别方法,以识别批量号码群集 发送的垃圾信息。本发明实施方式提出一种移动通信中的垃圾信息识别装置,以识别批量号码群集 发送的垃圾信息。本发明实施方式提出一种移动通信中的垃圾信息识别系统,以识别批量号码群集 发送的垃圾信息。本发明实施方式的技术方案如下一种移动通信中的垃圾信息识别方法,该方法包括将各个终端按照至少一个通信属性划分为终端组;确定信息流量异常的终端组;并从所述信息流量异常的终端组中确定发送垃圾信息的终端。一种垃圾信息识别装置,该装置包括异常终端组确定单元和垃圾信息确定单元, 其中
异常终端组确定单元,用于将各个终端按照至少一个通信属性划分为终端组,并 确定信息流量异常的终端组;垃圾信息确定单元,用于从所述信息流量异常的终端组中确定发送垃圾信息的终 端。一种垃圾信息识别系统,该系统包括终端、垃圾信息识别装置和数据仓库,其中所 述数据仓库中保存有所述各个终端的消息记录;所述垃圾信息识别装置包括异常终端组确定单元和垃圾信息确定单元,其中所述异常终端组确定单元,用于将各个终端按照至少一个通信属性划分为终端 组,并基于整体分析所述数据仓库中各个终端组的消息记录确定信息流量异常的终端组;垃圾信息确定单元,用于从所述信息流量异常的终端组中确定发送垃圾信息的终 端。从上述技术方案可以看出,在本发明实施方式中,首先将各个终端按照至少一个 通信属性划分为终端组,然后再确定信息流量异常的终端组,并从信息流量异常的终端组 中确定发送垃圾信息的终端。由此可见,由于群集垃圾短信息发送行为的主叫号码群基本 都可以归属于一或多个通信属性,比如通信ID号段或位置特征等,因此应用本发明实施方 式后,可以细化确定出群集垃圾短信息发送行为的主叫号码,弥补了现有技术中垃圾信息 识别技术只能根据单个号码发送特征进行识别的不足,可以识别批量号码群集发送的垃圾 信息,从而提高了垃圾信息封堵的识别率,并进一步压缩了垃圾信息的生存空间。


图1为根据本发明实施方式,移动通信中的垃圾信息识别方法流程示意图;图2为根据本发明实施方式,基于通信ID号段识别群集垃圾信息的示意图;图3为根据本发明实施方式,1395176号段的流量曲线图;图4为根据本发明实施方式,基于位置特征识别群集垃圾信息的示意图;图5为根据本发明实施方式的垃圾信息识别装置结构示意图;图6为根据本发明实施方式的垃圾信息识别系统结构示意图。
具体实施例方式为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体 实施方式对本发明再作进一步详细的说明。在本发明实施方式中,基于至少一个的通信属性,首先对各个终端划分为终端组, 然后再从信息流量异常的终端组中确定发送垃圾信息的终端,从而识别批量号码的群集发 送。图1为根据本发明实施方式移动通信中的垃圾信息识别方法流程示意图。
如图1所示,该方法包括步骤101 将各个终端按照至少一个通信属性划分为终端组。在这里,首先基于至少一个通信属性将各个终端划分为终端组,其中分到相同终 端组的各个终端具有该至少一个相同的通信属性。
在一个实施方式中,可以将各个终端按照通信ID号段分为终端组。将各个终端按 照通信ID号段划分为终端组的依据是不法分子采用批量号码群集发送垃圾短信时,这些 号码基本都位于一到三个通信ID号段。在以往对单个号码进行监控分析的基础上,本发明 实施方式可以把号码群也作为监控对象,因为每个号码群的用户群体差异大,号码群发送 量不能简单像对单个号码一样进行流量阀值设置,而需要纵横双向对比,对某个号码群发 送量,既与相邻其他号码群比较,也与该号码群在以往历史时刻的发送量比较。比如,可以 首先使用千号段作为初始群体粒度,当发现该千号段发送量异常时,再使用多维立方体的 上钻和下取功能,精确定位具体的发送号码群。优选地,通信ID号段可以包括通信ID十万 号段、通信ID万号段、通信ID千号段、通信ID百号段或通信ID十号段等。在另一个实施方式中,可以将各个终端按照位置特征划分为终端组。将各个终端 按照位置特征划分为终端组的依据是不法分子采用批量号码群集发送垃圾短信时,这些 号码基本都位于同一个不大的地理区域中。优选地,可以将各个终端按照各自所属的小区 划分为终端组。步骤102 确定信息流量异常的终端组。在这里,当按照通信ID号段将终端分为终端组时,可以首先根据各个终端的消息 记录构建数据仓库,然后再基于数据仓库建立以通信ID号段、通信时间和消息流量为维度 的多维立方体,再计算各个通信ID号段维度在通信时间维度上的消息流量曲率,并判定曲 率超过预订值的通信ID号段维度所对应的通信ID号段为流量异常的终端组。其中,可以 利用短信记录数据库为数据源,将数据经过加载抽取转换后,建立数据仓库。而且,数据仓 库也可以依托现有的系统,比如短信专家系统、短信报表系统等。在这里,当将各个终端按照各自所属的小区划分为终端组时,首先根据各个终端 所属的小区的信令流量构建数据仓库,然后再基于数据仓库建立以小区ID、通信时间和信 令流量为维度的多维立方体,再计算各个小区ID维度在通信时间维度上的信令流量曲率, 并判定曲率超过预订值的小区ID维度所对应的小区为流量异常的终端组。其中,每个维度 可以设立层次,如号段维设立万号段、千号段、百号段,时间维设立周、日、时、分等。当按照其它的通信属性划分终端组时,可以依据类似于通信ID号段、位置特征的 方式来确定流量异常的终端组,本发明实施例对此并不赘述。步骤103 从信息流量异常的终端组中确定发送垃圾信息的终端。在这里,当按照通信ID号段将终端分为终端组时,当步骤102确定出信息流量 异常的终端组后,对流量异常的终端组进行上钻或下取操作,以确定发送垃圾信息的终 端。比如,当确定出通信ID万号段1395176为流量异常的终端组后,可以对通信ID千号段 13951760 13951769进行下取操作,以确定发送垃圾信息的终端。或者,当确定出通信ID 十号段1395176123为流量异常的终端组后,可以对通信ID百号段139517612进行上钻操 作,以确定发送垃圾信息的终端。以上流程中,当将各个终端按照各自所属的小区划分为终端组时,当步骤102确 定出信息流量异常的终端组后,还可以通过计算所述流量异常的终端组中各终端的主叫/ 被叫次数,和/或消息次数,以定发送垃圾信息的终端。以上流程中,还可以人工进一步判定所确定发送垃圾信息的终端是否为发送垃圾 信息的终端,并当判定为发送垃圾信息的终端后,封禁该终端的通信权限。比如,对发送量异常的终端组发送的短消息按内容长度选出最具代表性的一条短消息,获取其内容;并将 该主叫通信号码和短消息内容通过客服确认系统提交到客服操作员界面,由客服人员人工 判别内容是否是垃圾信息,若不是垃圾信息,则删除此条记录,流程结束;若是垃圾信息,则 向垃圾短信服务器发起请求,由垃圾短信服务器将异常号段群组的所有号码和内容都通过 客服确认系统提交到客服操作员界面。为减轻操作员负担,将号码按内容进行分类,同一条 内容只需要判断确认一次。而且,可以将被封禁的通信号码加入知识库以供查询;若被停客户投诉,则检查知 识库中是否有该通信号码,当存在该通信号码时通过相应途径告诉客户因为发送垃圾信息 被限制功能,当不存在该通信号码时在其他方面查询该客户被限制功能的原因。优选地,需要检验识别的这些信息可以为短信息(SMS)或多媒体信息(MMS)。本领 域技术人员可以意识到,此处的信息还可以为其它格式或形式的移动通讯信息,本发明实 施方式对此并无限定。图2为根据本发明实施方式,基于通信ID号段识别群集垃圾信息的示意图。图3 为根据本发明实施方式,1395176号段的流量曲线图。由图3可见,曲线夹角越小,曲率越大,则该号段号码的短信发送量异常的可能性 越大。比如,某SP操控1395176号段在2月15日大量群发,这一天该号段的流量曲线出现 了一个明显的异常。此时,将曲线夹角超过一定阀值的号段作为疑似号段,为精确定位该号 段中发送垃圾短信的具体号码,对该多维立方体进行号段维度上的上钻和下取操作,最终 找到发送量异常的具体号码群。如对1395176号段进行下取操作,发现13951760-13951769 这10个千号段中只有13951764和13951767这两个千号段的流量异常,其他千号段仍是正 常情况。图4为根据本发明实施方式,基于位置特征识别群集垃圾信息的示意图。如图4所示,可以首先由小区短信平台将各小区BSC、MSC、LSTP等信令点上的信 令予以收敛,然后通过对每个小区的信令流量分析,小区短信平台识别到流量异常小区。然 后,针对流量异常的小区,分析该小区中各个终端的主叫/被叫次数、短信次数、发生时间 等因素,以获得可疑的主叫号码集合。接着,再对可疑的主叫号码集按照短信内容长度进行 归类、取样,并送至客服进行人工确认。客服人员人工判别内容是否是垃圾信息,若不是垃 圾信息,则删除此条记录,流程结束;若是垃圾信息,则向垃圾短信服务器发起请求,由垃圾 短信服务器将异常号段群组的所有号码和内容都通过客服确认系统提交到客服操作员界 面。为减轻操作员负担,将号码按内容进行分类,同一条内容只需要判断确认一次,最后,将 被封禁的通信号码加入知识库以供查询。若被停客户投诉,则检查知识库中是否有该通信 号码,当存在该通信号码时通过相应途径告诉客户因为发送垃圾信息被限制功能,当不存 在该通信号码时在其他方面查询该客户被限制功能的原因。基于上述分析,本发明实施方式还提出了一种垃圾信息识别装置。图5为根据本发明实施方式的垃圾信息识别装置结构示意图。如图5所示,该装置包括异常终端组确定单元501和垃圾信息确定单元502。其 中异常终端组确定单元501,用于将各个终端按照至少一个通信属性划分为终端组, 并确定信息流量异常的终端组;
垃圾信息确定单元502,用于从所述信息流量异常的终端组中确定发送垃圾信息 的终端。类似地,异常终端组确定单元501,可以用于将各个终端按照通信ID号段分为终 端组,或用于将各个终端按照位置特征划分为终端组。而且,通信ID号段可以包括通信ID 十万号段、通信ID万号段、通信ID千号段、通信ID百号段或通信ID十号段,优选为通信ID 万号段或通信ID千号段同样,垃圾信息确定单元502也可以通过计算流量异常的终端组中各终端的主叫 /被叫次数,和/或消息次数,以定发送垃圾信息的终端,或者通过对所述流量异常的终端 组进行上钻或下取操作,以确定发送垃圾信息的终端。本发明实施方式还提出了一种垃圾信息识别系统。图6为根据本发明实施方式的垃圾信息识别系统结构示意图。该系统包括多个终端601、垃圾信息识别装置602和数据仓库603,其中所述数据 仓库603中保存有所述各个终端601的消息记录;所述垃圾信息识别装置602包括异常终端组确定单元6021和垃圾信息确定单元 6022,其中所述异常终端组确定单元6021,用于将各个终端601按照至少一个通信属性划分 为终端组(比如,如图6所示,将终端601划分为两个终端组),并基于整体分析所述数据仓 库603中各个终端组的消息记录确定信息流量异常的终端组;垃圾信息确定单元6022,用于从所述信息流量异常的终端组中确定发送垃圾信息 的终端601。其中,异常终端组确定单元6021,可以用于将各个终端按照通信ID号段分为终端 组,或用于将各个终端按照位置特征划分为终端组,而且通信ID号段可以包括通信ID十万 号段、通信ID万号段、通信ID千号段、通信ID百号段或通信ID十号段,优选为通信ID万 号段或通信ID千号段。同样,垃圾信息确定单元6022也可以通过计算流量异常的终端组中各终端的主 叫/被叫次数,和/或消息次数,以定发送垃圾信息的终端,或者通过对所述流量异常的终 端组进行上钻或下取操作,以确定发送垃圾信息的终端。该系统还可以进一步包括知识库604,用于存储被确定为发送垃圾信息的终端 601的通信号码。优选地,该系统进一步包括人工坐席(图中没有示出),人工坐席进一步用于判定 所确定发送垃圾信息的终端是否为发送垃圾信息的终端,并当判定为发送垃圾信息的终端 后,封禁该终端601的通信权限。综上所述,在本发明实施方式中,首先将各个终端按照至少一个通信属性划分为 终端组,然后再确定信息流量异常的终端组,并从信息流量异常的终端组中确定发送垃圾 信息的终端。由此可见,由于群集垃圾短信息发送行为的主叫号码群基本都可以归属于一 或多个通信属性,比如通信ID号段或位置特征等,因此应用本发明实施方式后,可以细化 确定出群集垃圾短信息发送行为的主叫号码,弥补了现有技术中垃圾信息识别技术只能根 据单个号码发送特征进行识别的不足,可以识别批量号码群集发送的垃圾信息,从而提高了垃圾信息封堵的识别率,并进一步压缩了垃圾信息的生存空间。 以上所述,仅为本发明的较佳实施方式而已,并非用于限定本发明的保护范围。凡 在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
权利要求
一种移动通信中的垃圾信息识别方法,其特征在于,该方法包括将各个终端按照至少一个通信属性划分为终端组;确定信息流量异常的终端组;并从所述信息流量异常的终端组中确定发送垃圾信息的终端。
2.根据权利要求1所述的移动通信中的垃圾信息识别方法,其特征在于,所述将各个 终端按照至少一个通信属性划分为终端组为将各个终端按照通信ID号段分为终端组。
3.根据权利要求2所述的移动通信中的垃圾信息识别方法,其特征在于,所述通信ID 号段包括通信ID十万号段、通信ID万号段、通信ID千号段、通信ID百号段或通信ID十 号段。
4.根据权利要求1所述的移动通信中的垃圾信息识别方法,其特征在于,所述将各个 终端按照至少一个通信属性划分为终端组为将各个终端按照位置特征划分为终端组。
5.根据权利要求4所述的移动通信中的垃圾信息识别方法,其特征在于,所述位置特 征为各个终端各自所属的小区。
6.根据权利要求2所述的移动通信中的垃圾信息识别方法,其特征在于,所述确定信 息流量异常的终端组包括根据各个终端的消息记录构建数据仓库;基于所述数据仓库建立以通信ID号段、通信时间和消息流量为维度的多维立方体;计算各个通信ID号段维度在通信时间维度上的消息流量曲率,并判定曲率超过预订 值的通信ID号段维度所对应的通信ID号段为流量异常的终端组。
7.根据权利要求6所述的移动通信中的垃圾信息识别方法,其特征在于,所述从所述 信息流量异常的终端组中确定发送垃圾信息的终端包括对所述流量异常的终端组进行上钻或下取操作,以确定发送垃圾信息的终端。
8.根据权利要求5所述的移动通信中的垃圾信息识别方法,其特征在于,所述确定信 息流量异常的终端组包括根据各个终端所属的小区的信令流量构建数据仓库;基于所述数据仓库建立以小区ID、通信时间和信令流量为维度的多维立方体;计算各个小区ID维度在通信时间维度上的信令流量曲率,并判定曲率超过预订值的 小区ID维度所对应的小区为流量异常的终端组。
9.根据权利要求8所述的移动通信中的垃圾信息识别方法,其特征在于,所述从所述 信息流量异常的终端组中确定发送垃圾信息的终端包括计算所述流量异常的终端组中各终端的主叫/被叫次数,和/或消息次数,以定发送垃 圾信息的终端。
10.根据权利要求1-9中任一项所述的移动通信中的垃圾信息识别方法,其特征在于, 该方法进一步包括人工进一步判定所确定发送垃圾信息的终端是否为发送垃圾信息的终端,并当判定为 发送垃圾信息的终端后,封禁该终端的通信权限。
11.根据权利要求1-9中任一项所述的移动通信中的垃圾信息识别方法,其特征在于, 所述信息为短信息SMS或多媒体信息匪S。
12.—种移动通信中的垃圾信息识别装置,其特征在于,该装置包括异常终端组确定单元和垃圾信息确定单元,其中异常终端组确定单元,用于将各个终端按照至少一个通信属性划分为终端组,并确定 信息流量异常的终端组;垃圾信息确定单元,用于从所述信息流量异常的终端组中确定发送垃圾信息的终端。
13.根据权利要求12所述的移动通信中的垃圾信息识别装置,其中所述异常终端组确 定单元,用于将各个终端按照通信ID号段分为终端组,或用于将各个终端按照位置特征划 分为终端组。
14.一种垃圾信息识别系统,其特征在于,该系统包括终端、垃圾信息识别装置和数据 仓库,其中所述数据仓库中保存有所述各个终端的消息记录;所述垃圾信息识别装置包括异常终端组确定单元和垃圾信息确定单元,其中所述异常终端组确定单元,用于将各个终端按照至少一个通信属性划分为终端组,并 基于整体分析所述数据仓库中各个终端组的消息记录确定信息流量异常的终端组;垃圾信息确定单元,用于从所述信息流量异常的终端组中确定发送垃圾信息的终端。
15.根据权利要求14所述的垃圾信息识别系统,其特征在于,所述异常终端组确定单 元,用于将各个终端按照通信ID号段分为终端组,或用于将各个终端按照位置特征划分为 终端组。
16.根据权利要求14或15所述的垃圾信息识别系统,其特征在于,该系统进一步包括 知识库,用于存储被确定为发送垃圾信息的终端的通信号码。
全文摘要
本发明实施方式公开了一种移动通信中的垃圾信息识别方法、装置和系统。该方法包括将各个终端按照至少一个通信属性划分为终端组;确定信息流量异常的终端组;并从信息流量异常的终端组中确定发送垃圾信息的终端。应用本发明实施方式以后,可以细化确定出群集垃圾信息发送行为的主叫号码,弥补了现有技术中只能根据单个号码发送特征进行识别的不足,可以识别批量号码群集发送的垃圾信息,从而提高了垃圾信息封堵的识别率,并进一步压缩了垃圾信息的生存空间。
文档编号H04W24/00GK101959145SQ20091015932
公开日2011年1月26日 申请日期2009年7月13日 优先权日2009年7月13日
发明者孙国锋, 庄佳, 杨进, 洪晶 申请人:中国移动通信集团江苏有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1