不良报文的检测方法及不良报文的检测装置的制作方法

文档序号:7755058阅读:188来源:国知局
专利名称:不良报文的检测方法及不良报文的检测装置的制作方法
技术领域
本发明涉及移动通信技术领域,尤其涉及一种不良报文的检测方法、一种不良对象集合的建立方法及一种不良报文的检测装置。
背景技术
随着移动通信技术,特别是最近几年能够支持高速数据业务的3G网络、3G移动终端技术的快速发展,彩信业务、移动互联网业务逐步成为继传统的语音业务、短消息业务之后,获得广泛应用的移动业务。彩信业务使得不同用户之间发送的消息中不仅可以包含文本内容,还可以包含图片内容。移动互联网业务使得人们可以随时随地的访问互联网,获取最新的资讯、观看图片、视频等。彩信业务和移动互联网业务之间的共同点在于不同移动通信网络实体之间 (包括两个移动终端之间、或网络接入设备与移动终端之间)交互的消息中不仅包含文本、 还包含图片和视频内容。彩信业务、移动互联网业务等数据业务在为人们的生活带来便利的同时,也为不法分子提供了可乘之机。恶意用户利用彩信业务、移动互联网业务等数据业务传播非法广告、淫秽色情、反动言论等不良信息的现象给人们的日常生活带来了困扰。针对上述问题,现有技术提出了以下几类解决方案1、基于字符串匹配的方法,其基本原理为在通信终端安装检测客户端,当检测客户端发现接收到的报文内容中包含设定的敏感字符串集合中的字符串时,确定该报文为非法报文;2、基于黑白名单的方法,其基本原理为在个人计算机、调制解调器等设备中安装内容过滤代理CFA,当用户发出对某个URL进行访问的请求时,CFA根据用户设置的黑白名单,允许或禁止该访问请求。如果该URL不在CFA的黑白名单中,CFA则向查询服务器QS发出查询请求。QS在存储的URL库中查询该URL的分级信息并将结果返回给CFA,CFA根据接收到的结果确定允许或禁止该访问请求。QS定期从内容分析与管理服务器CAMS中下载更新的URL分级信息;3、基于内容指纹过滤的方法,其基本原理为接收来自用户的内容和偏好;不带有任何可用标识信息地将该内容编码;针对一个或多个技术属性对已编码内容执行技术分析;将可用标识信息与技术属性配对以形成内容指纹,用形成的内容指纹来标识该内容; 将内容指纹与偏好结合以创建内容指纹过滤器,内容指纹过滤器用于过滤可用内容块,其中每一块可用内容都具有相关联的内容指纹。对于基于黑白名单和字符串匹配的方案而言,只能在非法用户已经通过移动业务实施了大量非法行动之后,才能将该非法用户识别出来并添加到黑名单中、或者将敏感字符串添加到敏感字符串集合中,无法做到实时检测,并且字符串匹配方案只适用于非法短信的识别,无法识别出彩信或者移动互联网业务报文是否为不良报文。对于基于内容指纹过滤的方法而言,在过滤之前必须将报文内容和用户偏好进行编码,所需的处理资源和处理时间都较多,难以满足实时性的要求。

发明内容
本发明实施例提供一种不良报文的检测方法,用以解决现有技术无法有效检测出彩信、移动互联网等移动业务相关报文是否为不良报文的问题。对应地,本发明实施例还提供了一种不良报文的检测装置。本发明实施例提供的技术方案如下一种不良报文的检测方法,包括分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的;从获取到的报文中提取对象;针对提取到的每个对象,执行基于各对象类别对应的判别规则,确定该对象的特征向量;根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;根据确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。一种不良对象集合的建立方法,包括接收输入的不良文本对象、不良图片对象或不良视频对象;根据各类对象对应的判别规则,确定输入的不良对象对应的特征向量;存储输入的不良对象以及确定出的该不良对象对应的特征向量。一种不良报文的检测装置,包括不良对象集合构建单元,用于分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的,所述对象包括文本对象、图片对象或视频对象;对象提取单元,用于从获取到的报文中提取对象;第一确定单元,用于针对对象提取单元提取到的每个对象,基于各对象类别对应的判别规则,确定该对象的特征向量;并根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;第二确定单元,用于根据第一确定单元确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。本发明实施例预先分别建立不同类别不良对象的集合,该集合中每个对象分别对应一个特征向量;在对从网络中获取的报文进行检测时,从该报文中提取对象,并针对提取的每个对象,确定该对象的特征向量,并结合该对象所属类别的不良对象集合中的不良对象的特征向量,确定该对象为不良对象的概率;继而根据从报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。通过上述方案能够检测包含不同对象的数据业务报文为不良报文的概率,在此基础上执行区分的过滤处理。


图1为本发明实施例的主要实现原理流程图2为本发明实施例提供的不良报文检测系统的原理图;图3a为本发明实施例中每类对象样本的特征向量的示意图;图北为本发明实施例中每类对象样本的特征向量的第一种存储方式的示意图;图3c为本发明实施例中每类对象样本的特征向量的第二种存储方式的示意图;图4为本发明实施例提供的不良报文检测方案的流程图;图5为本发明实施例提供的不良报文的检测装置的结构示意图;图6为本发明实施例提供的不良报文的检测装置中不良对象集合构建单元的结构示意图。
具体实施例方式发明人发现现有的不良报文检测方案均无法有效、高效地检测包含图片对象和视频对象的数据业务报文是否为不良报文。本发明的基本思路为首先分别建立三类不良对象(不良文本对象、不良图片对象和不良视频对象)分别对应的样本集合,样本集合中的不良对象分别对应一个特征向量,特征向量中元素的值是根据该元素对应的判别规则确定出的;对接收到的报文进行检测时,先从接收报文中提取包含的文本对象、图片对象或视频对象;针对提取的每个对象,根据该对象所属类别对应的判别规则,确定提取到的对象的特征向量,进而根据对应类型的不良对象样本集合中不良对象的特征向量,确定该提取到的对象为不良对象的概率;根据确定出的从接收报文中提取到的对象为不良对象的概率,确定该接收报文的危险等级,将危险等级超过预定阈值的报文判定为不良报文,执行对应的过滤处理。下面结合各个附图对本发明实施例技术方案的主要实现原理具体实施方式
及其对应能够达到的有益效果进行详细的阐述。如图1所示,本发明实施例的主要实现原理流程如下步骤10,分别建立不良文本对象、不良图片对象和不良视频对象的样本集合,样本集合中每个对象样本分别对应一个的特征向量,每类不良对象的特征向量中的元素值是根据该元素对应的判别规则来确定的(每个元素值也可以理解为表明该对象是否具备该元素对应的判定规则所描的特征),每个所述判别规则包含至少一个该类对象的预定属性值的判别阈值;步骤20,从接收报文中提取包含的文本对象、图片对象或视频对象;步骤30,逐一确定步骤20提取到的每个对象对应的特征向量,针对每个提取到的对象,根据确定出的该对象的特征向量,以及对应类型样本集合中不良对象的特征向量,确定该提取到的对象为不良对象的概率;其中,确定每个提取到的对象对应的特征向量的过程为首先,针对该对象所属对象类型对应的用于确定特征向量中每个元素的元素值的判别规则,计算该对象对应的该规则包含的预定属性的属性值;然后,根据计算出的预定属性的属性值和该判别规则中包含的该预定属性值的判别阈值,确定该对象特征向量中与该规则对应的元素的值,基于此构建该对象的特征向量。步骤40,根据步骤30确定出的报文中提取到的对象为不良对象的概率,确定该报文的危险等级,在确定出的危险等级超过预定阈值时,确定该报文为不良报文,执行确定出的危险等级对应的过滤处理。下面将依据本发明上述发明原理,详细介绍一个实施例来对本发明方法的主要实现原理进行详细的阐述和说明。附图2为本发明实施例中不良报文检测系统的原理图。其中,不良对象集合构建模块,用于基于管理员输入的不良文本对象、不良图片对象和不良视频对象样本,构建三类不良对象的样本集合,以及根据每类不良对象对应的判别规则,确定每个不良对象样本分别对应的特征向量,样本集合中的每个不良对象对应的特征向量包含的元素数量表明该类对象对应的判别规则的数量,每个对象对应的特征向量中的元素值是根据该元素对应的判别规则中包含至少一个预定属性值的判别阈值来确定的,每个判别规则中的预定属性值的判别阈值都分别存储于数据库中的至少一个数据表中。下面通过几个实例来对特征向量、以及判别规则进行介绍。对于文本对象来说对应的特征向量为Al = [all, al2, . . . , aln] (η为自然数),其中all、al2的取值分别根据表1所示的文本对象对应的判定规则1和判定规则2来确定,其他元素值的确定方法也类似,在这里不再一一详述。用于确定特征向量中的元素值的判别规则中包含的预定属性为预定关键词的出现频次,该预定属性值的判别阈值即为所述预定关键词的出现次数值,例如该规则为关键词“走私”的出现次数高于5次时,特征向量中该规则对应的元素的元素值为1,否则为0 ;更进一步,为了避免非法用户通过在关键词中插入无意义字符来逃避被检测出不良信息,可以将上述预定关键词的出现频次改进为在连续长度的预定字符中出现组成预定关键词的各字符的频率,例如假定预定关键词为“法轮功”,编码时被编为对应的6 个字节的2进制数,如果非法用户在其中插入了无意义字符后为“法,轮功”、“法_轮_功”, 则对应的编码变为7位或8位,按照传统的检测关键词的方法将无法检测出,因此改进为检测连续的10位编码中包含“法”、“轮”、“功”分别对应的编码的出现频次,如表1所示。表1不良文本对象判别规则示例
权利要求
1.一种不良报文的检测方法,其特征在于,包括分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的; 从获取到的报文中提取对象; 针对提取到的每个对象,执行基于各对象类别对应的判别规则,确定该对象的特征向量;根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;根据确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。
2.如权利要求1所述的方法,其特征在于,所述不良对象包括不良文本对象、不良图片对象和不良视频对象。
3.如权利要求2所述的方法,其特征在于,建立至少两类不良对象的集合,具体包括 接收输入的不良文本对象、不良图片对象或不良视频对象;根据各类对象对应的判别规则,确定接收到的每个不良对象对应的特征向量; 存储接收到的不良对象以及确定出的该不良对象对应的特征向量。
4.如权利要求3所述的方法,其特征在于,根据预设的各类对象对应的判别规则,确定输入的不良对象对应的特征向量,具体包括根据所述输入的不良对象所属对象类别对应的每个判别规则中包含的预定属性,确定该输入的不良对象的所述预定属性的属性值,并根据所述判别规则中包含的所述预定属性的判别阈值和确定出的所述预定属性的属性值,确定该输入的不良对象对应的特征向量中所述判别规则对应的元素的元素值。
5.如权利求3所述的方法,其特征在于,存储输入的不良对象对应的特征向量,具体包括将每类不良对象集合中各不良对象的特征向量中同一元素的元素值存储在数据表同一列中、且将每类不良对象中各不良对象的特征向量中的不同元素的元素值存储在同一数据表中;或将每类不良对象集合中各不良对象的特征向量中同一元素的元素值存储在数据表同一列中、且将每类不良对象中各不良对象的特征向量中的不同元素的元素值存储在不同数据表中。
6.如权利要求1所述的方法,其特征在于,基于提取到的每个对象所属对象类别对应的判别规则,确定该提取到的对象的特征向量,具体包括根据该提取到的对象所属对象类别对应的每个判别规则中包含的预定属性,确定该提取到的对象的所述预定属性的属性值,并根据所述判别规则中包含的所述预定属性的判别阈值和确定出的所述预定属性的属性值,确定该提取到的对象对应的特征向量中所述判别规则对应的元素的元素值。
7.如权利要求1所述的方法,其特征在于,根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率,具体包括
8.如权利要求1所述的方法,其特征在于,根据确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率,具体为从确定出的从所述报文中提取的各对象分别为不良对象的概率中,选择出最高的概率值作为所述报文为不良报文的概率。
9.如权利要求1所述的方法,其特征在于,确定所述报文为不良报文的概率之后,还包括 在所述报文为不良报文的概率超过预定阈值时,执行对应的预定处理。
10.如权利要求9所述的方法,其特征在于,所述预定处理包括以下至少一种 对该报文进行屏蔽;或将该报文的发送方标识存入黑名单中,或关闭该报文的发送方的业务功能;或将从该报文提取到的对象存入对应类型的所述不良对象集合中。
11.一种不良对象集合的建立方法,其特征在于,包括 接收输入的不良文本对象、不良图片对象或不良视频对象;根据各类对象对应的判别规则,确定接收到的每个不良对象对应的特征向量; 存储接收到的不良对象以及确定出的该不良对象对应的特征向量。
12.—种不良报文的检测装置,其特征在于,包括不良对象集合构建单元,用于分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的, 所述对象包括文本对象、图片对象或视频对象;对象提取单元,用于从获取到的报文中提取对象;第一确定单元,用于针对对象提取单元提取到的每个对象,基于各对象类别对应的判别规则,确定该对象的特征向量;并根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;第二确定单元,用于根据第一确定单元确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。
13.如权利要求12所述的装置,其特征在于,所述不良对象集合构建单元具体包括 接收子单元,用于接收输入的不良文本对象、不良图片对象或不良视频对象;确定子单元,用于根据各类对象对应的判别规则,确定接收子单元接收的每个不良对象对应的特征向量;存储单元,用于存储接收子单元接收到的不良对象以及确定子单元确定出的该不良对象对应的特征向量。
全文摘要
本发明公开了一种不良报文的检测方法及不良报文的检测装置,用以解决现有技术无法有效检测出彩信、移动互联网等移动业务相关报文是否为不良报文的问题。该方法包括分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的;从获取到的报文中提取对象;针对提取到的每个对象,执行基于各对象类别对应的判别规则,确定该对象的特征向量;根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;根据确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。
文档编号H04L12/26GK102340424SQ201010235698
公开日2012年2月1日 申请日期2010年7月21日 优先权日2010年7月21日
发明者崔可升, 曹璐, 赵建福 申请人:中国移动通信集团山东有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1