用户数据发送行为的识别与提取及其处理设备的制作方法

文档序号:7642460阅读:174来源:国知局
专利名称:用户数据发送行为的识别与提取及其处理设备的制作方法
技术领域
本发明涉及计算机网络安全,尤其涉及网络中的用户行为管理。
背景技术
目前广泛使用的网络安全设备,如防火墙、入侵侦测系统、Webkcurity等,都是基于网络协议本身的一种安全设备。然而随着互联网应用的快速发展,目前很多应用可以通过不同网络协议来承载,这时仅依赖于网络协议控制的安全设备会存在一定的安全隐患, 因此,通过对互联网环境中的用户行为进行识别尤显重要。由于网络环境非常复杂,各种网络应用没有统一的实现标准,因此对网络中用户行为的识别具有很高的难度。用户通过网页发送数据行为包括发帖、回复、评论、写博客(blog)、改签名状态、站内聊天、站内发消息、登录论坛、退出论坛等。对用户行为识别优劣的衡量主要体现在两个方面1.凡出现特定行为的网络流量,能够正确识别出此行为,即不遗漏;其用识别率来衡量,识别率=正确识别的流量个数/所有该行为的流量个数;2.凡非特定行为的网络流量,能够正确识别出不是此行为,即不误识别;其用误识率来衡量,误识别率=识别为该行为流量的个数/所有不是该行为的流量个数。此外,在已识别出用户行为前提下,网络管理者通常还希望能够提取出与此种行为相关的信息,如提取出具体的用户行为(如登录、发送信息、退出等),以及与该行为相关的信息,如帐号、标题、内容、附件(如名称、大小、个数、内容等)、发送内容的链接地址等。 举例,若提取出链接地址,则在识别出敏感言论时,能够准确有效地定位,即能够对相应页面链接得到准确访问。对用户行为信息提取优劣的衡量标准主要体现在以下两个方面1.能够正确提取用户行为信息,如包括标题、内容、所发附件、用户账号等;2.能够处理网络中各种编码方式,比如urlencode, ba se64, Unicode, utf8, gbk 等编码方式。随着互联网应用的不断深化,网络用户行为管理系统必将成为新一代的网络安全设备,而用户行为识别则是网络用户行为管理系统的核心技术。用户发送数据行为高速精确识别方法及以其为核心技术的设备具有重要的应用前景。目前通常采用的网络行为识别方法是,向网络中抓取数据包,然后再将该数据包与一个简单的全局特征集合中的所有元素进行匹配,从而识别出用户发送数据行为。此种方式识别率较低,且误识别率较高,无法保证高准确性和识别率,同时此种方法还在一定程度上影响用户机器速度。

发明内容
本发明目的就是为了提供一种能够快速、精确的识别出用户发送数据行为。在第一方面,本发明提供了一种通过网络设备来识别用户发送数据行为的方法。该网络设备捕获用户所属终端发送数据的流量。该网络设备将树形结构特征库中的特征依次与所述数据流量中的字符串做匹配,以识别出用户行为。其中,所述树形结构特征库以树形结构方式存储用户行为特征。在第二方面,本发明提供了一种识别用户发送数据行为的网络设备。该网络设备包括,捕获用户发送数据流量的模块,以树形结构方式存储用户行为特征的树形结构特征库,以及将该树形结构特征库中的特征依次与所述数据流量中的字符串做匹配以识别出用户行为的模块。本发明通过树形结构特征库快速、精确地识别及提取出用户发送数据行为。此夕卜,本发明还能够提取到与用户行为相关的信息,如标题,正文内容、所发附件、用户账号等。本发明的识别率可达到95%以上,误识别率则低于5%,并且本发明的识别效率可达到 log (η)级,其中,η为该识别库容量。


下面将参照附图对本发明的具体实施方案进行更详细的说明,在附图中图1是本发明一个实施例的识别及提取用户发送数据行为的系统示意图;图2是本发明一个实施例的识别及提取用户发送数据行为的方法流程图;图3是HTTP数据流量的一个例子;图4是本发明一个实施例的树形结构特征库示意图;图5是本发明一个实施例的根据树形特征库识别提取用户行为以及提取与用户行为相关信息的方法流程图。
具体实施例方式图1是本发明一个实施例的识别及提取用户发送数据行为(简称用户行为)的系统示意图。该系统包括网络行为管理设备120,该设备用于获取各终端(终端1、终端
2,......终端η)发送的HTTP数据流量(如图3),并根据该数据流量以及树形结构特征库
(如图4)识别及提取出用户具体行为(如论坛发帖行为),以及提取出与该用户行为相关的信息,如账号、标题、正文内容等。需要说明的是,该网络行为管理设备120可以是一个独立的设备,也可以以一个模块形式存在于网关、上网行为管理等网络设备中。图2是本发明一个实施例的识别及提取用户发送数据行为(简称用户行为)的方法流程图。下面以获取到图3(图3是HTTP数据流量的一个例子)中数据流量为例,详细阐述如何通过该数据流量识别并提取出用户发送数据行为。在步骤210,将图3中的数据流量存放在缓冲中。在步骤220,遍历该缓冲中的数据流量,并为该数据流量中的每一字符做标记,以方便索引。具体地,将该数据流量中的每一字符串映射到一个map表中,在该map表中,将该数据流量中的字符串以key (关键字)、value (值)方式相对应的存储起来,以方便索引。在步骤230,根据树形结构特征库(如图4),将该特征库中的特征与map表(由步骤220得到)中的key (关键字)做匹配,若匹配上,则根据其value(值)识别出用户的具体行为,同时提取该行为;并在识别、提取到该用户行为后,继续提取与该用户行为相关的信息,如账号、正文内容等信息。如何通过该树形结构特征库来识别、提取出用户行为,以及如何提取与该用户行为相关的信息,将在图5中得到详细阐述。下面阐述树形结构特征库。图4是本发明一个实施例的树形结构特征库的示意图,该树形结构特征库存储于网络行为管理设备120中,且该树形结构特征库包括精确库和模糊库。精确库中的特征来自于访问量巨大,且较著名的网站,如新浪等。因此,精确库可以保证正确识别率,并能够降低误识别率。进一步地,在精确库中添加否定特征,从而进一步降低了误识别率。模糊库中的特征来自于大量的统计数据,是通过选取网络中最可能出现特征而获得到的。因此模糊库能够保证识别出所有可能出现的用户行为,进一步提高了识别率。需要说明的是,本发明的树形结构特征库的节点很多,图4中的“......”符号,代
表有多个节点。此外,本发明并不限于通过图4中的Method、Host、URL_path、URL_query四个步骤识别出用户行为。某些行为仅需要通过三步Method、Host、URL_path就能够识别出用户行为(图4中并未示意)。下面详细阐述如何根据树形结构特征库以及图2数据流量来识别用户发送数据的行为,以及提取与该用户行为相关的信息。图5是本发明一个实施例的根据树形特征库识别提取用户行为以及提取与用户行为相关信息的方法流程图。该图5示意的是,经过精确库中的Method、Host、URL_path、 URL_query四个步骤,以及经过模糊库来识别用户的行为。需要说明的是,也可以仅经过三步Method、Host、URL_path就能够识别出用户行为(此种情况图5并未示意)。在步骤510,从图4树形结构特征库中的Method (请求方法)开始,对图3数据流量中每一字符串做匹配,即将Method层中的各特征(包括GET、P0ST)与数据流量中的每一字符串做匹配。当特征POST与图3字符串POST匹配时,识别出用户发送数据行为(简称用户行为)是“用户向服务器发送数据”的行为,同时提取该用户行为,以下步骤以识别出用户行为是“用户向服务器发送数据”为例进行阐述。需要说明的是,本发明的树形结构特征库能够兼容完全匹配及部分匹配两种匹配方式。也就是说,某些特征可设置成完全匹配,其他特征则可设置成部分匹配。完全匹配需要特征与字符串完全相同。举例如,特征POST与字符串POST完全匹配。部分匹配则仅需要特征与字符串中的部分内容相同即可。举例如,特征body与字符串bodyl23、bodyabc、 body4x2部分匹配。又如,如果C0是特征,而coruacon不是特征,则需要co采用完全匹配方式,使得co可以命中,而con、aeon不能命中。此外,由于步骤220已经遍历图3中每一字符,并将图3中每一 key、Value相对应地存放在map表中,因此通过索引该map表的方式,上述步骤510以及下述步骤520、步骤 530、步骤MO中的匹配步骤就能够快速完成。在步骤520,将图4Host(主机名)层中的且为POST叶子节点的特征,与图3中的
每一字符串进行匹配。在步骤521,当特征 sina. com 与图 3 字符串 club, eladies. sina. com. cn 相匹配时,则说明该用户访问了新浪网站,同时提取出“用户访问新浪论坛”。在步骤522,如果图4Host中的且为POST叶子节点的特征,与图3中的每一字符串均不匹配,则进入模糊库,并将模糊库中的各特征关键字与图3数据流量进行匹配。需要说明的是,上述通过模糊库来识别用户行为是因为精确库的Host层中特征与数据流量中的字符串均不匹配。并且当URL_path层或URL_qUery层中的特征与数据流量中的字符串不匹配时,同样也需要通过模糊库来识别用户行为(此种情况将通过下面的步骤得到阐述)。因此,模糊库中的特征是能够与HTTP请求体中的字符串相匹配的特征。并且由于通过模糊库来识别用户信息,是在没有识别出Host (主机名)或URL_path(资源路径)、URL_query (资源查询条件)情况下而发生的,因此通过该模糊库来识别用户信息,如识别正文内容,则需要与多个可能的关键字同时进行才能够实现。原因是不同的Host、URL_ path、URL_query,其与用户信息相关的特征不同。举例说明,正文内容在sina. com中关键字是message,而对于其他主机名,则正文内容很可能是body、content,因此通过模糊库来识别正文内容,则需要匹配message、body、content等多个特征。在步骤M0,将图4URL_ path (资源路径)层中的且为sina. com叶子节点的特征,与图3中的每一字符串进行匹配。在步骤M1,当特征post, php与图3中的字符串post, php相匹配时,则识别出用户行为是“发帖”行为,同时提取出该行为,然后转入步骤阳0。在步骤M2,如果图4URL_path (资源路径)层中的且为sina. com叶子节点的特征与图3中的每一字符串均不匹配,则进入模糊库,并将模糊库中的各节点与图3数据流量进行匹配,如果匹配上,则识别并提取出相应行为。在步骤550,将图4URL_qUery (资源查询条件)层中的且为post, php叶子节点的特征,与图3中的每一字符串进行匹配。在步骤551,当特征acion = r印Iy与图3中的字符串action = reply&fid = 153&tid = 4023888&extra = page% 3Dl&r印lysubmit = yes 相匹配时,则识别出用户行为是“回复”行为,同时提取出该行为,然后转入步骤560。在步骤552,如果图4URL_query(资源查询条件)层中的且为post, php叶子节点的特征与图3中的每一字符串均不匹配,则进入模糊库,并将模糊库中的各节点与图3数据流量进行匹配,如果匹配上,则识别并提取出相应行为。通过上述步骤510、步骤520、步骤521、步骤M0、步骤Ml、步骤550、步骤551可
识别并提取出用户行为是“回复新浪论坛中一个帖子”行为。然而,在识别、提取出用户行为之后,还可以根据数据流量(如图3)进一步提取与该用户行为相关的信息(如账号、正文内容等)。在步骤560,进一步提取与用户行为相关的信息,如提取账号、标题内容、正文内容寸。具体地,当图4中的与用户行为相关的特征SINA_USER,与图3数据流量中的字符串SINA_USER相匹配时,则提取该数据流量中SINA_USER后面的value (值),以获取到用户账号。当图4中的与用户行为相关的特征subject,与图3数据流量中的字符串subject 相匹配时,则提取出该数据流量中subject后面的Sigh,以获取到标题内容为Sigh。当图 4中的与用户行为相关的特征message,与图3数据流量中的字符串message相匹配时,则提取出该字符串后面是wonderful,以获取到正文内容是wonderful。需要说明的是,某些情况下,不同Host (主机名)所采用的网络编码方式不同,因此此时网络行为管理模块120终端无法正确显示出其提取出的用户行为、与用户行为相关的信息,下述步骤570就是为了解决此种问题而采用的方法。
在步骤570,自动识别编码方式。具体地,查找数据流量中关键字Content-Type (内容类型)的value (值)是否含有编码信息。如果有,则提取该编码信息,以便网络行为管理模块120的终端能够正确显示其提取出的用户行为、与用户行为相关的信息。如果没有,则查看图3树形结构特征库最低层(即URL_qUery层)叶子节点上是否有描述编码信息(并且该编码信息是在识别及提取出用户行为时而获得的)。如果有,则获取该编码信息,以便网络行为管理模块120的终端能够正确显示其提取出的用户行为、 与用户行为相关的信息。如果没有,则采用尝试编码转换算法转换编码,以使终端能够正确显示出所提取到的用户行为、与用户行为相关的信息。显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。
权利要求
1.一种通过网络设备来识别用户发送数据行为的方法,其特征在于,包括所述网络设备捕获用户所属终端发送数据的流量;所述网络设备将树形结构特征库中的特征依次与所述数据流量中的字符串做匹配,以识别出用户行为;其中,所述树形结构特征库以树形结构方式存储用户行为特征。
2.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,所述树形结构特征库包括精确库和模糊库。
3.如权利要求2所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,所述识别步骤包括,根据所述精确库来识别所述用户行为;且该识别顺序为HTTP请求方法(Method)、主机名(Host)、资源路径(URL_path)、资源查询条件(URL_query)。
4.如权利要求3所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,所述HTTP请求方法(Method)包括GET请求方法和POST请求方法。
5.如权利要求3所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,所述识别步骤包括,在所述数据流量与所述主机名(Host)或资源路径(URL_path)或资源查询条件(URL_qUery)层中的各特征均不匹配时,则通过所述模糊库来识别所述用户行为。
6.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,所述匹配为完全匹配和/或部分匹配。
7.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,在所述匹配步骤之前包括,将所述数据流量中的字符串映射到一个表中,并在该表中将该数据流量中的字符串以关键字(key)、值(value)方式相对应的存储起来的步骤。
8.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,在所述识别用户行为的同时,包括提取该行为的步骤。
9.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,在识别出所述用户行为之后,包括提取与该用户行为相关信息的步骤。
10.如权利要求8或9所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,在所述识别步骤之后,包括通过该网络设备的终端来显示该提取结果的步骤。
11.如权利要求10所述的一种通过网络设备识别用户发送数据行为的方法,其特征在于,包括查找所述数据流量中关键字Content-Type (内容类型)是否含有编码信息,若有,则获取该编码信息,以便该网络设备的终端能够正确显示所述提取结果;若没有,则查看所述树形结构特征库中是否含有描述编码信息,若有,则获取该编码信息,以便该网络设备的终端能够正确显示所述提取结果;若没有,则采用尝试编码转换算法转换编码,以使该网络设备的终端能够正确显示所述提取结果。
12.—种识别用户发送数据行为的网络设备,其特征在于,包括捕获用户发送数据流量的模块;以树形结构方式存储用户行为特征的树形结构特征库;将该树形结构特征库中的特征依次与所述数据流量中的字符串做匹配以识别出用户行为的模块。
13.如权利要求12所述的一种识别用户发送数据行为的网络设备,其特征在于,所述树形结构特征库包括精确库和模糊库。
14.如权利要求13所述的一种识别用户发送数据行为的网络设备,其特征在于,所述精确库包括四层结构,分别为HTTP请求方法(Method)层、主机名(Host)层、资源路径 (URL_path)层、资源查询条件(URL_query)层。
15.如权利要求12所述的一种识别用户发送数据行为的网络设备,其特征在于,所述匹配为完全匹配和/或部分匹配。
全文摘要
本发明涉及用户数据发送行为的识别与提取及其处理设备。本发明首先捕获用户发送数据流量。然后从树形结构特征库的根节点开始,将该树形结构特征库中的特征依次与所述数据流量中的字符串做匹配,以识别出用户行为。其中,所述树形结构特征库以树形结构方式存储用户行为特征。本发明能够快速准确地识别、提取出用户发送数据行为,并能够提取出于该用户行为相关的信息。本发明能够广泛应用于计算机网络安全领域中。
文档编号H04L12/56GK102185762SQ201110097759
公开日2011年9月14日 申请日期2011年4月19日 优先权日2011年4月19日
发明者刘卫, 周阳 申请人:北京网康科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1