用于网络流量监控的方法和系统的制作方法

文档序号:7759129阅读:312来源:国知局
专利名称:用于网络流量监控的方法和系统的制作方法
技术领域
本发明涉及互联网(Internet)领域,且更具体而言,涉及互联网中数据流量的监控。
背景技术
随着Internet的快速发展,互联网成为信息传播承载的主要途径。然而,传统互联网缺乏监管,恶意/黄色/人身攻 击的信息泛滥,甚至已经出现恐怖组织利用互联网培养恐怖分子、组织恐怖袭击的案例。为了应对这种不良情态,采用技术手段对互联网进行监管已成为各国政府和运营商的共识。流量监控系统在这样的背景下应运而生。流量监控系统采集流量信息,还原原始信息,并根据原始信息中的特征进行智能分析,从而及时发现网络中存在的漏洞,并力求对网络攻击做到防患于未然。传统的流量监控方法一般分为三个步骤流量引流、协议重组及后台内容分析。这三个步骤由对应的三种功能单元完成,如图I所示,分别为引流分类单元102、协议重组单元104及后台内容分析单元106。其中,引流分类单元102按照协议类型将收到的数据包分发给不同的协议重组单元104,协议重组单元104还原应用层信息(例如,从简单邮件传输协议(SMTP)报文还原电子邮件(Email)信息、从超文本传输协议(HTTP)报文还原网页的超文本标记语言(HTML),然后,将还原的应用层信息连同时间标签,链路信息等发送至后台内容分析单元106进行分析。后台内容分析单元106由服务器集群组成,对还原的应用层信息进行热点统计、互联网信息分析等,从而采取一定的措施抑制网络攻击。但是,在上述现有技术中,引流分类单元被动引流,大流量的数据直接被导入到协议重组单元和后台内容分析单元。随着流量的增长,协议重组单元和后台内容分析单元中的服务器集群的处理成本会大幅上升。其次,后台内容分析功能是在协议重组后完成的,从而对大量相同的内容进行重复重组,导致对协议重组单元的性能需求很大。此外,上述传统的流量监控方法由于只能获得部分的对等网络(Peer-To-Peer,英文简称为P2P)文件分片而无法实现智能链接其它的P2P文件分片,从而不能处理对等网络的流量监控。

发明内容
有鉴于此,本发明的一方面提供一种用于网络流量监控的方法,所述方法包括在预定时间内对统一资源定位符URL (Uniform/Universal ResourceLocator, URL)的被请求次数进行统计以确定热点URL ;主动抓取所述热点URL对应的资源;对主动抓取的所述热点URL对应的资源进行协议重组;及对经协议重组的数据进行内容分析。本发明的一方面提供一种用于网络流量监控的系统,所述系统包括引流分类单元,用于对数据包进行引流分类;热点统计单元,用于在预定时间内对统一资源定位符URL的被请求次数进行统计以确定热点URL ;主动抓取单元,用于主动抓取所述热点URL对应的资源;协议重组单元,用于对主动抓取的所述热点URL对应的资源进行协议重组;及后台内容分析单元,用于对经协议重组后的数据进行内容分析。本发明实施例的技术方案在预定时间内对统一资源定位符URL的被请求次数进行统计以确定热点URL,然后主动抓取所述热点URL对应的资源进行协议重组和内容分析。因此,可以减少协议重组和后台内容分析的负担。此外,本发明实施例的技术方案对于分布式P2P资源,可主动抓取分布在各处的P2P文件分片,以支持对P2P流量的监控。


图I为现有技术中传统的网络流量监控系统的示意图。图2为本发明实施例中网络流量监控系统的一个实施例示意图。图3为本发明实施例中网络流量监控系统的另一个实施例示意图。
图4为本发明实施例中网络流量监控方法的一个实施例示意图。结合附图阅读时将更好地了解以上发明内容以及以下本发明的某些实施例的详细描述。出于说明本发明的目的,在图中展示某些实施例。然而,应了解,本发明不限于附图中所展示的布置和手段。
具体实施例方式下文结合附图所阐述的详细说明意在说明本发明的各种实施例,而非代表本发明仅可实施为这些实施例。详细说明包括具体细节,以便达成对本发明的透彻了解。然而,所属领域的技术人员应了解,本发明的实施也可以不使用这些具体细节。在某些实例中,以方块图的形式显示各众所周知的结构及组件,以免淡化对本发明的说明。图2描绘的是根据本发明一实施例的网络流量监控系统。该系统包括引流分类单元202、热点统计单元204、主动抓取单元206、协议重组单元208及后台内容分析单元210。其中,引流分类单元202,用于对数据包进行引流分类;热点统计单元204,用于在预定时间内对统一资源定位符URL的被请求次数进行统计以确定热点URL ;主动抓取单元206,用于主动抓取所述热点URL对应的资源;协议重组单元208,用于对主动抓取的所述热点URL对应的资源进行协议重组;后台内容分析单元210,用于对经协议重组后的数据进行内容分析。在该网络流量监控系统中,先获得热点资源,再进行协议重组和后台内容分析,使得对同样的内容仅进行一次处理,从而减少了协议重组单元和后台内容分析单元的负担,提供了整个系统的效率。此外,对于分布式P2P资源,可主动抓取分布在各处的P2P文件分片,以支持对P2P流量的监控。图3描绘的是根据本发明的另一实施例的网络流量监控系统。该网络流量监控系统包括引流分类单元302,用于对数据包进行引流分类;热点统计单元304,用于在预定时间内对统一资源定位符URL的被请求次数进行统计以确定热点URL ;主动抓取单元310,用于主动抓取所述热点URL对应的资源;协议重组单元312,用于对主动抓取的所述热点URL对应的资源进行协议重组;以及
后台内容分析单元314,用于对经协议重组后的数据进行内容分析。其中,热点统计单元304进一步包括分级统计 单元306和判断单元308。其中,分级统计单元306,用于建立资源表对所述URL分级统计被请求次数以确定每级URL是否为热点URL。资源表将存储每级URL在预定时间内被请求的次数和预定的阈值。判断单元308,用于当预定时间内某一 URL的被请求次数超过预定的阈值时,确定该URL为热点URL。热点URL对应的资源可以是网页,也可以是P2P文件分片。图4展示了一种用于网络流量监控的方法流程图。这种方法可减少协议重组单元和后台内容分析单元的负担,提高整个系统的效率并降低成本;其次,对于分布式P2P资源,可主动抓取分布在各处的P2P文件分片,支持对P2P流量的监控。图4所示的网络流量监控的方法包括402 :引流分类单元对数据包进行引流分类;根据本实施例,根据所捕获的数据包所属的协议类型对数据包进行引流分类。若数据包所属的协议类型是HTTP,则只将请求头发送给热点统计单元。在HTTP建立请求的过程中,HTTP请求报文中的请求头包含请求行,请求行包含请求方法,请求方法可以是GET或POST。GET—般用于获取/查询资源信息,而POST—般用于更新资源信息。当客户端要从服务器中读取文档时,使用GET请求方法。GET请求方法要求服务器将URL定位的资源放在响应报文的数据部分回送给客户端。此处采用GET请求方法。GET请求行中还包括请求链接的URL。404 :热点统计单元对统一资源定位符URL的被请求次数进行统计以确定热点URL ;可选地,当请求方法为GET时,在预定时间内对HTTP请求头中的统一资源定位符(URL)的被请求次数进行统计。通常可将预定时间设为10天。在10天内按URL被请求的次数从高到低排序,定期清除排序靠后的URL。当预定时间内某一 URL被请求的次数超过预定阈值时,则确定该URL为热点URL,触发主动抓取单元执行主动抓取动作。406 :主动抓取单元主动抓取所述热点URL对应的资源;在确定了热点URL后,主动抓取单元主动抓取热点URL对应的资源。该资源可以是热点URL对应的网页以及其链接到的其它网页;该热点URL对应的资源还可以是分布在对等网络(P2P)中不同节点上的文件分片。408 :协议重组单元对主动抓取的所述热点URL对应的资源进行协议重组;410 :后台内容分析单元对经协议重组的数据进行内容分析。为便于理解,下面介绍两个具体的应用场景。一、网络舆情监控网络舆情指的是网络里产生的公众对现实生活里最关心的热点焦点问题。这些被高度关注的问题主要通过论坛、博客、微博等途径得以传播。由于网络的快速传播性,一些热点问题发生后,在很短的时间里就会一发不可收拾。对网络舆情进行监控,可以及时应对网络突发的公共事件和全面掌握社情民意。在本应用场景中,热点统计单元通过在预定时间内对统计HTTP/GET请求中的URL的被请求次数来确定热点URL,然后主动抓取单元抓取该热点URL对应的网页及其链接的其他网页,可以达到舆情监控的目的。
在一些实施例中,热点统计单元在预定时间内每收到一次HTTP/GET报文记做一次记录。可以采用资源表的形式对URL进行分级统计。统计的深度根据监控的要求来确定。本领域的技术人员可以理解的是,URL中每个除号(/)划分一个级别。如,对于www.XXX. com/sport/football/f ifa2012/index, html 的 URL,可以将统计深度设为 3。第一级为www. XXX. com ;第二级为 www. xxx. com/sport ;第 3 级为 www. xxx. com/sport/football。统计所得的数据和预定阈值都存储在资源表中。需要说明的是,阈值的设置通常参考经验值。如果将经验值设置过低,则会导致大量内容缓存在本地,设置过高 又会导致部分热点信息的漏报。经验值可根据对监控热点的定义、系统的存储容量进行合理设置。预定阈值的设置可与客户所用的系统相关。例如,在中国国干网,阈值可设为几万;在省市出口网,则可以设为几千。下表I展示对热点URL进行统计的示意资源表表I
URL级别 URL__统计的请求次数阈值_
1级www.xxx.com10000次访问8000
2级www.xxx.comhport 7000次访问8000
3级www.xxx.comAport/foo 5000次访问8000
tball其中,在预定时间内,www. xxx. com的请求次数10000超过了阈值8000,则确定该URL为热点URL。在一些实施例中,可以采用哈希表的方式将资源表存储在数据文件上,资源表的索引存储在内存中。根据URL找到散列值,再由散列值找到索引,直接根据索弓I指针定位到数据文件。在热点统计单元确定热点URL后,主动抓取单元主动抓取热点URL对应的网页以及其链接到的其它网页。若A网页是热点网页,A网页包含到B网页的链接,B网页包含到C网页的链接。在挖掘深度为3的情况下,A,B, C网页都被主动抓取到本地。实际应用中具体的挖掘深度由手工设置,在通常情况下挖掘深度为5级可以完成监控的需要。举例而言,若www. xxx. com被确定为热点URL,则主动抓取单元发送HTTP/GET请求到www. xxx. com,这时通常直接返回Index, html。分析Index, html上的链接,做广度或者深度抓取。通常Index网页代表一个主页,由主页开始逐级抓取各级网页内容。深度抓取采用的是递归抓取所有遇到的超级链接,直到递归达到要求的抓取级别。广度抓取则是检索一个网页的全部超级链接,分别发送HTTP请求以抓取全部内容,然后再逐级深入直到要求的抓取级别。抓取到的资源通过协议重组后供后台进行分析,可以了解到独立IP (InternetProtocol,网络协议,IP)地址流量、网站页面流量、独立用户流量、新用户流量等数据,从而实现对舆情的监控。二、对等网络(P2P)
P2P,即Peer-To-Peer,作为对等网络的代名词已被人们所熟知。P2P网络可以简单的定义成通过直接交换来实现不同系统之间的资源共享。在P2P网络环境中,通过Internet连接的计算机被看做是平等的参与者,它们的地位是彼此对等的,每个参与通信的节点被称作为一个Peer。在P2P模式下,服务器和客户端之间的界限被取消了。由于数据存储、处理和网络带宽等均是以一种完全分散、异步的方式来运行,各种负载就可以得到完全合理的均衡。P2P的应用模式的特点就是下载的人越多,提供的带宽也越宽,种子也会越来越多,下载的速度越来越快。在P2P应用中,P2P节点通过浏览器到网站下载需要的种子文件,然后从中获取Tracker服务器的地址并与之连接,连接成功后Track服务器就会返回正在下载同一资源文件的其它节点(邻居节点)的信息。请求节点获取该信息后向这些邻居节点发出消息建立连接,进行资源的下载,从而实现在网络中的对等节点之间共享资源和服务。其中,种子文件是被下载文件的“索引”,下载文件的每个块的索引信息和Hash验证码都写入种子文件。Tracker服务器是收集下载者的服务器,并将此信息提供给其它下载者,使下载者们相互连接起来传输数据。 由此可见,下载者要下载文件内容,首先需要得到相应的种子文件,然后解析种子文件得到Tracker服务器的地址,连接Tracker服务器。下载者从Tracker服务器的回应消息中获得其它下载者(邻居节点)的IP地址,连接其它下载者完成数据和资源的共享。在这个过程中,要下载的文件被分为若干个文件分片,其分别存储于不同的节点当中,而Tracker服务器能获知每个文件分片所存储的不同节点的IP地址。节点与Tracker服务器之间的通信基于HTTP协议。也就是说,节点连接Tracker服务器需要首先向该Tracker服务器发送HTTP/GET请求,该请求中包含的URL是种子文件中记录的Tracker服务器的地址。在一些实施例中,热点统计单元对P2P节点在预定时间内向Tracker服务器发送HTTP/GET请求中的URL的被请求次数进行统计。当在预定时间内对某个URL的请求次数超过预定阈值时,将该URL确定为热点URL。主动抓取模块向该热点URL对应的Tracker请求下载文件的每个文件分片所存储的节点的IP地址,然后从不同的节点获取不同的文件分片,将这些分片重新组合为原始内容,供后台内容分析单元进行分析。可以使理解的是,这里的主动抓取单元类似一个P2P节点。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。结合本文所揭示实施例阐述的各种例示性逻辑块、单元、电路、元件及/或组件可通过通用处理器、数字信号处理器(Digital Signal Processing, DSP)、应用专用集成电路(Application Specific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array, FPGA)或其它可编程逻辑组件、离散门或晶体管逻辑、离散硬件组件、或设计用于执行本文所述功能的其任何组合来实施或执行。通用处理器可为微处理器,但另一选择为,处理器也可为任何常规处理器、控制器、微控制器、或状态机。处理器也可实施为计算组件的组合,例如DSP与微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP核心的组合、或任何其它这种配置。
本发明的实施例在预定时间内对统一资源定位符URL的被请求次数进行统计以确定热点URL,然后主动抓取所述热点URL对应的资源进行协议重组和内容分析。因此,可以减少协议重组单元和后台内容分析单元的负担。此外,本发明实施例的技术方案对于分布式P2P资源,可主动抓取分布在各处的P2P文件分片,以支持对P2P流量的监控。以上对本发明所提供的用于网络流量监控的方法和系统进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式
及应用范围上均会有改变之处,因此,本说明书内容不应理解为对本发明的限制。·
权利要求
1.一种用于网络流量监控的方法,其特征在于,所述方法包括 对数据包进行引流分类; 在预定时间内对统一资源定位符URL的被请求次数进行统计以确定热点URL ; 主动抓取所述热点URL对应的资源; 对主动抓取的所述热点URL对应的资源进行协议重组;及 对经协议重组的数据进行内容分析。
2.根据权利要求I所述的方法,其特征在于, 在预定时间内对URL的被请求次数进行统计以确定热点URL包括对所述URL分级统计被请求次数以确定每级URL是否为热点URL。
3.根据权利要求I或2所述的方法,其特征在于,其中, 所述热点URL对应的资源包括网页或对等网络P2P文件分片。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在预定时间内对URL的被请求次数进行统计以确定热点URL包括当某个URL在预定时间内被请求次数超过预定阈值时,则将该URL确定为所述热点URL。
5.一种用于网络流量监控的系统,其特征在于,所述系统包括 引流分类单元,用于对数据包进行引流分类; 热点统计单元,用于在预定时间内对统一资源定位符URL的被请求次数进行统计以确定热点URL ; 主动抓取单元,用于主动抓取所述热点URL对应的资源; 协议重组单元,用于对主动抓取的所述热点URL对应的资源进行协议重组;及 后台内容分析单元,用于对经协议重组后的数据进行内容分析。
6.根据权利要求5所述的系统,其特征在于,所述热点统计单元进一步包括分级统计单元,所述分级统计单元用于对所述URL分级统计请求次数以确定每级URL是否为热点URL。
7.根据权利要求5或6所述的系统,其特征在于, 所述热点URL对应的资源包括网页或对等网络P2P文件分片。
8.根据权利要求5-7中任一项所述的系统,其特征在于,所述热点统计单元进一步包括判断单元,所述判断单元用于当某个URL在预定时间内被请求次数超过预定阈值时,则将该URL确定为热点URL。
全文摘要
本发明的实施例涉及用于网络流量监控的方法和系统。本发明实施例的方法包括在预定时间内对统一资源定位符URL的被请求次数进行统计以确定热点URL,主动抓取所述热点URL对应的资源,对主动抓取的所述热点URL对应的资源进行协议重组,及对经协议重组的数据进行内容分析。本发明实施例还提供一种用于网络流量监控的系统。本发明的实施例可以有效减少协议重组及后台内容分析和的负担,提高整个系统的效率,降低系统成本;此外,对于分布式P2P资源,可以进行智能重组,支持P2P监控。
文档编号H04L12/26GK102957571SQ201110241618
公开日2013年3月6日 申请日期2011年8月22日 优先权日2011年8月22日
发明者陈旭, 宋璇, 尹咸阳, 张仁卓 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1