一种分布式用户行为日志预测网络监管方法及系统的制作方法

文档序号:7862582阅读:219来源:国知局
专利名称:一种分布式用户行为日志预测网络监管方法及系统的制作方法
技术领域
本发明涉及网络监管技术领域,特别涉及一种分布式用户行为日志预测网络监管方法及系统。
背景技术
随着互联网的飞速发展,网络服务变得多种多样,丰富多彩。由于互联网从成立之初就本着开放自由的原则,越来越多的新型网络服务不断地被开发出来,并且被接入到互联网,供全球用户访问和接入。网络服务变得多种多样,丰富多彩,人与人之间的信息交流也变得更为方便。内容丰富的网络服务在给人们的生活带来了极大的方便的同时也成了不和谐信息传播的温床。因此,网络监管成为十分重要的研究课题。
网络监管的目的在于搜集、分析和处理网络信息和用户操作行为,并从中识别和提取网络服务信息和用户行为中所隐含的特定活动特征,其核心在于事先发现和预警功能。世界各国一直高度重视网络监管方面的研究,都开始建立政府、金融、关键行业的监测基础设施。如美国联邦调查局FBI早在2001年就曾提出“Carnivore”计划、法国国防部于2004年建立了 “Frenchelon”系统、欧洲ERCM组织2007年提出了网络监控会议计划、英国政府通讯总部也在2009年启动了 MTI计划。各网络设备商、企业以及科研学者也积极进行相关研究,开发了各种网络行为分析产品,提出了诸多网络监测方案。在网络管理方面,有文献提出了针对异构网络的自治网络管理体系和基于策略的网络管理方法,“自管理”和“信任管理”的概念也被广泛应用于网络管理方法中。日志记录对监管系统起着重要作用,因此,网络日志被越来越多的研究所关注。对海量的网络用户和信息的监控决定了网络监管系统的运行需要大量的数据资料,同时也会产生大量的日志记录。当前的网络监管架构一般都采用单一的日志服务器结构。基于用户操作日志预测流媒体访问行为的相关研究工作提出了一种中心化的日志收集服务器,该日志收集服务器通过收集和分析大量用户操作记录实现对流媒体访问的预测。针对于国内的网络信息安全监管的需求,相应的网络监管系统及关键技术被不断地提出。然而,在实现本发明的过程中,发明人发现现有技术至少存在以下问题现有的监管方式粒度不够精确,不具备特定用户对特定网络服务内容的访问控制。当前对非法服务或用户处理技术一般为a)域名劫持;b) IP地址封锁;c)特定端口封锁;d) SSL连接阻断;e)关键字过滤阻断等。现有的访问日志一般采用单一结构。单一化结构日志服务器在大量数据处理的时候具有一定的瓶颈,原因在于a)大规模网络服务请求时,系统提取、分析和处理数据时延增大山)单一节点失败问题;c)可扩展性、健壮性差;d)容易成为被攻击的重点对象等。单一终端能力有限,大规模网络服务请求时,系统处理时延增大,不能满足网络监管的实时性要求。不具备特定用户对特定网络服务内容的访问控制。大容量网络访问数据存储必将导致系统存储空间成为性能瓶颈。可扩展性差。显然,这种单一客户/服务器(Client/Server, C/S)结构在规模和功能上不能满足高效、快速、准确网络监管的要求。

发明内容
为了解决现有技术的问题,本发明实施例提供了一种分布式用户行为日志预测网络监管方法及系统。所述技术方案如下一种分布式用户行为日志预测网络监管方法,所述方法包括数据包采集与策略预取服务器PCPP捕获网络用户发起的网络访问请求数据包,提取访问日志,上传给日志收集与分析服务器LCA ;LCA存储所述访问日志,根据所述访问日志计算网络服务流行度;LCA根据所述访问日志获取所述网络服务流行度相对应的k个网络服务标识;并返回给所述PCPP ;PCPP根据所述k个网络服务标识以及访问日志中的用户属性信息,向预先设定的·策略库中进行策略预取,根据预取到的策略对网络用户访问请求进行监管处置。所述PCPP采用旁路监听的方式从网络数据转发设备捕获网络用户发起的网络访问请求数据包。所述访问日志是以四元组的形式存储的,包括网络用户所处网络的标识CNID、网络用户访问目标的IP地址DIP、网络用户访问目标的端口地址DPort以及网络服务标识URL。所述LCA存储所述访问日志,包括所述LCA提取〈CNID,DIP, DPort>并进行散列计算获得key值;根据key值,LCA获得所述访问日志存储的后继结点LCA,并向该后继结点分发用户访问日志;所述后继结点LCA接收到分发的所述访问日志后,存储所述访问日志至其网络服务访问日志库中。所述根据所述网络日志计算网络服务流行度,包括LCA将所述访问日志存储在网络日志存储表中,并建立网络服务流行度存储表;循环比较所述网络日志存储表和网络服务流行度存储表,若所述网络日志存储表中的第i项记录与网络服务流行度存储表中的第j项记录的CNID,DIP, DPort以及URL相同,则LCA设置网络服务流行度存储表中的相应网络服务流行度W进行加I操作,同时,删除所述网络日志存储表中该记录项;若所述网络日志存储表中的第i项记录与网络服务流行度存储表中的第j项记录的CNID,DIP, DPort或者URL不同,则LCA在网络服务流行度存储表中增加对应的新记录项,并设置相应的网络服务流行度M为“1”,同时,删除所述网络日志存储表中该记录项。所述网络服务流行度存储表中设定时长内没有被更新的访问日志将被删除。所述方法还包括当所述LCA当前系统时间与其最后一次进行的网络服务访问流行度计算时间之差等于τ时,所述LCA启动新一轮的网络服务流行度计算。所述LCA根据所述访问日志获取所述网络服务流行度相对应的k个网络服务标识,包括所述LCA利用CNID、DIP、DPort在网络服务流行度存储表中获得所有相关的URL条数;根据预先设定的k值,获得网络服务流行度排名在前k项的URL ;若存在多于k条网络服务具有相同网络服务流行度,则提取被访问时间最靠前的网络服务流行度排名在前k项的URL。所述方法还包括所述访问日志中的用户属性信息由PCPP从所述网络日志中提取;所诉预先设定的策略库根据网络监管的策略设定; 所述根据预取到的策略对网络用户访问请求进行监管处置,包括从所述策略库中获取所述网络用户与所述k个网络服务之间的监管策略;在所述网络用户下一次访问请求时,判断其是否针对所述k个网络服务,若是,则直接根据预取的策略对其进行网络监管处置;否则,提取网络用户请求访问数据包,生成网络用户访问日志。一种分布式用户行为日志预测网络监管系统,所述系统包括PCPP和LCA,其中,所述PCPP用于捕获网络用户发起的网络访问请求数据包,提取访问日志,上传给LCA;获取网络服务流行度,并根据预先设定的策略库获取网络监管策略,对所述网络用户的网络访问请求进行监管处置;所述LCA用于分发存储所述访问日志,根据所述访问日志计算网络服务流行度并下发给PCPP。所述系统包括若干个LCA,所述LCA组成分布式哈希表DHT网络;LCA对接收到的所述访问日志通过分布式哈希算法进行散列计算获得key值,根据key值,LCA获得所述访问日志存储的后继结点LCA,并向该后继结点分发用户访问日志。本发明实施例提供的技术方案带来的有益效果是通过以分布式方式收集、存储和分析网络用户操作日志记录,根据访问日志计算网络服务流行度,再根据网络服务流行度来预测用户下次访问网络的行为可能针对的网络服务,从而预取到下次网络访问所需要的监管策略。结合网络服务的属性和用户属性,并调用相应预处理策略,以实现海量网络用户对网络服务访问请求过程中的快速、高效、准确的网络监管和处置。


为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是本发明实施例一提供的分布式用户行为日志预测网络监管方法流程图;图2是本发明实施例一提供的PCPP查询用户使用接入网ID示意图;图3是本发明实施例二提供的分布式用户行为日志预测网络监管系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。网络信息安全监管系统的运行需要大量的数据资料,同时也会产生大量的数据记录。因为单一终端能力有限,对于网络服务监管实时性强的特性,更需要多节点之间的协作以提高系统的性能和稳定性。因此,我们基于分布式哈希表(Distributed Hash Table,DHT)提出一种基于分布式用户行为日志预测的网络监模型(DUHP),DUHP以分布式、自组织等特征实现分布式环境下用户行为日志共享、可扩展性、低成本以及负载均衡等优势。DUHP的特征在于以分布式方式分发和存储用户访问网络服务日志,计算网络服务访问流行度(hot),基于用户自然属性(如年龄、兴趣爱好、地域等)并结合日志分析结果,预测用户未来访问行为,以此为依据进行用户动态属性(如黑白名单)与网络服务属性(如域名、黑白名单等)匹配从而实现策略预取,达到快速高效的监管。本发明实施例的方案针对已有相关网络监管方案/技术存在的问题,提出一种新颖的基于分布式行为日志预测的网络监管系统。其特点在于1)基于用户操作日志预测用 户未来访问行为。这一特点用以解决用户请求访问网络服务过程中的低时延、高效监管。2)基于用户属性和网络服务属性进行访问权限匹配。这一特点用以实现特定用户对特定服务内容的访问控制,解决现有基于IP地址(端口)等粗粒度监管问题,达到更为细粒度的“用户-服务”匹配的监管。3)采用对等网络(Peer-to-Peer,P2P)构建分布式“用户一服务”操作日志的分发、计算和存储结构。这一特点目的在于解决单一节点瓶颈问题,为大规模日志记录计算和存储提供解决方案。本发明实施例的目的在于满足网络服务多样性和大规模化环境下对网络服务高效监管的支持。实施例一如图I所示,为本发明实施例提供的分布式用户行为日志预测网络监管方法流程图,具体如下步骤10,PCPP捕获网络用户发起的网络访问请求数据包,提取访问日志,上传给LCA。当网络用户发起网络访问请求时,数据包采集与策略预取服务器(PCPP)捕获数据包并按给定规则提取访问日志。当访问日志被提取,PCPP将进行两方面工作1)根据访问日志中的源端(用户)IP地址向IP地址规则库(IPRD)查询并获得用户所使用的接入网ID(CNID) ;2)上传访问日志至其连接的日志收集与分析服务器(LCA)。进一步的,根据访问日志中的关键信息(如URL)向其连接的LCA请求查询该网络服务访问流行度( I具体步骤如下假定用户SIP(i)发起对网址的访问请求WebSitei,PCPP(p)按一定方式(如旁路监听)从网络数据转发设备(如路由器、交换机等)抓取数据包并提取用户IP地址SourceIP⑴。PCPP(p)凭借该Source IP⑴向IPRD查询用户所使用的CNID。(CNID可以为用户定义的任何无二义性的字符,为方便说明,本方案中采用正整数表示CNID,例如“ I ”表示教育网,“2”表示电信网等等。)IPRD按照一定规则(如按照最长匹配方法)查询并返回CNID给向其发出查询请求的PCPP(p)。如图2所示,为PCPP查询用户使用接入网ID示意图。其中,IP地址库中包含着IP地址范围、对应的接入网类型和接入网ID。PCPP(P)获取用户的源IP地址,向IP地址规则库IPRD查询,按照最长匹配规则匹配,返回接入网ID给PCPP(p)。PCPP(p)利用例如深度包检测(DPI)技术提取网络服务标识(例如URL),并以四元组〈CNID, DIP, DPort, URL>创建用户访问日志。PCPP(p)把创建的用户访问日志上传至其连接的LCA0至此,访问日志被上传到了LCA。步骤20,LCA存储访问日志,根据访问日志计算网络服务流行度。当PCPP上传的用户访问日志达到后,LCA提取〈CNID,DIP,DPort〉并进行散列计算获得key值。这里的散列计算,可以是现有技术中常用的哈希计算。根据key值,LCA获得该用户访问日志存储的后继结点SuccessoHkey)并向该后继结点分发用户访问日志。后 继结点接收到分发的所述访问日志后,存储访问日志至其网络服务访问日志库中。当DHT网络中的其他LCA分发的用户访问日志后,LCA (k)将按表一所示的存储结构存储该用户访问日志至其网络服务访问日志库(WARD)中。表一
CNID [DIP [DPort~IWebService其中,DIP表示目的IP地址。DPort表示目的端口。WebService表示网络服务标识如URL (统一资源定位符)。在本实施例中,为方便说明,我们仅以URL代替WebService进行阐述。这里,完成了 LCA对访问日志的存储。实际上,本实施例提出的分布式用户行为预测,就是基于分布式的存储而来的。这里的LCA根据分布式网络而构建成一个网络结构,多个LCA建立的分布式网络完成对所有的访问日志的存储。进一步的,LCA需要根据获取的访问日志进行网络服务流行度的计算。网络服务流行度是一个标识具体的网络服务流行程度的指标,访问一个网络服务的用户越多,说明该网络服务的流行度越高,该网络服务的网络服务流行度指标就越高。我们计算网络服务流行度,目的在于通过这个指标,获取用户下一步可能访问的网络服务的概率,从而预测用户下一次访问网络的网络服务指向。为了减轻LCA的压力,网络服务流行度计算不宜频繁。为此本实施例设置一个周期阀值τ,即LCA当前系统时间与其最后一次进行的网络服务访问流行度计算时间之差等于τ时,该LCA才会启动新一轮的网络服务流行度计算。表二给出了网络服务流行度存储结构。表二CNID DIP DPon URL LastAccessTime其中CNID,DIP,DPort和URL与表I其中含义相同。》 表示网络服务流行度。LastAccessTime表不该URL的最后被访问时间。为方便阐述本网络服务流行度计算方案,本实施例定义了一些词汇和对应的注释,如表三所示。表三
权利要求
1.一种分布式用户行为日志预测网络监管方法,其特征在于,所述方法包括 数据包采集与策略预取服务器PCPP捕获网络用户发起的网络访问请求数据包,提取访问日志,上传给日志收集与分析服务器LCA ; LCA存储所述访问日志,根据所述访问日志计算网络服务流行度; LCA根据所述访问日志获取所述网络服务流行度相对应的k个网络服务标识;并返回给所述PCPP ; PCPP根据所述k个网络服务标识以及访问日志中的用户属性信息,向预先设定的策略库中进行策略预取,根据预取到的策略对网络用户访问请求进行监管处置。
2.如权利要求I所述的方法,其特征在于,所述PCPP采用旁路监听的方式从网络数据转发设备捕获网络用户发起的网络访问请求数据包。
3.如权利要求I所述的方法,其特征在于,所述访问日志是以四元组的形式存储的,包括网络用户所处网络的标识CNID、网络用户访问目标的IP地址DIP、网络用户访问目标的端口地址DPort以及网络服务标识URL。
4.如权利要求3所述的方法,其特征在于,所述LCA存储所述访问日志,包括 所述LCA提取〈CNID,DIP, DPort>并进行散列计算获得key值; 根据key值,LCA获得所述访问日志存储的后继结点LCA,并向该后继结点分发用户访问日志; 所述后继结点LCA接收到分发的所述访问日志后,存储所述访问日志至其网络服务访问日志库中。
5.如权利要求4所述的方法,其特征在于,所述根据所述网络日志计算网络服务流行度,包括 LCA将所述访问日志存储在网络日志存储表中,并建立网络服务流行度存储表; 循环比较所述网络日志存储表和网络服务流行度存储表,若所述网络日志存储表中的第i项记录与网络服务流行度存储表中的第j项记录的CNID,DIP,DPort以及URL相同,则LCA设置网络服务流行度存储表中的相应网络服务流行度《进行加I操作,同时,删除所述网络日志存储表中该记录项; 若所述网络日志存储表中的第i项记录与网络服务流行度存储表中的第j项记录的CNID,DIP, DPort或者URL不同,则LCA在网络服务流行度存储表中增加对应的新记录项,并设置相应的网络服务流行度《为“1”,同时,删除所述网络日志存储表中该记录项。
6.如权利要求5所述的方法,其特征在于,所述网络服务流行度存储表中设定时长内没有被更新的访问日志将被删除。
7.如权利要求5所述的方法,其特征在于,所述方法还包括 当所述LCA当前系统时间与其最后一次进行的网络服务访问流行度计算时间之差等于τ时,所述LCA启动新一轮的网络服务流行度计算。
8.如权利要求5所述的方法,其特征在于,所述LCA根据所述访问日志获取所述网络服务流行度相对应的k个网络服务标识,包括 所述LCA利用CNID、DIP、DPort在网络服务流行度存储表中获得所有相关的URL条数; 根据预先设定的k值,获得网络服务流行度排名在前k项的URL ; 若存在多于k条网络服务具有相同网络服务流行度,则提取被访问时间最靠前的网络服务流行度排名在前k项的URL。
9.如权利要求I所述的方法,其特征在于,所述方法还包括 所述访问日志中的用户属性信息由PCPP从所述网络日志中提取;所述预先设定的策略库根据网络监管的策略设定; 所述根据预取到的策略对网络用户访问请求进行监管处置,包括 从所述策略库中获取所述网络用户与所述k个网络服务之间的监管策略; 在所述网络用户下一次访问请求时,判断其是否针对所述k个网络服务,若是,则直接根据预取的策略对其进行网络监管处置;否则,提取网络用户请求访问数据包,生成网络用户访问日志。
10.一种分布式用户行为日志预测网络监管系统,其特征在于,所述系统包括PCPP和LCA,其中, 所述PCPP用于捕获网络用户发起的网络访问请求数据包,提取访问日志,上传给LCA ;获取网络服务流行度,并根据预先设定的策略库获取网络监管策略,对所述网络用户的网络访问请求进行监管处置; 所述LCA用于分发存储所述访问日志,根据所述访问日志计算网络服务流行度并下发给PCPP。
11.如权利要求10所述的系统,其特征在于,所述系统包括若干个LCA,所述LCA组成分布式哈希表DHT网络; LCA对接收到的所述访问日志通过分布式哈希算法进行散列计算获得key值,根据key值,LCA获得所述访问日志存储的后继结点LCA,并向该后继结点分发用户访问日志。
全文摘要
本发明公开了一种分布式用户行为日志预测网络监管方法,所述方法包括数据包采集与策略预取服务器PCPP捕获网络用户发起的网络访问请求数据包,提取访问日志,上传给日志收集与分析服务器LCA;LCA存储所述访问日志,根据所述访问日志计算网络服务流行度;LCA根据所述访问日志获取所述网络服务流行度相对应的k个网络服务标识;并返回给所述PCPP;PCPP根据所述k个网络服务标识以及访问日志中的用户属性信息,向预先设定的策略库中进行策略预取,根据预取到的策略对网络用户访问请求进行监管处置。本发明能够实现海量网络用户对网络服务访问请求过程中的快速、高效、准确的网络监管和处置。
文档编号H04L12/24GK102946320SQ20121038232
公开日2013年2月27日 申请日期2012年10月10日 优先权日2012年10月10日
发明者张宏科, 关建峰, 许长桥, 曹远龙, 权伟, 张朝贵, 戴彧 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1