基于用户行为分析的web用户流量产生方法

文档序号:7869055阅读:1724来源:国知局
专利名称:基于用户行为分析的web用户流量产生方法
技术领域
本发明涉及用户行为分析技术及网络流量产生技术,具体是基于用户行为分析的web用户流量产生方法。
背景技术
互联网属于实践性很强的领域,相关的研究成果只有在经过实践验证后才会被广泛接受。因此,研究人员需要网络实验床去验证新的网络体系架构、协议、服务等。作为网络实验床的关键设备,流量发生器主要用于产生逼真的网络流量,其性能指标对实验结果有直接影响。目前用于产生网络流量的方法主要有两种一、网络流量回放一利用网络嗅探器对网络进行嗅探并将获取的数据记录在日志文件中,然后根据日志文件中记录的内容产生网络流量;二、模型流量产生——在了解网络特性后对网络流量建立数学模型,并按照数学模型发送数据包,从而产生符合网络特性的网络流量。方法一所产生流量受日志文件约束,流量过于机械;方法二从网络流量整体服从的概率模型入手,产生的网络流量与真实流量在整体上较为接近,但是不能反映单个用户的行为,在很多环境中显得不足。如在面向服务的网络中,服务迁移时往往需要统计单个用户对某一服务的请求次数、喜好程度,以决定是否进行服务迁移,传统方法对此不能有效支持。目前使用的方法还包括如下集中SPECweb96 (由Standard PerformaceEvaluation Corp提出,专供检测web服务器特性)、SURGE (美国Boston大学提出,模仿用户访问网络以产生网络流量)、Harpoon (美国Wisconsim-Madison大学提出,模仿用户访问网络以产生网络流量)。以上方法SPEC96仅仅是通过客户机向服务器发送HTTP Get请求产生网络流量,没有考虑到用户Web请求特征(如请求间隔、浏览时间、页面跳转关系等),多用于压力测试等;SURGE、Harpoon虽然加入了部分Web请求特征,但也有其不足之处1、仅局限于请求发送的时间间隔模型、浏览时间模型等,不能体现出用户浏览页面时各页面跳转关系、页面的访问频率(即页面受喜好程度),所产生流量与真实网络流量相差很大2、所用流量产生模型的参数需事前指定,由于对不同网站各模型参数不同,所以其不具通用性。

发明内容
本发明的目的是提供一种流量产生器使所产生流量能够体现真实用户的上网行为,如流量总体上应具有自相似性;对页面的请求应能正确反应出页面的受喜爱程度;不同页面间的转移与真实用户的浏览网页时的转移概率尽可能相似。还针对不同网站自动产生不同的浏览模型参数,提高系统的通用性。为解决上述技术问题本发明采用的技术方案是基于用户行为分析的web用户流量产生方法包括如下步骤
I)对网站日志文件或tcpdump文件进行处理,建立Markov转移矩阵、Parto模型和ON/OFF模型。
2)根据步骤I)中的网站日志文件或tcpdump文件统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度。3)将步骤2)的统计结果送入步骤I)中建立的各模型作为初始化参数;
4)根据齐普夫一曼德尔布罗分布确定所浏览网站的首页面。5)根据步骤3)中送入初始化参数后的Markov转移矩阵确定下一个访问页面P。6)根据送入初始化参数后的0N/0FF模型随机生成一个访问时间间隔。7)发送HTTP Get请求步骤5)中的页面P。8)判断任务是否结束,是则退出,否则转到步骤5)。
具体地,用户利用本发明方法时,可在同一个客户端上通过启用若干个线程来实现对相同或不同网站的访问。进一步,步骤5)中确定下一个访问页面P的步骤包括①将网站日志文件中的浏览记录按IP地址进行聚合;②从聚合的网站日志文件中随机抽取N个用户的浏览记录构成学习数据集合U=Iu1, U2…%} 利用该学习数据集合,采用极大似然估计估计出Markov转移矩阵中的所有参数,计算方法为
^ m
73.- = --p. = --
a , ^2 s M
2 22
J-1!-1 J-1
式中 表示在用户浏览序列中从网页i跳转到页面j的次数,乓表示网页i转移到
页面j的概车^为Markov矩阵的初始状态分布,即在初始时处于网页i的概率;④根据用户现在所处页面及Markov矩阵预测用户下一个访问页面P。发明人通过正确分析用户对网络的请求行为之后建立了 Web用户行为模型(WebUser Behavior Simulation)WUBS模型,该模型除了考虑各请求的时间间隔、浏览时间间隔模型,还通过对用户访问进行聚类分析引入了页面跳转关系的Markov转移矩阵,用于刻画用户的浏览行为、页面受欢迎程度,因此能够更加准确反映最真实的用户请求流量状况,更贴近用户实时请求。发明人对该系统设计了一个参数确定方法,通过该方法可以将服务器端的Web请求日志进行分析,确定上述各浏览模型(请求时间间隔[4]的0N/0FF模型、浏览时间间隔的Parto模型、页面跳转关系的Markov转移矩阵)的参数。申请人在单个客户机上采用多线程方式,以同时模仿多个用户,协调工作以实现大规模网络流量产生需求。本发明的基于用户行为分析的web流量产生方法具有以下优点基于用户行为分析的流量产生方法较传统方法所使产生的网络流量逼真度更高,对网络设备性能测试、网络协议评估提供更好的支持;通过多线程方式可以产生大规模网络流量,也可以实现在一个客户端上对不同网站同时访问,互不影响。


图1为流量产生方法流程 图2为Markov模型转移矩阵;
图3为0N/0FF模型描述的用户浏览行为;图4为Pareto分布中k=l,a =1. 3的网络流量 图5为Pareto分布中k=l,a =1. 3的R/S 图6为Pareto分布中k=l,a =1. 7的网络流量 图7为Pareto分布中k=l,0=1.7的1 /5图。
具体实施例方式以下结合附图对本发明的实施作详细描述。图1是本发明实施例的一种网络流量产生方法的流程图,包括如下步骤
步骤101,提取要访问网站的日志文件或在本地网络交换设备上用tcpdump抓取要访问网站的数据包,建立Markov转移矩阵、Parto模型和0N/0FF模型。步骤102,在步骤101的基础上,统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度,确定Markov转移矩阵、Parto模型和0N/0FF模型的参数。对以上模型参数的确定可以分两种情况(I)在能得到网站访问日志文件的情况下,可以直接对日志文件进行统计分析,计算得出各模型的参数。(2)在无法得到网站日志的情况下,采用在本地网络交换设备做端口映射,用tcpdump抓取访问目标网站的数据包,然后再进行统计分析,计算出各模型参数。步骤103,在步骤102的基础上,把各模型参数保存在全局变量中以供后面的步骤查询、修改,并存入配置文件中,这样在对同一网站进行访问时就不必重复计算。步骤104,根据齐普夫一曼德尔布罗分布确定所浏览网站的首页面。页面受欢迎
程度-给定一个网站,假设它共包含N (N>0)个web页面,依次为wl, w2,…wn。使用随
机变量W表示所请求的web页面,P(ff=i)表示页面wi的访问概率。埃达等人发现页面的受欢迎程度满足齐普夫一曼德尔布罗分布,如下
权利要求
1.基于用户行为分析的web用户流量产生方法,其特征在于,包括如下步骤1)对网站日志文件或tcpdump文件进行处理,建立Markov转移矩阵、Parto模型和ON/ OFF模型;2)根据步骤I)中的网站日志文件或tcpdump文件统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度;3)将步骤2)的统计结果送入步骤I)中建立的各模型作为初始化参数;4)根据齐普夫一曼德尔布罗分布确定所浏览网站的首页面;5)根据步骤3)中送入初始化参数后的Markov转移矩阵确定下一个访问页面P;6)根据送入初始化参数后的0N/0FF模型随机生成一个访问时间间隔;7)发送HTTPGet请求步骤5)中的页面P ;8)判断任务是否结束,是则退出,否则转到步骤5)。
2.根据权利要求1所述基于用户行为分析的web用户流量产生方法,其特征在于用户利用所述流量产生方法在同一个客户端上通过启用若干个线程来实现对相同或不同网站的访问。
3.根据权利要求1所述基于用户行为分析的web用户流量产生方法,其特征在于 步骤5)确定下一个访问页面P的步骤包括①将网站日志文件中的浏览记录按IP地址进行聚合;②从聚合的网站日志文件中随机抽取N个用户的浏览记录构成学习数据集合 U={Ul,ivuN} 利用该学习数据集合,采用极大似然估计估计出Markov转移矩阵中的所有参数,计算方法为
全文摘要
本发明公开了一种基于用户行为分析的web用户流量产生方法,本方法建立了WUBS模型,该模型除了考虑各请求的时间间隔、浏览时间间隔模型,还通过对用户访问进行聚类分析引入了页面跳转关系的Markov转移矩阵,用于刻画用户的浏览行为、页面受欢迎程度,因此能够更加准确反映最真实的用户请求流量状况,更贴近用户实时请求。
文档编号H04L12/24GK103001805SQ20121054785
公开日2013年3月27日 申请日期2012年12月17日 优先权日2012年12月17日
发明者唐红, 于敏昌, 徐川, 赵国锋 申请人:重庆邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1