一种网络行为的预测方法与流程

文档序号:13075422阅读:234来源:国知局
一种网络行为的预测方法与流程

本发明属于网络行为分析技术领域,更具体地,涉及一种网络行为的预测方法。



背景技术:

随着互联网技术的发展与普及,越来越多的人通过互联网进行传统事务的办理,特别是“互联网+”的持续深入与推进,加速了互联网与社会生活的融合,使得人类的行为模式产生了巨大的变化。然而,随着人们参与互联网的深度增长,随之而来的网络安全形势却愈发严峻。深入研究网络行为的普遍规律,掌握网络行为背后的动力学机制,能为网络异常行为检测提供理论依据,进而对维护保障网络安全产生重要作用。

现有对网络行为的建模,是从网络行为的时间间隔层面出发。大量研究表明,网络行为的时间间隔具有偏离poisson的异质特性,表现为行为的时间间隔序列服从幂律分布。针对网络行为的这一特性,基于任务优先级的排队模型被提出,此类模型将行为看成一个个的任务,试图按任务的优先级以排队的形式对行为进行描述,重现行为的异质性。然而很多网络行为如网页浏览、网络游戏等属于兴趣驱动类型,基于任务优先级的排队模型显然无法有效的刻画。

随着网络行为中的记忆特性被不断验证,不同于任务排队模型类别的记忆效应模型纷纷被提出,此类模型从行为的记忆特性出发,认为人们会根据历史行为频率的高低来改变当前行为发生的概率。此外,与之类似的基于兴趣的模型也被提出,这类模型认为兴趣的变化会影响行为的发生。模型假设人的兴趣随时间不断变化,行为的频率依赖于兴趣的变化,同时也反向影响兴趣。然而即便是最感兴趣的事情也会受到人的生理节律以及外界环境等因素的影响。只考虑兴趣的模型无法有效刻画表现出周期波动性的网络行为。一种周期性级联过程模型被提出,该模型考虑到电子邮件行为受昼夜交替的影响从而表现出周期波动特性,用级联的泊松过程刻画行为,试图解释行为异质特性的本源。但是,也有不少的实证研究显示,当从网络行为数据中剔除掉来自周期节律的影响后,行为的异质性依然存在。这也就说明,试图把行为的异质性仅归结于人自身生理节律是有缺陷的。

更重要的是,网络行为的时间间隔是否服从幂律分布存在很多争议。越来越多的实证研究发现,对数正态分布、weibull分布、gamma分布,甚至分段分布能更好的描述网络行为。因此,亟需从时间间隔以外的角度对网络行为潜在的动力学机制以及建模方法进行研究。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本发明提供了一种网络行为的预测方法,由此解决现有从网络行为的时间间隔层面出发的网络行为的分析方式存在的对网络行为描述不准确的技术问题。

为实现上述目的,本发明提供了一种网络行为的预测方法,包括:

(1)对采集的网络行为数据进行预处理,得到以单位时间内行为的频次为波动数据的目标网络行为数据;

(2)由目标网络行为数据的均值和标准差对目标网络行为数据进行规范化,并对规范化后的数据按周进行折叠处理得到m*n的折叠矩阵,对折叠矩阵中的突跳进行检测,其中,m表示一周内的单位时间的数量,n表示采集的数据总周数;

(3)根据目标网络行为数据中表现出的周期规律性、随机波动性以及突跳特性,建立网络行为的时变随机微分方程模型,并对模型中的时变参数和定参数进行估计得到目标模型;

(4)由目标模型对用户的下一周的网络行为轨迹进行预测。

优选地,步骤(2)具体包括:

(2.1)由对第j周数据yij,i∈[1,m],j∈[1,n]进行规范化,其中μj表示第j周数据序列的均值,σj表示j周数据序列的标准差;

(2.2)若全年一共采集了n周数据序列,则长度为n*m,则对采集的每周数据进行规范化后得到规范化后的数据序列xt,t∈[1,m×n],然后按周折叠数据,构造成m*n的折叠矩阵xij,i∈[1,m],j∈[1,n],对l,l∈li,若则被认为是突跳,其中,li={lj=xij,j∈[1,n]}表示对周内每一时刻i,i∈[1,m],均存在一条长度为n的时间序列,是时间序列li的均值,是时间序列li的标准差,ξ为预设值。

优选地,步骤(3)具体包括:

(3.1)根据目标网络行为数据中表现出的周期规律性、随机波动性以及突跳特性,建立网络行为的时变随机微分方程模型:

其中,k和d为常数,用于调节两项的权重,a(t)与c(t)是时变参数,a(t)是t时刻回归的均值,c(t)是扩散幅度,n(t)是参数为β(t)的时变复合泊松过程,j(t)是t时刻的突跳幅度,服从均值为μt、标准差为σt的正态分布,wt表示一个维纳过程;

(3.2)由对时变参数a(t)进行估计,由对时变参数c(t)进行估计,其中,xtj(t∈[1,m],j∈[1,n])表示m*n的折叠矩阵;

(3.3)根据突跳检测阶段中检测出的突跳位置与幅值,由对时变参数β(t)进行估计,由对时变参数μ(t)和σ(t)进行估计,其中,ncount(t)为t时刻检测出突跳的周数,n为总周数,μ(t)与σ(t)分别为t时刻检测出的所有突跳的均值和方差,xjump(tj)是n个周在t时刻上被检测出的突跳点;

(3.4)由马尔可夫链蒙特卡罗(markovchainmontecarlo,mcmc)方法结合估计的时变参数对定参数k、d进行估计。

优选地,步骤(4)具体包括:

(4.1)模型的动态预测过程:采用动态预测方法不断迭代用前n周的数据训练模型估计参数,再预测第n+1周的轨迹;

(4.2)衡量模型预测性能的指标:重复计算模型p次,对预测出的p条轨迹求取均值得到均值轨迹,并以均值轨迹作为最终的预测轨迹。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

(1)本发明从网络行为的轨迹层面,考虑多种因素对网络行为的影响,建立网络行为的随机模型。该网络行为模型能适用于所有类型的网络行为;

(2)本发明提出的网络行为模型能很好的预测网络行为的未来轨迹,并能反映出网络行为具有的多种特性。

附图说明

图1是本发明实施例公开的一种网络行为的预测方法的流程示意图;

图2是本发明实施例公开的一种对网络行为数据中的微博数据进行预处理的方法流程示意图;

图3是本发明实施例公开的一种对微博群体行为数据规范化及突跳检测示意图,其中,(a)表示2014年粒度原始数据;(b)表示规范化去趋势后数据;(c)表示去趋势前检测到的突跳示意;(d)表示去趋势后检测到的突跳;

图4是本发明实施例公开的一种根据2015年前50周微博数据计算得到的时变参数a(t)、c(t);

图5是本发明实施例公开的一种以微博2015年数据为例,对第21周的预测轨迹与真实轨迹对比图,mape为15.14%,rmse为979.78;

图6是本发明实施例公开的一种以微博2015年数据为例的预测结果图,其中,(a)表示真实数据的psd;(b)表示预测数据的psd;(c)表示真实数据的pdf;(d)表示预测数据的pdf。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明从网络行为的波动轨迹层面提供一种网络行为的预测方法。根据已有的实证研究,网络行为普遍具有异质性、周期波动性以及记忆性等特性。本发明用单位时间出现的行为频次序列来刻画网络行为(称之为行为轨迹),并根据上述行为特性,将行为轨迹的变化归纳为受生理节律影响的周期波动、受外界环境影响的随机波动以及受突发事件的影响的突跳,最终据此建立行为的随机微分方程模型,并根据建立的随机微分方程模型对用户的下一周的网络行为轨迹进行预测。

如图1所示为本发明实施例公开的一种网络行为的预测方法的流程示意图,在图1所示的方法中,包括以下步骤:

(1)对提取的网络行为数据进行预处理,得到以单位时间内行为的频次为波动数据的目标网络行为数据;

在一个可选的实施方式中,如图2所示,具体说明数据预处理过程,包括以下步骤:

去除原始网络行为数据中的无效信息,例如系统消息、时间错误的记录,以及网络行为内容为空的记录;

提取网络行为内容id、用户id以及网络行为发生的时间戳信息;

根据网络行为内容id排序,去除网络行为内容id重复的记录;

将网络行为发生的时间戳信息转换成北京时间;

按时间信息对网络行为数据重新排序,统计每单位时间内网络行为的数量,最终形成以单位时间内的行为频次为波动数据的目标网络行为数据。

(2)由目标网络行为数据的均值和标准差对目标网络行为数据进行规范化,并对规范化后的数据按周进行折叠处理得到m*n的折叠矩阵,对折叠矩阵中的突跳进行检测,其中,m表示一周内的单位时间数量,n表示采集的数据总周数;

其中,数据具有的趋势会极大的影响突跳的检测,对数据进行规范化能很好的去除数据中的长期趋势。

在一个可选的实施方式中,步骤(2)具体包括:

(2.1)由对第j周数据yij,i∈[1,m],j∈[1,n]进行规范化,其中μj表示第j周数据序列的均值,σj表示j周数据序列的标准差;

(2.2)若全年一共采集了n周数据序列,则长度为n*m,则对采集的每周数据进行规范化后得到规范化后的数据序列xt,t∈[1,m×n],然后按周折叠数据,构造成m*n的折叠矩阵xij,i∈[1,m],j∈[1,n],对l,l∈li,若则被认为是突跳,其中,li={lj=xij,j∈[1,n]}表示对周内每一时刻i,i∈[1,m],均存在一条长度为n的时间序列(共有m条时间序列),是时间序列li的均值,是时间序列li的标准差,ξ为预设值,优选地,ξ取为3。

如图3所示,是本发明实施例公开的一种对微博网络行为数据规范化及突跳检测示意图,其中,单位时间为小时,此时m取值为168,(a)表示2014年粒度原始数据;(b)表示规范化去趋势后数据;(c)表示去趋势前检测到的突跳示意;(d)表示去趋势后检测到的突跳。由图3可以看出,数据去趋势后,具有较好的突跳检测效果。

(3)根据目标网络行为数据中表现出的周期规律性、随机波动性以及突跳特性,建立网络行为的时变随机微分方程模型,并对模型中的时变参数和定参数进行估计得到目标模型;

在一个可选的实施方式中,步骤(3)具体包括:

(3.1)根据目标网络行为数据中表现出的周期规律性、随机波动性以及突跳特性,建立网络行为的时变随机微分方程模型:

其中,k和d为常数,用于调节两项的权重,a(t)与c(t)是时变参数,a(t)是t时刻回归的均值,c(t)是扩散幅度,n(t)是参数为β(t)的时变复合泊松过程,j(t)是t时刻的突跳幅度,服从均值为μt、标准差为σt的正态分布,wt表示一个维纳过程;

其中,此模型从三个方面刻画网络行为:

a:漂移项k(a(t)-xt)dt是时变线性回归方程,刻画网络行为的日常波动规律。由于人类行为的周期规律随着时间推移不断变化,因此,此处将回归均值a(t)设置为时变参数;

b:扩散项刻画网络行为受心情、天气等内外在因素的影响,产生的小幅度随机波动;每时刻的波动受历史轨迹中该时刻的规律行为影响,因此,随机波动幅度c(t)设置为时变参数,定参数d用于总体平衡随机波动的幅度;

c.突跳项j(t)dn(t)刻画网络行为受突发事件或热点话题的影响,而产生的剧烈波动,由于突发事件通常表现出的泊松特性,此处用复合泊松过程刻画。

(3.2)由对时变参数a(t)进行估计,由对时变参数c(t)进行估计,其中,xtj(t∈[1,m],j∈[1,n])表示m*n的折叠矩阵;

如图4所示是本发明实施例公开的一种根据2015年前50周微博数据计算得到的时变参数a(t)、c(t)。

(3.3)根据突跳检测阶段中检测出的突跳位置与幅值,由对时变参数β(t)进行估计,由对时变参数μ(t)和σ(t)进行估计,其中,ncount(t)为t时刻检测出突跳的周数,n为总周数,μ(t)与σ(t)分别为t时刻检测出的所有突跳的均值和方差,xjump(tj)是n个周在t时刻上被检测出的突跳点;

(3.4)由马尔可夫链蒙特卡罗mcmc方法结合估计的时变参数对定参数k、d进行估计。

(4)由目标模型对用户的下一周的网络行为轨迹进行预测。

在一个可选的实施方式中,步骤(4)具体包括:

(4.1)模型的动态预测过程:为全面考察模型的预测性能,采用动态预测方法不断迭代用前n周的数据训练模型估计参数,再预测第n+1周的轨迹;优选地,n不少于10。

(4.2)衡量模型预测性能的指标:重复计算模型p次,对预测出的p条轨迹求取均值得到均值轨迹,并以均值轨迹作为最终的预测轨迹。优选地,p值不小于1000次。

采用预测轨迹与实际轨迹的相对误差指标(meanabsolutepercentageerror,mape)和绝对误差指标(rootmeansquarederror,rmse)对预测性能进行定性刻画。指标计算如下:

采用pdf和psd曲线从数据概率分布层面和频域层面对模型预测性能进行刻画。如图5所示是本发明实施例公开的一种以微博2015年数据为例,对第21周的预测轨迹与真实轨迹对比图,其中,单位时间为小时,此时m取值为168,mape为15.14%,rmse为979.78;如图6所示是本发明实施例公开的一种以微博2015年数据为例的预测结果图,其中,(a)表示真实数据的psd;(b)表示预测数据的psd;(c)表示真实数据的pdf;(d)表示预测数据的pdf。从图中可以看出,采用本发明方法可以很好的预测网络行为的未来轨迹。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1