一种基于大数据分析的用户活动异常检测和流量预测方法与流程

文档序号:17158224发布日期:2019-03-20 00:17阅读:884来源:国知局
一种基于大数据分析的用户活动异常检测和流量预测方法与流程

本发明属于移动无线网络技术领域,涉及一种基于大数据分析的用户活动异常检测和流量预测方法。



背景技术:

在移动无线网络中,用户体验受无线覆盖、流量负载和基站配置等多种因素影响,用户体验可能会因网络条件的变化而波动。例如,某一热点区域数据流量需求突然增长不利于用户体验,在某些情况下可能最终导致服务中断。因此,用户活动的异常检测和流量预测对于移动无线网络资源的有效分配和调整至关重要。

目前,网络异常检测方法已有大量研究,基于已有工作,我们选择了基于聚类的异常检测方法。然而,我们工作区别于他们仅限于检测异常,我们增加历史大数据设定恒定阈值评估异常区域,考察已分配网络资源是否合理;并且我们加入区域流量预测,为下一步网络资源调整提供参考依据,提高资源的利用率。



技术实现要素:

本发明的目的在于克服上述现有技术的缺点,提供了一种基于大数据分析的用户活动异常检测和流量预测方法,该方法能够实现对预测区域的流量准确预测。

为达到上述目的,本发明所述的基于大数据分析的用户活动异常检测和流量预测方法包括以下步骤:

1)利用机器学习技术对移动网络大数据cdr进行异常检测,以识别移动网络大数据cdr中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;

2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;

3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;

4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。

相邻两个区域i,j空间相似性的衡量sim(i,j)为:

根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测。

改进后的分解模型为:

si,t=si,t,w+si,t,d

其中,t以小时为单位,ti,t为区域i的趋势函数,ti,t用来表示时间序列中趋势的变化,si,t代表周期性的变化,ri,t为剩余项;si,t,w为周数据,si,t,d表示明天的数据,p和n为预设的常数。

剩余项ri,t服从正态分布,即ri,t=β*ymax,ymax代表历史数据中的最大值,β~normal(0,1)。

本发明具有以下有益效果:

本发明所述的基于大数据分析的用户活动异常检测和流量预测方法在具体操作时,利用机器学习技术对移动网络大数据cdr进行异常检测,以确定待异常区域,再利用经验累积概率曲线确定待定异常区域各时刻的流量活跃度异常值,然后去除该异常值,并利用空间相似性原理对预测区域的时间序列中的空缺值进补缺,最后进行流量的预测,以达到更加合理的分配和网络资源的调整,提高资源的利用率,与已有的空缺值填补方案相比,本发明利用空间相似区域的值填补空缺值,使填补值更加接近真实值,提高区域流量预测的准确度。

附图说明

图1为本发明中聚类异常检测框架图;

图2为利用机器学习技术对移动网络大数据对进行异常检测时的示意图;

图3为选择待定异常区域5161进行分析得到的ecdf曲线图;

图4为本发明中空间相似区域划分得到的区域5160的相似区域示意图;

图5为使用均值填补空缺值和空间相似区域填补空缺值对预测准确度影响的对比图。

具体实施方式

下面结合附图对本发明做进一步详细描述:

参考图1及图2,本发明所述的基于大数据分析的用户活动异常检测和流量预测方法包括以下步骤:

1)利用机器学习技术对移动网络大数据cdr进行异常检测,以识别移动网络大数据cdr中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;

2)对于某个区域某个时段的移动网络大数据cdr信息来说,与之较相似的是该地区该时段连续日期内的cdr信息,数据虽是无规律地波动,但在一个很小的正常波动范围内,把流量活跃度看作一组独立同分布的随机变量值,利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;

3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;

4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。

相邻两个区域i,j空间相似性的衡量sim(i,j)为:

根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测,其中,改进后的分解模型为:

si,t=si,t,w+si,t,d

其中,t以小时为单位,ti,t为区域i的趋势函数,ti,t用来表示时间序列中趋势的变化,si,t代表周期性的变化,ri,t为剩余项;si,t,w为周数据,si,t,d表示明天的数据,p和n为预设的常数,剩余项ri,t服从正态分布,即ri,t=β*ymax,ymax代表历史数据中的最大值,β~normal(0,1)。

采用步骤4介绍的预测模型对区域5160流量进行预测,采用平均绝对百分比误差mape(meanabsolutepercentageerror)对预测结果进行分析,对比结果参考图5。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1