一种基于模拟退火的间隔项近似统计方法

文档序号:37359426发布日期:2024-03-22 10:13阅读:14来源:国知局
一种基于模拟退火的间隔项近似统计方法

本发明属于计算机网络,具体涉及一种基于模拟退火的间隔项近似统计方法。


背景技术:

1、数据流是一个按照时间递增顺序排列的无穷序列。与传统数据库相比,由于数据流具有无穷性,完全保存数据流过于浪费存储空间,同时数据流处理要求从大量的数据中快速地一次提取出所需的信息。然而很难以线性速度处理高速数据流并报告数据流中蕴含的间隔项。为了在较短的时间内处理数据流,并获得近似结果,概率数据结构sketch凭借误差小、内存小、速度快而被广为接受。同时定义和发现新的模式一直是重要的研究热点。

2、当前在有时间戳概念的数据挖掘中,大多专注于挖掘子序列的频繁项,如通过分析序列中数据元素的时间间隔及其顺序来定义和发现序列模式,但并未应用到数据流模型。数据挖掘领域的现有工作无法适用于各类场景,无法在数据高速到来时,使用较少的更新时间进行处理。同时难以做到一次处理后仍可以保留重要信息,而且具有高的空间开销或不合适的存储策略。


技术实现思路

1、为了克服现有技术存在的缺陷和不足,本发明提出了一种基于模拟退火的间隔项近似统计方法。在本发明中定义了间隔项,并对其进行统计工作。间隔项是指在数据流中以固定时间间隔到达的元素对,间隔项的频繁项往往预示着行为模式,即动作一后隔一段时间后将进行动作二。

2、本发明涉及计算机网络中基于模拟退火的间隔项近似统计方法,通过模拟退火切分数据流后使用概率数据结构sketch进行间隔项存储,最后通过特征分组存储策略降低sketch存储间隔项的空间开销,提升了统计间隔项的精度。以在保证间隔项统计精度的前提下,加快统计速度并优化存储资源的开销。

3、本发明解决其技术问题具体采用的技术方案是:

4、一种基于模拟退火的间隔项近似统计方法,基于模拟退火对数据流分块统计间隔项,其中间隔项是指按固定时间间隔到达的元素对,其次利用sketch进行间隔项的存储,最后通过特征分组存储策略优化sketch的存储精度。

5、进一步地,包括以下步骤:

6、步骤s1:根据基于周期长度与挖掘信息量的评分函数,对当前测量周期评分;

7、步骤s2:依据模拟退火决定是否扩展测量周期;

8、步骤s3:将间隔项传递到筛选器组件中,根据间隔项特征,筛选器将其插入不同sketch;

9、步骤s4:在sketch中采用主票选算法进行候选者保存;

10、步骤s5:对sketch进行遍历查找间隔项top-k频繁项;然后对sketch桶中计数值进行排序比较,并保留相应的候选者。

11、进一步地,在步骤s1中,所述评分函数与当前挖掘信息量和该周期测量的时间范围有关,其中挖掘信息量代表该测量周期对top-k间隔项挖掘的贡献程度;由于挖掘信息量与时间范围量纲不同,对两者归一化进行处理。

12、进一步地,在步骤s2中,模拟退火的启发式探索过程中,最优测量周期长度由初始测量周期迭代产生,为避免陷入局部最优状态引入蒙特卡洛准则

13、所述蒙特卡洛准则对于迭代过程中的评分低的时间范围,有概率选择接受,且随着模拟退火的进行,对于评分低的时间范围接受概率逐渐降低。

14、进一步地,在步骤s3中,间隔项传递与插入的具体流程如下:首先利用间隔项中的间隔特征进行sketch的选择;然后在该sketch的每行中依据本行哈希函数映射入桶进行计数。

15、进一步地,在步骤s4中,主票选算法具体步骤如下:

16、步骤s41:如果哈希测量桶中候选者与新到达该桶的键不同,则减少当前候选者的计数,当计数清零时更换候选者为新到达该桶的键;

17、步骤s42:如果哈希测量桶中候选者与新到达该桶的键相同,则增加当前候选者的计数。

18、进一步地,在步骤s5中,所述top-k频繁项指的是项数量排名前k的间隔项。

19、进一步地,所述评分函数与当前挖掘信息量和该周期测量的时间范围相关,具体为:

20、f=-α*li+β*num

21、其中,α,β为比例系数,li为周期时间范围;

22、挖掘信息量num是一个与周期测量的时间范围有关的变量,具体为:

23、

24、其中,ai为信息量与时间关联的系数;

25、因此,

26、由于评分函数是一个关于时间范围的单变量多峰函数;为了找到评分函数关于单次测量的时间范围li的全局最优值,采用模拟退火算法寻找全局最优值;

27、归一化的过程具体为:

28、

29、由于周期测量的时间范围与top-k的挖掘信息量不在相同的尺度上,因此需要进行归一化;其中li代表该测量周期时间范围,num代表着该测量周期内挖掘到的top-k挖掘信息量;随着时间推移top-k排名将会越来越稳定,在测量周期内记录间隔项映射入桶时,num加上该桶的计数除以n的平方,代表该间隔项对于top-k的贡献度;l为统计的总时间范围,tot为当次周期测量时桶映射总数。

30、进一步地,在所述蒙特卡洛准则的处理过程中,对于迭代过程中的评分低的时间范围,有概率选择接受;且随着模拟退火的进行,对于评分低的时间范围接受概率逐渐降低;

31、其中,更新状态概率为:

32、

33、et为当前探索的范围上限,et+1为et通过扰动生成的新范围上限,k表示扰动次数,表示模拟退火配置参数,e表示自然对数底数。

34、进一步地,所述通过特征分组存储策略优化sketch的存储精度具体为:

35、采用紧凑的数据结构mv-sketch来解决空间爆炸的问题;在哈希冲突问题上:首先使用主票选算法保留可能成为top-k的间隔项;其次,先按interval进行sketch的选择后再存储<x,y);对于一个间隔项<x,y,interval>采用间隔进行索引到不同的sketch中,再采用<x,y>进行哈希计算;

36、对于主算票算法,首先利用间隔项中的特征interval进行sketch的选择;然后在该sketch中,每个具有哈希函数f1(·),f2(·),…,fd(·)的数组中选择槽位winterval[f1(e)%w],winterval[f2(e)%w],…,winterval[fd(e)%w];然后,查看槽位中存储的候选者是否相同,如果相同则将winterval[fi(e)%w]增加1;如果不同就winterval[fi(e)%w]减1,为零后则更新存储键,并将winterval[fi(e)%w]置为1;

37、对于间隔项<x,y,interval>,首先利用间隔项中的特征interval进行sketch的选择;然后选择winterval[fi(e)%w]中的最小值报告为间隔项的频率;当需要得知top-k时,仅需要遍历sketch即可。

38、相比于现有技术,本发明及其优选方案能够在保证间隔项统计精度的前提下,加快统计速度并优化存储资源的开销。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1