一种海量数据的热点数据的分析方法、系统及相关设备的制造方法_3

文档序号:9579314阅读:来源:国知局
问频度列表中的目标参考逻辑时间内访问次数满足预设阀 值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
[0081] 在第一逻辑时间与目标参考逻辑时间相符情况下,将多周期访问频度列表中的访 问次数超过预设阀值的数据作为第一逻辑时间的时间粒度内的热点数据,也可以说是目标 参考逻辑时间内的热点数据。
[0082] 举例来说,第一逻辑时间与目标参考逻辑时间以月为时间粒度,那么可以将访问 次数超过5W的数据作为热点数据,该热点数据是指在最近一个月内的热点数据。
[0083] 在本发明实施例中,中心节点在分析热点数据时,计算第一当前时间的第一偏移 量,由第一偏移量来计算得到第一逻辑时间,且所计算的第一逻辑时间与中心节点中所存 储的多周期访问频度列表中的目标参考逻辑时间的时间粒度相同,进而通过确认第一逻辑 时间与目标参考逻辑时间相符时,那么将多周期访问频度列表中访问次数超过预设阀值的 数据作为第一逻辑时间的时间粒度内的热点数据。本发明实施例中,能够分析出任意周期 内的热点数据,而且准确度较高。
[0084] 在上述步骤S201中,计算第一当前时间的第一偏移量,并根据所述第一偏移量计 算得到第一逻辑时间具体包括:
[0085]B1、获取第一当前时间;
[0086] B2、计算所述第一当前时间与格林威治标准时间的第一偏移量;
[0087]B3、根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
[0088] 可以理解的是,第一当前时间是系统的当前时间,而第一偏移量是第一当前时间 距离格林威治标准时间的偏移量(time_gap,以秒作为单位)。其中,在本发明实施例中,利 用C语言编写的偏移量获取函数time_ttime(time_t*time)获取到系统的当前时间距离 格林威治标准时间的偏移量time_gap。
[0089] 其中,该多周期归档算法的计算公式为:
[0090] 逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒 度;
[0091] 结合该计算公式,上述第一逻辑时间=第一偏移量/时间粒度,时间粒度为第一 逻辑时间的时间粒度。
[0092] 若以天为时间粒度,那么以天为时间粒度的逻辑时间=time_gap/86400;若以星 期为时间粒度,那么以星期为时间粒度的逻辑时间=time_gapA86400*7);若以月为时间 粒度,那么以月为时间粒度的逻辑时间=time_gap/(86400*30)。
[0093] 需要说明的是,由于本发明实施例提供的是逻辑时间,因此可以将每个月平均算 做30天。
[0094]举例来说,当前时间为2014年6月25日12:17:17,time_gap的取值为 1403669837,不同粒度的逻辑访问时间分别为:第16246天(1403669837/86400取整)、 第 2320 周(1403669837八86400*7)取整)等;6 小时后 18:17:17,time_gap的取值为 1403691437,逻辑访问时间同样为:第16246天、第2320周。一天后2014年6月26日 12:17:17,time_gap的取值为1403756237,逻辑访问时间分别为:第16247天、第2320周。 [0095]根据上述多周期归档算法的计算公式,可以根据需求计算不同时间粒度的第一逻 辑时间,从而可以分析得到以不同时间粒度为周期的热点数据。
[0096] 根据上述多周期归档算法的介绍,在中心节点收到边缘节点的数据访问请求时, 对多周期访问频度列表进行更新主要包括如图3所示的步骤:
[0097]S301、计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得到第二逻 辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标参考逻辑时间 的时间粒度相同;
[0098] 本发明实施例中对多周期访问频度列表的更新是根据数据访问请求进行实时更 新的。中心节点在收到边缘节点的数据访问请求时,通过计算第二当前时间的第二偏移量, 然后根据第二偏移量计算得到第二逻辑时间。
[0099] 与上述计算第一逻辑时间相同,计算第二当前时间的第二偏移量,并根据所述第 二偏移量计算得到第二逻辑时间具体包括:
[0100] C1、获取第二当前时间;
[0101]C2、计算所述第二当前时间与所述格林威治标准时间的第二偏移量;
[0102] C3、根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
[0103] 第二当前时间是在中心节点收到数据访问请求时,系统的当前时间。利用C语言 提供的函数time_ttime(time_t*time)获取第二当前时间与格林威治标准时间的第二偏 移量。然后,采用上述的多周期归档算法的计算公式转换得到:第二逻辑时间=第二偏移量 /时间粒度,时间粒度为第二逻辑时间的时间粒度。
[0104] 需要说明的是,第二逻辑时间可以有多个,其数量与多周期访问频度列表中的参 考逻辑时间相同,且每一个第二逻辑时间与多周期访问频度列表中的目标参考逻辑时间的 时间粒度相同。
[0105]S302、确定所述第二逻辑时间是否与所述多周期访问频度列表中的目标参考逻辑 时间相符;
[0106] 其中,相符是指第二逻辑时间与目标参考逻辑时间的时间粒度相同,不相符是指 第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间。在相符时,转向步骤 S303,不相符时,转向步骤S304。
[0107]S303、更新所述多周期访问频度列表的目标参考逻辑时间中的所述特征信息对应 的数据的访问次数;
[0108] 在第二逻辑时间与目标参考逻辑时间相同时,那么将在目标参考逻辑时间下找到 数据访问请求中特征信息对应的数据的访问次数,然后将更新该访问次数。
[0109] 具体地,是将目标参考逻辑时间中特征信息对应的数据的访问次数N增加1,也就 是N+1,所述N为大于或等于1的正整数。而,该目标参考逻辑时间中的其它访问次数则保 持原来的值不变。
[0110]S304、更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频 度列表中目标参考逻辑时间中的数据的访问次数。
[0111] 具体地,在第二逻辑时间大于所述多周期访问频度列表中的目标参考逻辑时间 时,将目标参考逻辑时间T增加1,也就是T+1,且同时将T+1的目标参考逻辑时间中数据访 问请求中数据的访问次数N重置为1,而其它数据则重置为0,所述T为大于或等于1的正 整数,N也为大于或等于1的正整数。
[0112] 可以理解的是,本发明实施例中第二逻辑时间大于所述多周期访问频度列表中的 目标参考逻辑时间作为不相符情况,几乎不会出现第二逻辑时间小于目标参考逻辑时间的 情况。
[0113] 边缘节点接收到的业务请求可以是数据的上传、下载和修改等,那么需要特别说 明的是,若是上传的是一个新数据,那么边缘节点先对该数据进行抽象得到特征信息,该特 征信息还没有被记录在多周期访问频度列表,那么在第二逻辑时间与多周期访问频度列表 中的目标参考逻辑时间相同时,在该多周期访问频度列表中增加该特征信息,并在该目标 参考逻辑时间中将其访问次数重置为1。在第二逻辑时间大于所述多周期访问频度列表中 的目标参考逻辑时间时,将目标参考逻辑时间的值加上1,并且目标参考逻辑时间中将其访 问次数重置为1,其它访问次数重置为0。
[0114] 需要说明的是,本发明实施例涉及的第一当前时间和第二当前时间中的"第一"和 "第二"用于区分不同的时间,不用于限定先后顺序。同样,第一偏移量和第二偏移量中的 "第一"和"第二"用于区分不同的偏移量,不用于限定先后顺序。第一逻辑时间和第二逻辑 时间中的"第一"和"第二"、用于区分不同的逻辑时间,不用于限定先后顺序。
[0115] 另外,第一逻辑时间和第二逻辑的时间的数据都可以是多个,或者与多周期访问 频度列表中的参考逻辑时间的数量相同,且第一逻辑时间与目标参考逻辑时间的时间粒度 相同,第二逻辑时间与目标参考逻辑时间的时间粒度相同。
[0116] 请参阅图4,图4为本发明实施例提供的中心节点设备的结构示意图;如图4所 示,一种中心节点设备400包括:
[0117] 计算模块41
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1