一种海量数据的热点数据的分析方法、系统及相关设备的制造方法

文档序号:9579314阅读:533来源:国知局
一种海量数据的热点数据的分析方法、系统及相关设备的制造方法
【技术领域】
[0001] 本发明涉及海量数据的处理技术领域,具体涉及一种海量数据的热点数据的分析 方法、系统及相关设备。
【背景技术】
[0002] 随着互联网的发展,各行业都面临着海量数据的处理。其中,如何实时、有效且低 成本地分析出海量数据中的热点数据,对于进行海量数据分级存储、热点数据就近接入等 都具有重大意义。
[0003]目前,海量数据中的热点数据的分析主要包括以下两种方法:
[0004]A1,根据数据被访问次数的宏观规律,预设数据被访问的阀值,在数据被访问的次 数超过预设的阀值时,该数据作为热点数据;
[0005]A2,根据数据被访问时间的形态规律,将访问时间在某一时间后的数据作为热点 数据。
[0006] 发明人发现以上两种热点数据的分析方法分别存在如下技术问题:
[0007] 对A1中的分析方法,没有考虑到数据被访问的时间局限性,大部分数据在某一历 史时间段内被频繁访问,成为历史时间段内的热点数据,但是在历史时间段后不再被访问 或访问较少,成为冷数据,但是仍然被作为热点数据;
[0008] 对A2中的分析方法,没有考虑数据被访问的频率,对于某些新上传的文件中的数 据,可能只被访问过一次,却被作为热点数据。

【发明内容】

[0009] 针对上述存在的技术问题,本发明实施例提供了一种海量数据的热点数据的分析 方法、系统及相关设备,能够准确地获得任意时间周期内的热点数据。
[0010] 本发明第一方面提供了一种海量数据的热点数据的分析方法,包括:
[0011] 计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时 间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒 度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每 一种所述参考逻辑时间内至少一个数据的访问次数;
[0012] 确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否 相符;
[0013] 若相符,则将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预 设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
[0014] 进一步地,所述计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得 到第一逻辑时间包括:获取第一当前时间;计算所述第一当前时间与格林威治标准时间的 第一偏移量;根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
[0015] 在一个可实施的方式中,所述方法还包括:当收到边缘节点的数据访问请求时,对 所述多周期访问频度列表进行更新,所述数据访问请求中包括数据的特征信息。
[0016] 进一步地,所述对所述多周期访问频度列表进行更新包括:计算第二当前时间的 第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间;所述第二逻辑时间的时间粒 度与所述多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;确定所述第二逻辑 时间是否与所述多周期访问频度列表中的目标参考逻辑时间相符;若相符,则更新所述多 周期访问频度列表的目标参考逻辑时间中所述特征信息对应的数据的访问次数;若不相 符,则更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中 目标参考逻辑时间中的数据的访问次数。
[0017] 进一步地,所述计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得 到第二逻辑时间包括:获取第二当前时间;计算所述第二当前时间与所述格林威治标准时 间的第二偏移量;根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
[0018] 优选地,所述多周期归档算法的计算公式为:
[0019] 逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒 度;所述逻辑时间为第一逻辑时间,所述时间的偏移量为所述第一偏移量;或所述逻辑时 间为第二逻辑时间,所述时间的偏移量为所述第二偏移量。
[0020] 进一步地,所述更新所述多周期访问频度列表中的目标参考逻辑时间中数据的访 问次数包括:将N+1,所述N为所述多周期访问频度列表的目标参考逻辑时间中的所述特征 信息对应的数据的访问次数,且所述N为大于或等于1的正整数;
[0021 ] 所述更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度 列表中目标参考逻辑时间中的数据的访问次数包括:将T+1,并将所述多周期访问频度列 表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数重置1,其它访问次数重 置〇 ;所述T为所述多周期访问频度列表中的目标参考逻辑时间,且所述T为大于或等于1 的正整数。
[0022] 本发明第二方面提供了一种中心节点设备,可包括:
[0023] 计算模块,用于计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得 到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑 时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻 辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数;
[0024] 时间确认模块,确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考 逻辑时间是否相符;
[0025] 热点确定模块,用于在所述第一逻辑时间与所述多周期访问频度列表中的目标参 考逻辑时间相符时,将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预 设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
[0026] 进一步地,所述计算模块包括:
[0027] 第一获取模块,用于获取第一当前时间;
[0028] 第一计算模块,用于计算所述第一当前时间与格林威治标准时间的第一偏移量, 并根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。
[0029] 在一个可实施的方式中,所述装置还包括:
[0030] 更新模块,当收到边缘节点的数据访问请求时,用于对所述多周期访问频度列表 进行更新。
[0031] 进一步地,所述更新模块包括:
[0032] 第二计算模块,用于计算第二当前时间的第二偏移量,并根据所述第二偏移量计 算得到第二逻辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标 参考逻辑时间的时间粒度相同;
[0033] 第二确认模块,用于确定所述第二逻辑时间是否与所述多周期访问频度列表中的 目标参考逻辑时间相符;
[0034] 第一更新模块,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参 考逻辑时间相符时,更新所述多周期访问频度列表的目标参考逻辑时间中所述特征信息对 应的数据的访问次数;
[0035] 第二更新模块,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参 考逻辑时间不相符时,更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期 访问频度列表中目标参考逻辑时间中的数据的访问次数。
[0036] 进一步地,所述第二计算模块包括:
[0037] 第三获取模块,用于获取第二当前时间;
[0038] 第三计算模块,用于计算所述第二当前时间与所述格林威治标准时间的第二偏移 量,并根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。
[0039] 优选地,所述多周期归档算法的计算公式为:
[0040] 逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒 度;所述逻辑时间为第一逻辑时间,所述时间的偏移量为所述第一偏移量;或所述逻辑时 间为第二逻辑时间,所述时间的偏移量为所述第二偏移量。
[0041] 进一步地,所述不相符具体为:所述第二逻辑时间大于所述多周期访问频度列表 中的目标参考逻辑时间。
[0042] 进一步地,所述第一更新模块具体用于:将N+1,所述N为所述多周期访问频度列 表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数,且所述N为大于或等于 1的正整数;
[0043] 所述第二更新模块具体用于:将T+1,并将所述多周期访问频度列表的目标参考 逻辑时间中的所述特征信息对应的
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1