一种海量数据的热点数据的分析方法、系统及相关设备的制造方法_2

文档序号：9579314阅读：来源：国知局

数据的访问次数重置1，其它访问次数重置0;所述T为所述多周期访问频度列表中的目标参考逻辑时间，且所述T为大于或等于1的正整数。
[0044] 本发明第三方面提供了一种海量数据的热点数据的分析系统，包括上述第二方面提供的中心节点设备，以及与上述中心节点设备连接的η个边缘节点设备；所述η为大于或等于1的正整数；
[0045] 其中，所述边缘节点设备用于在收到客户端的业务请求后，对所述业务请求中的数据信息进行抽象得到数据的特征信息，并将所述特征信息携带在数据访问请求中发送给所述中心节点设备。
[0046] 进一步地，所述边缘节点设备还用于在收到所述中心节点设备对所述数据访问请求的回复后，将所述业务请求转向给业务逻辑服务器，以便所述业务逻辑服务器执行所述业务请求对应的业务。
[0047] 从以上技术方案可以看出，本发明实施例提供的海量数据的热点数据的分析方法具有以下优点：通过计算第一当前时间的第一偏移量，并根据第一偏移量计算得到第一逻辑时间，由于第一逻辑时间与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同，在确认第一逻辑时间与多周期访问频度列表中的目标参考逻辑时间相符时，将多周期访问频度列表中的目标参考逻辑时间中访问次数超过预设阀值的数据作为第一逻辑时间的时间粒度内的热点数据。与现有技术相比，本发明实施例能够准确地得到任意时间周期的热点数据，而且准确度较高。
【附图说明】
[0048] 为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0049] 图la为本发明实施例提供的全局数据管理模型的结构示意图；
[0050] 图lb为本发明实施例提供的全局数据管理模型的应用示意图；
[0051] 图2为本发明实施例提供的海量数据的热点数据的分析方法的流程示意图；
[0052] 图3为本发明另一实施例提供海量数据的热点数据的分析方法的流程示意图；
[0053] 图4为本发明实施例提供的中心节点设备的结构示意图；
[0054] 图5为本发明另一实施例提供的中心节点设备的结构示意图；
[0055] 图6为本发明实施例提供的海量数据的热点数据的分析系统的结构示意图。
【具体实施方式】
[0056] 本发明实施例提供了一种海量数据的热点数据的分析方法、系统及相关设备，用于准确地得到任意时间周期内的热点数据。
[0057] 下面将结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0058] 海量数据的存储是分布式存储，数据量大且数据分布范围广，在本发明实施例中，采用全局数据管理模型采集海量数据中的数据特征信息，对数据特征信息进行统一维护和存储。具体请参阅图la和图lb，其中，图la为本发明实施例提供的全局数据管理模型的结构示意图；图lb为本发明实施例提供的全局数据管理模型的应用示意图。如图la所示，全局数据管理模型主要包括两类角色：
[0059] 中心节点：主要负载数据的集中式控制管理，存储数据的特征信息；
[0060] 边缘节点：执行业务逻辑的节点子集，负责对业务逻辑进行抽象得到数据特征信息，将数据特征信息向中心节点上报。
[0061] 其中，在中心节点可以用数据的key值表示该数据，因而中心节点中存储的数据的特征信息包括数据的key。边缘节点可以安装在海量数据的每个存储分布点上，具体如图 lb所示，边缘节点在每个存储分布点上，具体位于客户端与业务逻辑服务器之间，并且连接到其中心节点上。如图lb所示中，边缘节点与中心节点的交互过程如下：
[0062] A1、边缘节点接收来自客户端的业务请求，包括数据的上传、下载和修改等请求；
[0063] A2、边缘节点根据业务请求，对该业务请求中的数据信息进行抽象，得到数据的特征信息，并向中心节点发送数据访问请求，该数据访问请求中包括数据的特征信息。
[0064] 具体地，上述数据的特性信息如数据的key。
[0065] A3、边缘节点收到中心节点对数据访问请求的回复后，转向业务请求给业务逻辑服务器，以便所述业务逻辑服务器进行该业务请求中相应的业务。
[0066] 其中，边缘节点收到中心节点对数据访问请求的回复，说明中心节点已对本次数据操作进行了记录，若是没有，则说明该次请求的操作没有被中心节点记录，该次操作失败，边缘节点也不能再向业务逻辑服务器转发业务请求。
[0067] 在上述A2中，边缘节点向中心节点发送数据访问请求，而中心节点在接收到该数据访问请求后，需要对中心节点的数据被访问的多周期访问频度列表中进行更新，该多周期访问频度列表中至少主要包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数。当然，在该多周期访问频度列表中还包括数据的特征信息，并且以数据的特征信息为索引，例如，当数据的特征信息为数据的key时，可以以key作为索引。
[0068] 举例来说，有数据1 (特征信息为keyl)、数据2 (特征信息为key2)，数据3 (特征信息为key3)，分别有以天、星期和月为时间粒度的参考逻辑时间，那么本发明实施例提供的多周期访问频度列表如下表1所示：
[0069]
[0070] 对多周期访问频度列表进行更新将在后续进行详细介绍，在此不再赘述。
[0071] 可以理解的是，中心节点处理所有边缘节点发送的数据访问请求，面对的所海量数据，是整个框架的瓶颈，一个中心节点可以无法处理所有数据访问请求，因此，在实际应用中可以采用多个中心节点，在中心节点与边缘节点之间通过数据的特征信息建立对应关系，保证一个边缘节点只对应一个中心节点，从而同样的数据只能由一个中心节点进行处理。在中心节点中存储的数据的特征信息和多周期访问频度列表所占用的存储量较小，可以采用成本较高，性能较优的存储设备。
[0072] 基于上述介绍，如图2所示，本发明实施例提供的一种海量数据的热点数据的分析方法包括：
[0073] S201、计算第一当前时间的第一偏移量，并根据所述第一偏移量计算得到第一逻辑时间；所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同；所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数；
[0074] 步骤S201及后续步骤S202、S203的执行主体为中心节点。在中心节点中，可以利用多周期访问频度列表进行热点数据的分析。
[0075] 具体地，在多周期访问频度列表中，一般包括多个不同时间粒度的参考逻辑时间，该参考逻辑时间一般满足对热点数据的分析周期的需求，例如，若需求中经常以天、星期、月、季度和年等作为分析周期来分析热点数据，那么参考逻辑时间中一般包括有以天、星期、月、季度和年等为时间粒度的参考逻辑时间。
[0076] 可以理解的是，在本发明实施例中，所计算的第一逻辑时间的时间粒度需要满足多周期访问频度列表中的目标参考逻辑时间，也就是与多周期访问频度列表中的某一个参考逻辑时间的时间粒度相同。
[0077]S202、确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符；
[0078] 可以理解的是，相符是指第一逻辑时间与目标参考逻辑时间相同。举例来说，若第一逻辑时间与目标参考逻辑时间以天为时间粒度，目标参考逻辑时间是第8天，而第一逻辑时间也为第8天，那么说明第一逻辑时间与目标参考逻辑时间相符，若是第一逻辑时间为第9天，那么说明第一逻辑时间与目标参考逻辑时间不相符。
[0079] 在第一逻辑时间与目标参考逻辑时间相符时，转向步骤S203。
[0080] S203、将所述多周期访

完整全部详细技术资料下载

当前第2页1 2 3 4 5