一种大数据的实时查询方法和系统的制作方法_2

文档序号：9471493阅读：来源：国知局

的分区之中，其中，由调度系统根据调度系统设置的调度规则对被标定的过期数据进行分类。
[0043]在本实施例中，数据仓库工具专门用于存放过期数据，且为方便对过期数据的查询，数据仓库工具中的每个表(table)包括多个分区(partit1n)，用于对过期数据进行分类存储。具体的，过期数据根据调度系统设置的调度规则进行分类，不同类别的数据对应数据仓库工具中不同的分区。消息订阅系统存储空间中的过期数据通过查询引擎迀移到对应设置的数据仓库工具的分区中，数据仓库工具中的分区与消息订阅系统中的过期数据的对应关系由调度系统进行设置。
[0044]查询弓I擎根据过期数据迀移时间点、过期数据迀移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系，将被标定的过期数据迀移到对应的数据仓库工具的分区中。
[0045]进一步的，所述查询引擎根据所述过期数据迀移时间点、过期数据迀移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系将被标定的过期数据迀移至数据仓库工具的对应分区中，包括:
[0046]所述调度系统根据时间特征，将每个数据仓库工具分区对应的被标定过期数据分类；
[0047]所述查询引擎根据所述过期数据迀移时间点、过期数据迀移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系，将分类的被标定过期数据分别迀移至数据仓库分区对应设置的子分区中。
[0048]其中，时间特征仅为调度系统对被标定过期数据分类的分类策略之一，所述分类策略还可为用户自定义的其他分类属性。
[0049]数据仓库工具的每个分区可进一步划分为多级分区，多级分区对应为多个子分区，用于对过期数据进行更为细致的分类存储。示例性的，消息订阅系统中有一周的过期数据需要迀移，则与该过期数据对应设置的数据仓库工具中的分区存储该过期数据，可将上述分区分为七个子分区，分别存储一周七天的数据，具体的，由调度系统将这一周内的数据分类传输到对应设置的七个子分区中。
[0050]步骤150、所述查询引擎发起查询请求，将数据读取到内存中进行处理。
[0051]在对数据进行查询时，由查询引擎发起查询请求，具体的，查询可根据需要对最新数据和过期数据中的一中或两种进行查询。查询引擎在确定查询请求后，根据查询请求的内容，将对应的数据读取到内存进行处理找到目标数据。
[0052]图3是本发明实施例一中的基于Presto和Kafka的实时数据流查询方案流程图。参见图3，可进一步明确上述步骤及对应的数据流向。
[0053]本实施例提供的技术方案，使用采集系统对互联网的实时数据进行采集，并将所述数据中的最新数据存储在消息订阅系统，过期数据迀移到数据仓库工具，实现最新数据和过期数据的单独存储，减少了查询过程中需处理的数据量，提高了对海量互联网数据实时查询的效率。
[0054]实施例二
[0055]本实施例以上述实施例一为基础，对数据的查询过程做进一步的说明。
[0056]示例性的，所述查询引擎发起查询请求，将数据读取到内存中进行处理之前，还包括:
[0057]将所述消息订阅系统和数据仓库工具中的数据合并，对合并后的数据建立视图。
[0058]在本实施例中，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括:
[0059]所述查询引擎向消息订阅系统发起查询请求；
[0060]所述查询弓I擎将所述消息订阅系统中的所有最新数据读取到内存中；
[0061]计算节点对读取到内存中的数据进行过滤得到目标数据。
[0062]或者，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括:
[0063]所述查询引擎向数据仓库工具发起查询请求；
[0064]所述查询引擎将所述数据仓库工具对应分区或子分区中的数据读取到内存中；
[0065]计算节点对读取到内存中的数据进行过滤得到目标数据。
[0066]又或者，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括:
[0067]所述查询引擎向消息订阅系统和数据仓库工具或视图发起联合查询请求；
[0068]所述查询引擎将消息订阅系统和数据仓库工具中的相关数据读取到内存中；
[0069]计算节点对读取到内存中的数据进行过滤得到目标数据。
[0070]本实施例中，数据库的实时查询方法可对最新数据和/或过期数据进行单独查询或联合查询。
[0071]用户根据查询需求在查询引擎的客户端输入相应的查询请求，查询引擎根据获取到的查询请求内容，读取对应的数据至内存中，并进行处理得到目标数据。具体的，当查询引擎获取到的是查询最新数据的查询请求时，将最新数据所在的消息订阅系统中的所有数据读取到查询引擎的内存中，并通过计算节点对数据进行计算过滤，得到目标数据。当查询引擎获取到的是查询过期数据的查询请求时，将过期数据所在的数据仓库工具分区或子分区中的数据读取到查询引擎的内存中，并通过计算节点对数据进行计算过滤，得到目标数据。示例性的，数据仓库工具分区(一级分区)指定存放最近一周的过期数据，子分区(二级分区)中分别存放这一周内七天的数据，当需要对这一周数据进行查询时，将这一周的数据所在分区中的数据都读取都内存中；当只需要对周三的数据进行查询时，将周三数据所在子分区(二级分区)中的数据读取到内存中即可。
[0072]无法判断目标数据是最新数据还是过期数据时，需要对最新数据和过期数据进行联合查询。进行联合查询时，用户需要在查询引擎的客户端输入查询请求，为便于查询请求的编辑，本实施例中对消息订阅系统中的最新数据和数据仓库工具中的过期数据进行合并，对合并后的数据建立视图。用户在客户端编辑查询请求时，即可通过视图对最新数据和过期数据进行联合查询，也可直接通过消息订阅系统和数据仓库工具对最新数据和过期数据进行联合查询。两种情况下只是发起请求的方式不同，但实质上数据的处理是相同的，都是查询引擎在获取查询请求后，将消息订阅系统和数据仓库工具中的对应的所有数据读取到内存中，通过计算节点对数据进行计算过滤得到目标数据。
[0073]本实施例提供的技术方案，用户可根据需要对消息订阅系统中的最新数据或数据仓库工具分区或子分区中的过期数据进行单独查询，也可通过视图或消息订阅系统和数据仓库工具对最新数据和过期数据进行联合查询。提高了对最新数据和过期数据进行独立查询的效率，且建立视图简化了用户查询请求的编辑过程，达到提高海量数据实时查询效率的有益效果。
[0074]实施例三
[0075]图4是本发明实施例三中提供的一种大数据的实时查询系统的结构图。所述大数据的实时查询系统，包括:
[0076]采集系统310，用于实时采集用户操作产生的互联网数据，并根据采集系统310的传输规则将所述数据分类传输给消息订阅系统320 ;
[0077]消息订阅系统320，用于根据所述采集系统310的传输规则将存储空间划分为不同的目录空间，所述不同目录空间分别接收并存储由所述采集系统310传输的不同类别的所述数据；
[0078]所述消息订阅系统320，还用于根据消息订阅系统320的配置规则，将所述目录空间中的数据划分为最新数据和过期数据；
[0079]查询引擎340，用于在调度系统330的配合下，按照调度系统330设置的调度规则将所述过期数据迀移至数据仓库工具350不同的分区中；
[0080]调度系统330，用于配合查询引擎340实现过期数据的迀移；
[0081]数据仓库工具350，用于接收并存储调度系统330传输的所述过期数据；
[0082]所述查询引擎340，还用于发起查询请求，将数据读取到内存中进行处理。
[0083]在本实施例中，所述调度系统330，具体用于对数据查询周期、过期数据迀移时间点、过期数据迀移周期以及消息订阅系统320中的过期数据与数据仓库工具350分区的对应关系进行设置；
[0084]所述查询引擎340，具体用于根据所述数据查询周期对消息订阅系统320中的数据进行查询；
[0085]所述调度系统330，还用于对查询引擎340查询到的过期数据进行标定；
[0086]所述查询引擎340，还用于根据所述过期数据迀移时间点、过期数据迀移周期以及消息订阅系统320中的过期数据与数据仓库工具350分区的对应关系将被标定的过期数据迀移至数据仓库工具350的对应分区中。
[0087]进一步的，所述调度系统330，用于根据时间特征，将每个数据仓库工具350分区对应的被标定过期数据分类；
[0088]所述查询引擎340，用于根据所述过期数据迀移时间点、过期数据迀移周期以及消息订阅系统320中的过期数据与数据仓库工具350分区的对应关系，将分类的被标定过期数据分别迀移至数据仓库工具350分区对应设置的子分区中。
[0089]进一步的，所述查询引擎340，具体用

完整全部详细技术资料下载

当前第2页1 2 3