一种大数据集群的信息存储查询方法及系统的制作方法

文档序号：9922093阅读：390来源：国知局

一种大数据集群的信息存储查询方法及系统的制作方法
【技术领域】
[0001]本发明涉及大数据信息技术领域，具体涉及一种大数据集群的信息存储查询方法及系统。
【背景技术】
[0002]大数据是规模非常巨大和复杂的数据集，具有以下几个特性:一是数据量巨大且持续快速增加;二是具有高速度的数据输入、输出流;三是数据类型和来源多样化。在数据量庞大且急剧增加、日常业务分析需求日趋复杂的背景下，数据梳理过程和信息挖掘过程十分复杂，且对数据展现的速度、维度、精细度要求较高，传统数据处理方法的实时性、高效性和交互性已经不能适应目前的需求。为此，海量的数据的汇总、存储、历史信息查询等方面都需要新的大数据处理技术。
[0003]目前，对于大数据系统(Hadoop生态)服务器集群信息的统计分析及汇总大多数采用人工汇总的方式，如人工执行各种命令或者借助监控界面等来得到需要的信息。针对集群运行的历史信息，一般取决于人的记忆，少有专门进行存储并分析。只有为数不多的如Cloudera Manager(简称CM)支持历史集群运行信息的查询。
[0004]然而，因服务器较多，部署软件种类较多以及规模较大，统计汇总并分析整个集群的信息工作量很繁重，使用人工汇总的方式步骤繁琐、耗费工时、效率低下。且可查询的信息时效性过低，历史信息难以查询。对于可支持查询历史信息的CM，只能支持I个月的历史信息查询，并且不能自定义查询自己想要的类型数据，展示信息量少。

【发明内容】

[0005]本发明要解决的技术问题是:解决现有技术中的主要采用人工汇总的方式，且难以查询集群的历史信息的问题。
[0006]为实现上述的发明目的，本发明提供了一种大数据集群的信息存储查询方法及系统。
[0007]依据本发明的第一方面，提供了一种大数据集群的信息存储查询方法，包括:
[0008]自动定期获取大数据集群的运行数据，解析所述运行数据并存储；
[0009]根据查询要求，在所述存储的运行数据中查找并展示相应的所述运行数据；
[0010]其中，所述查询要求包括:实时数据查询要求、历史数据查询要求、自定义数据查询要求。
[0011 ]优选地，所述自动定期获取大数据集群运行数据，为通过至少一个接口自动定期获取所述运行数据；
[0012]其中，从不同所述接口获取的所述运行数据的数据格式不同。
[0013]优选地，所述解析所述运行数据，包括:
[0014]根据所述运行数据的数据格式，过滤掉所述运行数据中不需要的数据，得到过滤后的运行数据；
[0015]在所述过滤后的运行数据中提取有效字段。
[0016]优选地，所述解析所述运行数据之后，还包括对所述运行数据进行序列化存储。
[0017]优选地，所述历史数据查询要求，包括:
[0018]按时间段查找相应所述运行数据的查询要求;或，
[0019]按历史信息时间轴查询相应所述运行数据的查询要求。
[0020]优选地，所述历史信息时间轴的长度根据存储能力而定。
[0021]优选地，所述自定义数据查询要求，为通过结构化查询语言编辑的自定义数据查询要求。
[0022]优选地，还包括，对所述自定义数据查询要求进行解析。
[0023]优选地，所述展示相应的所述运行数据，是通过图表来展示的。
[0024]依据本发明的第二方面，提供了一种大数据集群的信息存储查询系统，其特征在于，应用上述的信息存储查询方法，包括:
[0025]获取单元:用于获取所述运行数据；
[0026]数据处理单元:用于解析所述运行数据；
[0027]数据库单元:用于存储所述解析后的运行数据；
[0028]查询单元:根据所述查询要求，在数据库单元中查询相应的所述运行数据；
[0029]展示单元:用于展示所述相应的运行数据；
[0030]其中，当所述查询要求为所述自定义数据查询要求时，所述系统还包括自定义解析单元，用于解析所述自定义数据查询要求。
[0031]本发明提供了一种大数据集群的信息存储查询方法及系统。该方法包括:对获取的大数据集群运行数据进行解析，并存储在数据库中，再根据查询要求在数据库中查找并展示相应的运行数据。相比于现有技术，本发明提供的方法实现了自动对大数据集群运行数据的汇总，支持某一时间段、历史时间轴或自定义的实时数据以及历史数据的查询，并通过图表的方式清晰的展示查询结果。方法步骤简单、无需耗费人力、效率高，且通用性强，只需简单配置即可应用在大多数大数据集群上。
【附图说明】
[0032]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中:
[0033]图1是本发明第一实施例提供的大数据集群的信息存储查询方法流程图；
[0034]图2是本发明第一实施例提供的通过JMX接口获取数据示意图。
【具体实施方式】
[0035]下面结合附图和实施例，对本发明的【具体实施方式】作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。
[0036]实施例一
[0037]如图1所示，本实施例提供了一种大数据集群的信息存储查询方法，包括:
[0038]SlOl、获取大数据集群的运行数据。具体说明如下:
[0039]本实施例优选地基于Python编程语言定期获取大数据集群的运行数据，优选地主要获取的是Hadoop生态集群的运行数据。
[0040]需要说明的是，Hadoop为一个分布式文件系统(Hadoop Distributed FileSystem)，简称HDFSt3HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求，可以以流的形式访问(streaming access)文件系统中的数据。
[0041 ]其中，获取运行数据的方法优选地包括:
[0042]通过Hadoop内部的 Java管理扩展接口(即 JMX接口，Java ManagementExtens1ns)获取运行数据。如HDFS JMX接口、HBASE JMX接口以及YARN JMX接口等等。如图2所示，图2上方的地址为JMX接口的地址，下方的程序为从该JMX接口获取的数据。
[0043]或通过Flume me tries接口以及Kafka metrics接口获取。(Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统;kafka是显式分布式架构)；
[0044]或通过Linux She 11脚本命令来获取。
[0045]需要说明的是，由于本实施例提供的数据获取方法为Hadoop环境通用的方法，因此对于不同的Hadoop环境(如Cloudera开发的⑶H、Pi votal开发的PHD或者Apache的开源Hadoop等)只需要对程序进行一些通用的配置，如机器的IP地址、主机名、内存大小、磁盘路径等，即可使用本实施例提供的数据获取方法。
[0046]S102、对获取的数据进行解析序列化。
[0047]由SlOl步骤可知，对于运行数据的获取有多种方法，因此获取后的数据也有多种格式。如通过Hadoop内部JMX接口获得的运行数据为j son (JavaScript Object Notat1n)格式;通过Linux Shell脚本命令获取的数据为普通的字符串数据。因此本步骤对于多种格式的数据进行解析，具体子步骤如下说明:
[0048]S1021、根据运行数据的数据格式，过滤掉所述运行数据中不需要的数据，得到过滤后的数据。
[0049]下面举例说明如何过滤不需要的数据。通过运行linuxshell命令获得的运行数据为:
[0050][Hadoopim4monitor]$Hadoop job-list
[0051]ljobs currently running
[0052]JobId State StartTime UserName Pr1rity SchedulingInfo
[0053]job_201509081430_002841442471173877Hadoop NORMAL NA
[0054]其中，只有最后两行的数据需要存储，其余信息(如权限、起始时间等)为不需要的数据，因此只保留最后两行数据。
[0055]S1022、在所述过滤后的数据中提取有效字段。
[0056]经过S1021步骤过滤后的数据为:
[0057]job_201509081430_0

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹宇;余效伟;肖赞;李旭阳;
技术所有人：北京中交兴路车联网科技有限公司;
我是此专利的发明人

上一篇：基于道路网的电子地图兴趣点的提取方法及显示方法
上一篇：一种数据管理方法及系统、业务平台的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。