本申请实施例涉及计算机科学领域,特别涉及一种基于impala的任务统计方法、系统、计算设备与计算机可读存储介质。
背景技术:
1、impala是一种能够查询存储在pb级别大数据中信息的查询引擎,通过impala引擎实现了业务系统中高效的查询功能。在业务系统中由于用户使用习惯的变化会导致查询sql语句的类型和写法较多且在不断升级中,因此需要一种方法对查询sql语句进行不断迭代和分析来满足用户的需求;另外,现有的impala引擎依赖第三方集群管理服务提供的api获取查询任务,导致未即时获取的记录丢失后难以再追回。
技术实现思路
1、基于上述技术难题,本发明旨在研发出一种基于impala的任务统计方法、系统和计算设备。
2、根据本实施例的第一方面,提供了一种基于impala的任务统计方法,包括:
3、获取impala集群节点的任务信息;
4、统计所述任务信息中的查询任务,对所述查询任务中的sql语句进行解析得到基础sql语句;所述基础sql语句为直接对单个表进行操作的sql语句;
5、统计所述基础sql语句中的字段使用信息。
6、根据本实施例的第二方面,提供了一种基于impala的任务统计系统,包括:
7、信息获取模块,用于获取impala集群节点的任务信息;
8、解析模块,用于统计所述任务信息中的查询任务,对所述查询任务中的sql语句进行解析得到基础sql语句;所述基础sql语句为直接对单个表进行操作的sql语句;
9、统计模块,用于统计所述基础sql语句中的字段使用信息。
10、根据本实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现上述任意一项所述方法的步骤。
11、根据本发明的第四方面,提供了一种计算机可读存储介质,其中,该指令被处理器执行时实现上述任意一项所述方法的步骤。
12、本发明的上述技术方案具有如下有益的技术效果:
13、本申请实施例中,通过解析impala集群的原始sql语句,能够以字段为粒度统计数据的使用情况,配合定时模块可以避免丢失历史集群查询信息,从而更加方便的掌控集群内当前以及历史的任务信息;同时将记录与解析服务改造为分布式服务,通过完善服务的稳定性保证查询记录的完整性。而且,对集群中每个执行的查询任务精准的以字段为粒度统计数据的使用情况,达到更了解用户对数据的使用习惯的目的,为后续的数据结构优化方案提供了依据。
1.一种基于impala的任务统计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述方法,其中,获取impala集群节点的任务信息包括:
3.根据权利要求1所述方法,其中,对所述查询任务中的sql语句进行解析得到基础sql语句包括:
4.根据权利要求1所述的方法,其中,统计所述基础sql语句中的字段使用信息包括:
5.根据权利要求1所述的方法,其中,所述字段使用信息包括但不限于:字段在基础sql语句中所使用的位置与方式。
6.根据权利要求1所述的方法,其中,在统计所述基础sql语句中的字段使用信息之后还包括:
7.一种基于impala的任务统计系统,其特征在于,包括:
8.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现权利要求1-6中任意一项所述方法的步骤。
9.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-6中任意一项中所述方法的步骤。