本发明涉及数据读取,特别是一种配置化读取采集数据的方法及装置。
背景技术:
1、陶瓷产业工厂在数字化转型过程中,采集设备数据时是将整条数据采集上来,数据字段非常多。采集到的数据是以json的形式存放于hadoop上,目前针对读取hadoop的json文件抽取解析的方法如图1所示,每次有需求读取时都需要编写一个spark程序并且进行打包,这样会大大增加了开发工作量。
技术实现思路
1、针对上述缺陷,本发明的目的在于提出一种配置化读取采集数据的方法及装置。
2、为达此目的,本发明采用以下技术方案:
3、本发明第一方面公开了一种配置化读取采集数据的方法,所述方法包括如下步骤:
4、输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;
5、根据所述数据存储参数读取到指定存储路径的采集数据;
6、将读取到的采集数据映射成临时表;
7、根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;
8、根据数据导入参数,将目标数据导入到相应的doris表中。
9、进一步,采集数据以json文件加时间的形式存储在hadoop的hdfs上,所述数据存储参数包括存储路径参数和时间参数。
10、进一步,所述临时表以所述存储路径参数命名。
11、进一步,所述数据导入参数包括库名参数和表名参数。
12、进一步,所述步骤s4中,处理指定字段包括对相同字段进行合并处理。
13、进一步,通过spark程序执行上述步骤。
14、本发明第二方面公开了一种配置化读取采集数据的装置,应用在本发明第一方面公开的方法,包括输入模块、读取模块、映射模块、目标数据获取模块和导入模块;
15、所述输入模块用于输入数据存储参数、数据导入参数和配置文件,所述配置文件存储有需要读取和处理的指定字段;
16、所述读取模块用于根据所述数据存储参数读取到指定存储路径的采集数据;
17、所述映射模块用于将读取到的采集数据映射成临时表;
18、所述目标数据获取模块用于根据配置文件在所述临时表中读取和处理指定字段,得到目标数据;
19、所述导入模块用于根据数据导入参数,将目标数据导入到相应的doris表中。
20、本发明第三方面公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面公开的方法。
21、本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本发明第一方面公开的方法。
22、本发明提供的技术方案可以包括以下有益效果:
23、在本发明的实施例中,先获取数据存储参数、数据导入参数和配置文件,利用数据存储参数读取到指定存储路径的采集数据,将读取到的采集数据映射成临时表,以便于后续对采集数据进行读取和处理。根据配置文件,在临时表中读取和处理指定字段,得到目标数据;最后根据数据导入参数,将目标数据导入相应的doris表中。如此,可实现同类程序归一化处理,只需输入数据存储参数、数据导入参数和配置文件即可在计算存储引擎中读取出需要的doris表,无需根据不同的读取需求编写不同的spark程序,大大减少工作量和减少后面维护成本。
1.一种配置化读取采集数据的方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的一种配置化读取采集数据的方法,其特征在于,采集数据以json文件加时间的形式存储在hadoop的hdfs上,所述数据存储参数包括存储路径参数和时间参数。
3.根据权利要求2所述的一种配置化读取采集数据的方法,其特征在于:所述临时表以所述存储路径参数命名。
4.根据权利要求1所述的一种配置化读取采集数据的方法,其特征在于:所述数据导入参数包括库名参数和表名参数。
5.根据权利要求1所述的一种配置化读取采集数据的方法,其特征在于:所述步骤s4中,处理指定字段包括对相同字段进行合并处理。
6.根据权利要求1所述的一种配置化读取采集数据的方法,其特征在于:通过spark程序执行上述步骤。
7.一种配置化读取采集数据的装置,其特征在于:应用于上述如权利要求1-6任一项所述的一种配置化读取采集数据的方法,所述装置包括输入模块、读取模块、映射模块、目标数据获取模块和导入模块;
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-6任一项所述的方法。