本发明涉及数据湖交互领域,特别是涉及一种基于管道技术的数据湖交互方法及系统。
背景技术:
1、数据湖或hub是数据承载在基于可向外扩展的hdfs廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。
2、而如何在数据量庞大及类型多的情况下提高数据湖中数据的输出和输入效率,实现在亟待解决的问题。
技术实现思路
1、本发明的目的是提供一种基于管道技术的数据湖交互方法及系统,能够提高数据湖中数据的输出和输入效率。
2、为实现上述目的,本发明提供了如下方案:
3、一种基于管道技术的数据湖交互方法,包括:
4、初始化数据管道;所述数据管道用于将同一数据类型的数据集进行处理转换为另一数据类型的数据集;
5、利用初始化的数据管道与数据湖进行数据湖交互;所述数据湖交互包括:数据类型转换、数据湖类型适配、session构建以及元数据构建。
6、可选地,所述数据管道包括:多个数据处理器;
7、所述数据处理器用于并行对数据集中的数据进行转化操作。
8、可选地,所述利用初始化的数据管道与数据湖进行数据湖交互,具体包括:
9、判断数据集是有界的数据集还是无界的数据集;
10、若数据集是有界的数据集,则直接转化为数据管道中对应的数据集;
11、若数据集是无界的数据集,则利用数据对应的转换方法转换为数据管道中对应的数据集;
12、利用初始化的数据管道中的数据处理器利用预设的转换操作进行数据管道中对应的数据集类型的转换;
13、利用datalakeio的wirte方法,将转换类型的数据集以及入湖的参数输入数据湖;所述入湖的参数包括:数据湖类型、存储模式、schema、存储路径、以及session的配置信息;
14、数据湖根据数据对应的存储模式和数据湖类型存储,将数据存储到对应的存储路径中。
15、可选地,所述利用初始化的数据管道与数据湖进行数据湖交互,具体包括:
16、从数据湖中获取出湖的参数;所述出湖的参数包括:数据湖类型、存储路径、session的配置信息以及coder类;
17、根据session的配置信息构建session;
18、根据数据湖类型和存储路径读取数据湖中的数据;
19、通过迭代器将数据从row类型转化为所需类型;
20、将类型转换后的数据传入初始化的数据管道中。
21、可选地,所述将类型转换后的数据传入初始化的数据管道中,之后还包括:
22、通过kafka等消息中间件发布数据消息或输出到日志。
23、一种基于管道技术的数据湖交互系统,包括:
24、数据管道初始化模块,用于初始化数据管道;所述数据管道用于将同一数据类型的数据集进行处理转换为另一数据类型的数据集;
25、数据湖交互模块,用于利用初始化的数据管道与数据湖进行数据湖交互;所述数据湖交互包括:数据类型转换、数据湖类型适配、session构建以及元数据构建。
26、根据本发明提供的具体实施例,本发明公开了以下技术效果:
27、本发明所提供的一种基于管道技术的数据湖交互方法及系统,基于管道技术对数据处理过程进行封装,进而利用初始化的数据管道与数据湖进行数据湖交互,提高数据湖数据交互的效率。
1.一种基于管道技术的数据湖交互方法,其特征在于,包括:
2.根据权利要求1所述的一种基于管道技术的数据湖交互方法,其特征在于,所述数据管道包括:多个数据处理器;
3.根据权利要求2所述的一种基于管道技术的数据湖交互方法,其特征在于,所述利用初始化的数据管道与数据湖进行数据湖交互,具体包括:
4.根据权利要求2所述的一种基于管道技术的数据湖交互方法,其特征在于,所述利用初始化的数据管道与数据湖进行数据湖交互,具体包括:
5.根据权利要求4所述的一种基于管道技术的数据湖交互方法,其特征在于,所述将类型转换后的数据传入初始化的数据管道中,之后还包括:
6.一种基于管道技术的数据湖交互系统,其特征在于,包括: