本申请涉及大数据领域,尤其涉及一种数据迁移外部表管理方法、装置、设备及存储介质。
背景技术:
1、hadoop是一个能够对大量数据进行分布式处理的软件框架,随着大型商业银行数据规模的不断增长,在各大金融科技机构的大数据平台架构中,大规模并行处理(massively parallel processing,mpp)数据仓库集群与hadoop集群成为了数据存储和处理的主流选择,二者的交互变得尤为重要。为了实现这种交互,sql-on-hadoop技术被广泛应用,这项技术允许用户在mpp数据仓库中通过外部表直接查询hadoop集群中的数据。
2、由于金融行业的大数据平台是一个数据及其密集的系统,hadoop集群和mpp数据仓库集群规模庞大,涉及的sql on hadoop外部表数量会非常多。随着数据量的增长和集群的扩展,hadoop集群可能会由于性能瓶颈等原因需要进行数据迁移。目前常用的hadoop集群数据迁移方法是先把旧hadoop集群上的数据下载到本地,再发送到远程另一个集群的本地,然后再由远程另一个集群的本地上传到新的hadoop集群上,最后再进行赋权限和验证。
3、现有的数据迁移技术不够自动化,人工操作比较多,每个外部表都需要单独进行删除和重新创建的操作,数据遗漏和出错的风险高。并且,由于涉及的外部表数量可能会非常多,验证每一个外部表的正确性变得非常困难,需要大量的测试和验证工作,在这期间,需要暂停所有与hadoop集群相关的数据加工业务,从而影响业务的连续性。
技术实现思路
1、本申请提供一种数据迁移外部表管理方法、装置、设备及存储介质,用以解决现有的数据迁移技术操作复杂,数据遗漏和出错的风险高,验证困难以及影响数据加工业务的连续性等问题。
2、第一方面,本申请提供一种数据迁移外部表管理方法,包括:
3、获取数据迁移清单,基于所述数据迁移清单生成初始化配置信息,所述初始化配置信息包括数据迁移表、mpp数据仓库服务器信息表和外部表更新列表;
4、响应于数据查询命令,将所述数据迁移清单导入至所述数据迁移表,基于所述数据迁移表执行外部表范围查询,获得查询结果集;
5、将所述查询结果集批量导入至所述外部表更新列表,基于所述初始化配置信息生成综合配置文件,根据所述综合配置文件修改所述mpp数据仓库服务器信息表;
6、响应于更新指令,基于所述mpp数据仓库服务器信息表对外部表的服务器参数进行更新,获得更新后外部表;
7、验证所述更新后外部表与数据迁移后的新hadoop分布式文件系统hdfs的文件之间的访问关系,反馈验证结果。
8、第二方面,本申请提供一种数据迁移外部表管理装置,包括:
9、初始化模块,用于获取数据迁移清单,基于所述数据迁移清单生成初始化配置信息,所述初始化配置信息包括数据迁移表、mpp数据仓库服务器信息表和外部表更新列表;
10、数据查询模块,用于响应于数据查询命令,将所述数据迁移清单导入至所述数据迁移表,基于所述数据迁移表执行外部表范围查询,获得查询结果集;
11、参数修改模块,用于将所述查询结果集批量导入至所述外部表更新列表,基于所述初始化配置信息生成综合配置文件,根据所述综合配置文件修改所述mpp数据仓库服务器信息表;
12、参数更新模块,用于响应于更新指令,基于所述mpp数据仓库服务器信息表对外部表的服务器参数进行更新;
13、验证模块,用于验证更新后外部表与数据迁移后的hadoop分布式文件系统文件之间的访问关系,反馈验证结果。
14、第三方面,本申请提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机执行指令,所述处理器执行所述计算机执行指令时实现上述第一方面中任一项所述的数据迁移外部表管理方法。
15、第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的数据迁移外部表管理方法。
16、第五方面,本申请提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面任一项所述的数据迁移外部表管理方法。
17、本申请提供的数据迁移外部表管理方法、装置、设备及存储介质,通过获取数据迁移清单,基于所述数据迁移清单生成初始化配置信息,所述初始化配置信息包括数据迁移表、mpp数据仓库服务器信息表和外部表更新列表;自动根据数据查询等步骤自动填充和处理初始化的配置列表,大大减少了人为操作的复杂性和出错的可能性,简化和自动化hadoop集群中数据迁移时的sql on hadoop外部表定义变更流程;最后再对更新后外部表与数据迁移后的新hadoop分布式文件系统hdfs的文件之间的访问关系进行验证,反馈验证结果,通过统一的配置管理和批量操作,大大提高了处理多套集群时的效率。
1.一种数据迁移外部表管理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述数据迁移清单包括多个数据名称和至少一个数据节点,所述获取数据迁移清单,基于所述数据迁移清单生成初始化配置信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述初始化配置信息还包括集群用户表,所述集群用户表包括各mpp数据仓库集群内的接入业务系统名和各业务系统所使用的集群用户名;所述外部表更新列表包括外部表的归属用户名。
4.根据权利要求1所述的方法,其特征在于,所述基于所述数据迁移表执行外部表范围查询,获得查询结果集,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述数据迁移表,获取所述数据迁移表中各数据在mpp数据仓库的sql-on-hadoop外部表范围查询的查询sql,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述综合配置文件修改所述mpp数据仓库服务器信息表,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述日志文件生成mpp数据仓库服务器信息表的副本,包括:
8.根据权利要求7所述的方法,其特征在于,该方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述验证所述更新后外部表与数据迁移后的hadoop分布式文件系统hdfs的文件之间的访问关系,反馈验证结果,包括:
10.一种数据迁移外部表管理装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述如权利要求1至9任一项所述的方法。