一种数据同步与开发调度系统及方法与流程

文档序号:36367532发布日期:2023-12-14 07:34阅读:41来源:国知局
一种数据同步与开发调度系统及方法与流程

本发明涉及计算机,尤其涉及一种数据同步与开发调度系统及方法。


背景技术:

1、互联网技术飞速发展的同时,各行各业的用户和系统数据也急速膨胀,海量的数据蕴藏着无限的价值。为了对数据进行管理以及挖掘数据的潜在业务价值,一般需要将多种异构的数据同步到适当的存储介质中,进行统一数据管理,并在此基础上进行数据开发,从中提取有价值的信息以支持业务决策。

2、现有的主流大数据同步技术如datax、chunjun、sqoop等需要用户开发数据同步脚本,并手动接入调度系统(例如:海豚调度dolphin scheduler,具体方法是在调度系统中按照模板配置相应的工作流)或者开发自定义调度规则手动进行调度,流程复杂,复用性差且开发成本高。另外,现有的大数据开发和生产可能涉及到多种异构大数据计算引擎,比如hive、doris、maxcompute等,因此数据开发系统需要经过复杂的开发针对每种计算引擎进行适配,存在无法动态支持混合计算引擎的数据开发任务的技术问题。

3、综上,需要一种支持灵活调度的自动数据同步与开发调度系统。


技术实现思路

1、本发明提供一种数据同步与开发调度系统及方法,支持灵活调度的自动数据同步与开发,可以实现将多种异构的数据同步到适当的存储介质中,进行统一数据管理,并在此基础上进行数据开发,从中提取有价值的信息以支持业务决策。

2、第一方面,本发明提供一种数据同步与开发调度系统,其特征在于,包括:数据源模块、数据开发模块、数据同步模块和任务调度模块;

3、数据源模块,用于获取数据开发任务和/或数据同步任务的数据源元数据,并根据所述数据源元数据对应的数据库类别,生成相应的数据库配置记录;

4、数据开发模块,用于基于数据开发任务的数据源元数据以及相应的数据库配置记录,生成开发任务配置信息;

5、数据同步模块,用于基于数据同步任务的数据源元数据以及相应的数据库配置记录,生成同步任务配置信息;

6、任务调度模块,用于获取开发任务配置信息和/或同步任务配置信息进行解析,为不同任务匹配对应的工作流模板,生成工作流文件,并执行调度。

7、可选的,所述任务调度模块包括:第一处理子模块、第二处理子模块和第三处理子模块;

8、第一处理子模块,用于对所述任务进行类型判定,获得判定结果,所述判定结果为属于数据开发任务和属于数据同步任务;

9、第二处理子模块,响应于所述判定结果为属于数据开发任务,获取开发业务配置信息,基于预设开发任务工作流模板,构造数据开发任务工作流;

10、第三处理子模块,响应于所述判定结果为属于数据同步任务,获取同步业务配置信息,基于预设同步任务工作流模板,构造数据同步任务工作流。

11、可选的,第二处理子模块包括:第一开发处理单元、第二开发处理单元和第三开发处理单元;

12、第一开发处理单元,用于依据所述开发业务配置信息生成数据开发任务表单;其中,所述数据开发任务表单为可视化表单配置形式的开发业务配置信息;

13、第二开发处理单元,用于获取所述数据开发任务对应的数据开发任务脚本;

14、第三开发处理单元,用于基于所述数据开发任务表单进行解析,生成所述数据开发任务对应的工作流文件。

15、可选的,还包括:第四开发处理单元,用于执行所述数据开发任务脚本的运行调试。

16、可选的,所述第三处理子模块包括:第一同步处理单元、第二同步处理单元和第三同步处理单元;

17、第一同步处理单元,用于依据所述同步业务配置信息生成数据同步任务表单;其中,所述数据同步任务表单为可视化表单配置形式的同步业务配置信息;

18、第二同步处理单元,用于读取数据同步任务表单信息,进行合法性校验;

19、第三同步处理单元,用于获取校验通过的数据同步任务表单进行解析,生成所述数据同步任务对应的工作流文件。

20、可选的,所述调度的执行主体为海豚调度系统;所述工作流文件为json格式文件。

21、第二方面,本发明提供一种数据同步与开发调度方法,其特征在于,包括:

22、获取数据开发任务和/或数据同步任务的数据源元数据,并根据所述数据源元数据对应的数据库类别,生成相应的数据库配置记录;

23、基于数据开发任务的数据源元数据以及相应的数据库配置记录,生成开发任务配置信息;

24、基于数据同步任务的数据源元数据以及相应的数据库配置记录,生成同步任务配置信息;

25、获取开发任务配置信息和/或同步任务配置信息进行解析,为所述不同任务匹配对应的工作流模板,生成工作流文件,并执行调度。

26、可选的,所述为所述不同任务匹配对应的工作流模板,生成工作流文件包括步骤:

27、对所述业务进行类型判定,获得判定结果,所述判定结果为属于数据开发任务和属于数据同步任务;

28、在所述判定结果为属于数据开发任务时,根据所述开发业务配置信息,基于预设同步任务工作流模板,构造数据同步任务工作流;

29、在所述判定结果为属于数据同步任务时,根据所述同步业务配置信息,基于预设同步任务工作流模板,构造数据开发任务工作流。

30、可选的,所述预设开发任务工作流模版包括:

31、根据所述开发业务配置信息生成数据开发任务表单;

32、获取所述数据开发任务对应的数据开发任务脚本;

33、读取所述数据开发任务表单,进行校验;

34、获取校验通过的数据开发任务表单数据源详情解析,生成所述数据开发任务对应的工作流文件。

35、可选的,所述预设同步任务工作流模板包括:

36、根据所述同步业务配置信息生成数据同步任务表单;其中,所述数据同步任务表单为可视化表单配置形式的同步业务配置信息;

37、读取所述数据同步任务表单信息,进行合法性校验;

38、获取校验通过的数据同步任务表单进行解析,生成所述数据同步任务对应的工作流文件。

39、有益效果

40、(1)本发明提供的数据同步与开发调度系统通过任务调度模块,获取开发任务配置信息和同步任务配置信息以及数据库配置记录进行解析,为不同任务匹配对应的工作流模板,生成工作流文件,并执行调度。可以实现在配置数据同步或者数据开发时,自动生成调度工作流,无需人为编写工作流脚本,大大提高了数据同步和数据开发的效率,具有较大的灵活性和便用性。

41、(2)本发明基于海豚调度的数据同步和开发系统及方法,将多种异构的数据同步到适当的存储介质中,以便于进行统一数据管理,并支持在此基础上进行数据开发,实现高效又便捷的数据同步与开发。同时,通过动态解析任务匹配的工作流节点,使得开发使用人员不需要了解每种工作流节点的特性,并为不同的数据同步任务选择最佳的工作流节点,只需要关注数据开发和数据同步的业务逻辑比如同步字段信息,开发脚本信息等,使用门槛大大降低。

42、(3)本发明通过任务处理模块自动生成工作流的json文件,开发使用人员不需要编写不同节点的json格式文件。大大的减少了开发使用人员的工作量,同时也避免了反复出错和修改,节省了时间成本,提高了数据开发和同步的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1