一种基于Flink的数据同步方法和系统与流程

文档序号:16532624发布日期:2019-01-05 10:53阅读:1256来源:国知局
本发明涉及大数据技术数据处理
技术领域
:,尤其涉及一种基于flink的数据同步方法和系统。
背景技术
::数据同步就是将数据从源数据库迁移到目的数据库。这里所说的数据库既包括传统的关系型数据库,如mysql、oracle、sqlserver等,也包括分布式的非关系型数据库,如hive、hdfs、hbase等,只要是按照一定格式存放数据的实体都可以被视为数据库。目前现有的数据同步技术分为专用数据同步、通用数据同步和基于编程的数据同步三类。专用数据同步:例如mysql提供了从csv文件导入mysql表的命令行工具,开源工具sqoop可以将完成hdfs和关系型数据库之间数据同步,但是无法完成关系型数据库之间的数据同步,也无法完成不同的hdfs文件系统之间的数据同步。因而传统的数据同步方法局限于特定的数据源,无法扩展支持新增数据源。通用数据同步:阿里巴巴开源的数据同步工具datax是一套可扩展的通用数据同步工具,可以支持多种数据源之间的数据同步,对于每种数据库的读写提供的插件,同时,用户可以根据需要编写新的插件,以支持其他类型的数据库的读写。但是,该工具只支持单机运行,无法分布式的执行,这样就不适用于大规模的数据迁移。基于编程的数据同步:flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它主要由java代码实现,具有吞吐量和低延迟的特性。利用flink可以完成数据同步,但是必须借助编程实现flink任务,非专业人员难以掌握。技术实现要素:本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的一种基于flink的数据同步方法和系统。为达到上述目的,本发明的技术方案具体是这样实现的:本发明的一个方面提供了一种基于flink的数据同步方法,包括:数据同步核心模块获取flink执行环境;数据同步核心模块从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到reader插件的名称,根据reader插件的名称加载对应的reader插件;数据同步核心模块从数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到writer插件名称,根据writer插件名称加载对应的writer插件;被加载的reader插件获取源数据库对应的datastream对象;被加载的writer插件将datastream对象与目的数据库相关联;数据同步核心模块调用flink执行环境的execute方法完成flink任务的构造和提交。其中,被加载的reader插件获取源数据库对应的datastream对象包括:新建inputformat实现类的对象;调用typeextractor的getinputformattypes方法,传入inputformat实现类的对象作为参数,获得typeinformation对象;调用inputformatsourcefunction类的构造方法,传入inputformat实现类的对象和typeinformation对象作为构造方法的参数,获得inputformatsourcefunction对象;调用streamexecutionenvironment对象的addsource方法,传入inputformatsourcefunction对象和typeinformation对象作为参数,获得datastream对象。其中,被加载的writer插件将datastream对象与目的数据库相关联包括:新建outputformat实现类的对象;调用outputformatsinkfunction类的构造方法,传入outputformat实现类的对象作为参数,获得outputformatsinkfunction对象;调用datastream对象的addsink方法,传入outputformatsinkfunction对象作为参数,将datastream对象与目的数据库进行关联。其中,数据同步核心模块获取flink执行环境包括:数据同步核心模块调用streamexecutionenvironment类的getexecutionenvironment方法获取flink执行环境,设置flink执行环境的任务并发数tasknumber。本发明另一方面提供了一种基于flink的数据同步系统,包括:数据同步核心模块,用于获取flink执行环境;从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到reader插件的名称,根据reader插件的名称加载对应的reader插件;从数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到writer插件名称,根据writer插件名称加载对应的writer插件;被加载的reader插件,用于获取源数据库对应的datastream对象;被加载的writer插件,用于将datastream对象与目的数据库相关联;数据同步核心模块,还用于调用flink执行环境的execute方法完成flink任务的构造和提交。其中,被加载的reader插件通过如下方式获取源数据库对应的datastream对象:被加载的reader插件,还用于新建inputformat实现类的对象;数据同步核心模块,还用于调用typeextractor的getinputformattypes方法,传入inputformat实现类的对象作为参数,获得typeinformation对象;调用inputformatsourcefunction类的构造方法,传入inputformat实现类的对象和typeinformation对象作为构造方法的参数,获得inputformatsourcefunction对象;调用streamexecutionenvironment对象的addsource方法,传入inputformatsourcefunction对象和typeinformation对象作为参数,获得datastream对象。其中,被加载的writer插件通过如下方式将datastream对象与目的数据库相关联:被加载的writer插件,还用于新建outputformat实现类的对象;数据同步核心模块,还用于调用outputformatsinkfunction类的构造方法,传入outputformat实现类的对象作为参数,获得outputformatsinkfunction对象;调用datastream对象的addsink方法,传入outputformatsinkfunction对象作为参数,将datastream对象与目的数据库进行关联。其中,数据同步核心模块通过如下方式获取flink执行环境:数据同步核心模块,还用于调用streamexecutionenvironment类的getexecutionenvironment方法获取flink执行环境,设置flink执行环境的任务并发数tasknumber。由此可见,由用户提供数据同步任务的配置信息,通过本发明实施例提供的基于flink的数据同步方法和系统,将所述配置信息转换为flink任务并提交到flink集群执行,从而无需用户编程即可完成数据同步,节约了开发和运维成本;同时,该方法很好地利用了flink平台高吞吐量、低延迟和分布式的特性,提高了数据同步的执行效率和稳定性。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本发明实施例提供的基于flink的数据同步方法的流程图;图2为本发明实施例提供的被加载的reader插件获取源数据库对应的datastream对象的流程图;图3为本发明实施例提供的被加载的writer插件将datastream对象与目的数据库相关联的流程图;图4为本发明实施例提供的基于flink的数据同步系统的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了本发明实施例提供的基于flink的数据同步方法的流程图,参见图1,本发明实施例提供的基于flink的数据同步方法,包括:s101,数据同步核心模块获取flink执行环境。具体地,本发明所记载的数据同步核心模块、writer插件和reader插件都是在用于在java虚拟机上执行的程序包,由于数据同步的flink任务需要被提交到flink集群上执行,需要在flink集群的每个节点上部署数据同步核心模块、writer插件和reader插件。数据同步核心模块,用于根据数据同步任务配置信息构造数据同步任务,并提交数据同步任务到flink集群。本发明实施例提供的基于flink的数据同步的方法和系统中所涉及的datastream、inputformat、outputformat、typeextractor、typeinformation、inputformatsourcefunction和outputformatsinkfunction等均为开源flink框架提供的类或接口。作为本发明实施例的一个可选实施方式,数据同步核心模块获取flink执行环境包括:数据同步核心模块调用streamexecutionenvironment类的getexecutionenvironment方法获取flink执行环境,设置flink执行环境的任务并发数tasknumber。s102,数据同步核心模块从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到reader插件的名称,根据reader插件的名称加载对应的reader插件。具体地,数据同步任务配置信息是用于描述数据同步任务的规格说明,包括源数据库配置信息、目的数据库配置信息等;源数据库配置包括源数据库类型、源数据库连接配置、字段列表等;目的数据库配置包括目的数据库类型、目的数据库连接配置、字段列表等。reader插件,用于从源数据库中获取datastream对象;每个源数据库类型对应一个reader插件,如果需要支持新的源数据库类型,则需要开发新的reader插件。每个reader插件都会定义一个inputformat实现类,用于实现在flink分布式计算模型中的inputformat类中的configure方法、open方法、createinputsplits方法、getinputsplitassigner方法、reachend方法、nextrecord方法和close方法。s103,数据同步核心模块从数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到writer插件名称,根据writer插件名称加载对应的writer插件。具体地,writer插件,用于将目的数据库关联到datastream对象;每个目的数据库类型对应一个writer插件,如果需要支持新的目的数据库类型,则需要开发新的writer插件;每个writer插件都会定义一个outputformat实现类,用于实现在flink分布式计算模型中的outputformat类中的configure方法、open方法、writerecord方法和close方法。s104,被加载的reader插件获取源数据库对应的datastream对象。作为本发明实施例的一个可选实施方式,s104,被加载的reader插件获取源数据库对应的datastream对象包括:s201,新建inputformat实现类的对象;s202,调用typeextractor的getinputformattypes方法,传入inputformat实现类的对象作为参数,获得typeinformation对象;s203,调用inputformatsourcefunction类的构造方法,传入inputformat实现类的对象和typeinformation对象作为构造方法的参数,获得inputformatsourcefunction对象;s204,调用streamexecutionenvironment对象的addsource方法,传入inputformatsourcefunction对象和typeinformation对象作为参数,获得datastream对象。s105,被加载的writer插件将datastream对象与目的数据库相关联。作为本发明实施例的一个可选实施方式,被加载的writer插件将datastream对象与目的数据库相关联包括:s301,新建outputformat实现类的对象;s302,调用outputformatsinkfunction类的构造方法,传入outputformat实现类的对象作为参数,获得outputformatsinkfunction对象;s303,调用datastream对象的addsink方法,传入outputformatsinkfunction对象作为参数,将datastream对象与目的数据库进行关联。s106,数据同步核心模块调用flink执行环境的execute方法完成flink任务的构造和提交。由此可见,由用户提供数据同步任务的配置信息,通过本发明实施例提供的基于flink的数据同步方法,将所述配置信息转换为flink任务并提交到flink集群执行,从而无需用户编程即可完成数据同步,节约了开发和运维成本;同时,该方法很好地利用了flink平台高吞吐量、低延迟和分布式的特性,提高了数据同步的执行效率和稳定性。图4示出了本发明实施例提供的基于flink的数据同步系统的结构示意图,该基于flink的数据同步系统应用于上述方法,以下仅对基于flink的数据同步系统的结构进行简单说明,其他未尽事宜,请参照上述基于flink的数据同步方法中的相关描述,参见图4,本发明实施例提供的基于flink的数据同步系统,包括:数据同步核心模块101,用于获取flink执行环境;从数据同步任务配置信息中找到源数据库任务配置信息,从源数据库任务配置信息中找到reader插件的名称,根据reader插件的名称加载对应的reader插件;从数据同步任务配置信息中找到目的数据库任务配置信息,从目的数据库任务配置信息中找到writer插件名称,根据writer插件名称加载对应的writer插件;被加载的reader插件102,用于获取源数据库对应的datastream对象;被加载的writer插件103,用于将datastream对象与目的数据库相关联;数据同步核心模块104,还用于调用flink执行环境的execute方法完成flink任务的构造和提交。作为本发明实施例的一个可选实施方式,被加载的reader插件102通过如下方式获取源数据库对应的datastream对象:被加载的reader插件102,还用于新建inputformat实现类的对象;数据同步核心模块101,还用于调用typeextractor的getinputformattypes方法,传入inputformat实现类的对象作为参数,获得typeinformation对象;调用inputformatsourcefunction类的构造方法,传入inputformat实现类的对象和typeinformation对象作为构造方法的参数,获得inputformatsourcefunction对象;调用streamexecutionenvironment对象的addsource方法,传入inputformatsourcefunction对象和typeinformation对象作为参数,获得datastream对象。作为本发明实施例的一个可选实施方式,被加载的writer插件103通过如下方式将datastream对象与目的数据库相关联:被加载的writer插件103,还用于新建outputformat实现类的对象;数据同步核心模块101,还用于调用outputformatsinkfunction类的构造方法,传入outputformat实现类的对象作为参数,获得outputformatsinkfunction对象;调用datastream对象的addsink方法,传入outputformatsinkfunction对象作为参数,将datastream对象与目的数据库进行关联。作为本发明实施例的一个可选实施方式,数据同步核心模块101通过如下方式获取flink执行环境:数据同步核心模块101,还用于调用streamexecutionenvironment类的getexecutionenvironment方法获取flink执行环境,设置flink执行环境的任务并发数tasknumber。由此可见,由用户提供数据同步任务的配置信息,通过本发明实施例提供的基于flink的数据同步系统,将所述配置信息转换为flink任务并提交到flink集群执行,从而无需用户编程即可完成数据同步,节约了开发和运维成本;同时,该方法很好地利用了flink平台高吞吐量、低延迟和分布式的特性,提高了数据同步的执行效率和稳定性。以下以一个具体实施例来描述本发明实施例提供的基于flink的数据同步方法和系统,但本发明并不局限于此:参照图1,本实施例中步骤s102-s103提到的数据同步任务配置信息可以使用json、xml、yaml等各种形式组织所述数据同步配置信息,在本实施例中,采用json格式的数据同步任务配置信息,描述了从mysql到ftp的数据同步任务,如下:参考图2和图4,以上json中的reader元素描述了reader插件的基本信息;在本实施例中使用读取mysql的reader插件102,name指明了reader插件102的名称,dburl、username、password分别指明了连接mysql数据库的连接字符串url、用户名、密码,table指明了读取的数据表,where指明了读取该数据表是应用的过滤条件,column指明了读取数据表中的哪些字段,splitkey指定了用于构造读取分片的拆分键;在本实施例中使用写入ftp的writer插件103,name指明了writer插件103的名称,protocol、host、port、username、password分别指明了连接ftp服务器的协议、主机名、端口号、用户名和密码,writemode指明了写入模式(overwrite:覆盖,insert:插入),path指明了写入ftp的文件路径,fielddelimiter指明了写入ftp的文本文件的每一条记录的列分割符,column指明了写入ftp的文件的表头(其中,name表示字段名、type表示字段类型)。参考图1、图2和图4,在本实施例中,步骤s102和步骤103中,数据同步核心模块101从数据同步任务配置信息中获取reader插件102和writer插件103的配置信息,获取reader插件102和writer插件103的名称,加载reader插件102和writer插件103的过程可以有多种方案,本实施例中提供其中较为简洁加载方案:数据同步核心模块维护了一张插件字典,字典的键为reader插件或writer插件的名称,字典的值为reader插件或writer插件的类,数据同步核心模块通过插件名称找到插件类,然后调用插件类的构造方法加载reader或writer插件。参考图2,对于本实施例,用于读取mysql的reader插件102定义用于读取mysql数据库的inputformat实现类:createinputsplits方法用于生成分片,在实现createinputsplits方法时,利用reader插件配置信息中提供的拆分键(splitkey)构造分片,例如如果拆分键为数值类型,而任务并发数为3,可以用拆分键对于任务并发数取模,构造形如“idmod3==tasknumber”的过滤条件作为分片的内容,其中tasknumber代表子任务编号;getinputsplitassigner方法用于获取分片分配器,在实现getinputsplitassigner时,使用flink开源框架自带的defaultinputsplitassigner;open方法时用于读取分片,在实现该方法时,利用reader插件配置信息中提供的dburl、username、password建立针对mysql数据的连接,然后利用传入open方法的inputsplit参数,从中提取分片的过滤条件,并将该过滤条件于reader插件配置信息中提供的where过滤条件组合,再结合reader插件配置信息中提供的字段信息和数据表名,最终形成读取该分片的sql语句,如下:selectc1,c2,c3fromtb1whereid>100andidmod3==tasknumber执行上述sql语句,查询结果在resultset对象中;reachedend方法用于判断该resultset对象是否已经读取结束;实现nextrecord方法从resultset中获取下一条记录,实现close方法关闭数据库连接;configuration方法无需提供任何操作,getstatistics方法直接返回空即可。参考图2和图4,对于本实施例,用于写入ftp的writer插件102定义用于向ftp服务器写入文本文件的outputformat实现类:在实现configure方法时,利用writer插件配置信息提供的protocol、host、port、username和password建立ftp服务器的连接;在实现open方法时,将writer插件提供的path和当前任务编号拼接,生成输出文件的路径/xxx/tasknumber.csv,从所述建立ftp服务器的连接中获取向指定路径写入文本的输出流对象,并利用writer插件配置信息中提供的column信息输出表头,如下:c1,c2,c3在实现writerecord方法时,提取参数row对象中的每一个字段,利用writer插件配置信息中提供的fielddelimiter,将每个字段结合起来,构成如下的输出记录:3333,string1,string2在实现close方法时,关闭与ftp服务器的连接。参考图1、图3,步骤s104可以详细划分为步骤s201-s204;参考图1、图4,步骤s105可以详细划分为步骤s301-s303;本实施例构造的数据同步任务执行结束后,会ftp服务器的/xxx路径下形成三个csv文件,每个子任务对应一个文件。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1