数据处理方法、装置、设备及存储介质与流程

文档序号:33053769发布日期:2023-01-24 23:47阅读:37来源:国知局
1.本发明涉及数据处理
技术领域
:,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
::2.随着社会发展与信息化的普遍应用,各种基于数据的统计分析、数据挖掘等数据应用随之出现。单一的一类数据已经无法满足分析场景,各类信息数据需要在不同的场景中混合使用来挖掘出数据价值,数据跨系统传输成为一种必然需求。3.目前,市面上通用型的数据同步方案属于开源程序,程序的维护完全交给社区,用户可以通过datax或者sqoop等实现数据抽取。4.然而,现有技术实现复杂、安全性低且成本高,无法实现跨系统的数据传输,无法满足多种多样的数据传输需求。技术实现要素:5.本技术提供一种数据处理方法、装置、设备及存储介质,从而解决现有技术实现复杂、安全性低且成本高,无法实现跨系统的数据传输,无法满足多种多样的数据传输需求的技术问题。6.第一方面,本技术提供了一种数据处理方法,包括:7.获取规则配置信息,根据所述规则配置信息确定取数指令,其中,所述取数指令包括取数执行信息、数据源配置信息和传输信息配置信息;8.根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件;9.根据所述传输信息配置信息,将所述目标数据文件发送至目标系统。10.这里,本技术提供了一种可以实现轻量级数据同步和跨系统传输的方案,配置简单,用户只需要根据用户设置的规则配置信息自动确定取数指令就可以进行数据抽取和生成对应字段信息文件等,不需要用户过多指定字段类型等,相比较于较为复杂的通用型的数据同步方案数据模型,提高了数据处理安全性,实现简单,支持多种数据源,维护成本低,且能够满足各种跨系统数据抽取和传输的需求。11.可选地,在所述获取规则配置信息,根据所述规则配置信息确定取数指令之后,还包括:12.对所述取数指令进行拆分处理,得到多个取数子指令;13.相应的,所述根据所述取数执行信息和所述数据源配置信息进行数据查询,得到目标数据文件,包括:14.根据所述多个取数子指令和所述数据源配置信息,生成多个并行查询子任务;15.并行执行所述多个并行查询子任务,在目标源数据库中进行数据查询,得到目标数据文件。16.其中,本技术在数据查询抽取时,可以根据并发服务控制的并发数开启并发执行查询数据服务,从数据库中查询所需要的数据,并写入对应的批次文件,在抽取数据量比较大的数据的时候,可以将数据分成多批次抽取,并设置并发数,支持同时多个批次并发抽取数据,进一步地提高了数据处理的效率。17.可选地,所述根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件,包括:18.根据多个取数执行信息和所述多个取数执行信息对应的数据源配置信息,生成多个并行查询任务;19.并行执行所述多个并行查询任务,在目标源数据库中进行数据查询,得到目标数据文件。20.其中,本技术在数据查询抽取时,可以根据并发服务控制的并发数开启并发执行查询数据服务,从数据库中查询所需要的数据,并写入对应的批次文件,针对多个不同的取数执行信息,可以同时并行执行,进一步地提高了数据处理的效率。21.可选地,所述取数执行信息包括同步数据的字段信息和字段顺序;22.相应的,在所述获取规则配置信息,根据所述规则配置信息确定取数指令之后,还包括:23.根据所述字段信息,生成所述同步数据对应的数据库模式定义语言文件。24.这里,本技术可以根据字段信息生成对应的数据库模式定义语言(datadefinitionlanguage,ddl)文件供下游系统进行数据库信息创建表。25.可选地,所述根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件,包括:26.根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到数据同步描述信息控制文件和数据文件。27.这里,本技术在抽取数据之后,可以生成数据同步描述信息控制(ctrl)文件和数据(dat)文件,通过上述文件,既实现了数据抽取的功能,在数据传输的过程中便于用户通过数据同步描述信息ctrl文件准确获取数据文件的具体信息,用户可针对性的对数据进行筛选和提取,提高了数据处理的灵活性,提高了用户体验。28.可选地,所述根据所述传输信息配置信息,将所述目标数据文件发送至目标系统,包括:29.根据所述传输信息配置信息,确定目标系统;30.将所述数据库模式定义语言文件、所述目标数据文件数据同步描述信息控制文件和所述数据文件发送至所述目标系统。31.这里,本技术将数据字段信息生成的ddl文件、数据同步描述信息ctrl文件和数据dat文件同时传输给目标系统,便于用户获取详细、全面的数据,进一步地提高了用户体验。32.可选地,所述取数执行信息包括预设抽取时间段;33.相应的,所述根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件,包括:34.根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到预设抽取时间段内的目标数据文件。35.本技术在抽取数据的时候支撑按指定日期使用定制化规则抽取数据和未指定特殊规则时使用默认规则抽取数据的灵活切换,满足用户抽取数据的时候会有抽取历史数据,指定日期补推以往数据的要求。36.第二方面,本技术提供了一种数据处理装置,包括:37.规则管理模块,用于获取规则配置信息,根据所述规则配置信息确定取数指令,其中,所述取数指令包括取数执行信息、数据源配置信息和传输信息配置信息;38.数据同步模块,用于根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件;39.数据传输模块,用于根据所述传输信息配置信息,将所述目标数据文件发送至目标系统。40.可选地,在所述规则管理模块获取规则配置信息,根据所述规则配置信息确定取数指令之后,上述装置还包括:41.拆分模块,用于对所述取数指令进行拆分处理,得到多个取数子指令;42.相应的,所述数据同步模块具体用于:43.根据所述多个取数子指令和所述数据源配置信息,生成多个并行查询子任务;44.并行执行所述多个并行查询子任务,在目标源数据库中进行数据查询,得到目标数据文件。45.可选地,所述数据同步模块还具体用于:46.根据多个取数执行信息和所述多个取数执行信息对应的数据源配置信息,生成多个并行查询任务;47.并行执行所述多个并行查询任务,在目标源数据库中进行数据查询,得到目标数据文件。48.可选地,所述取数执行信息包括同步数据的字段信息和字段顺序;49.相应的,在所述规则管理模块获取规则配置信息,根据所述规则配置信息确定取数指令之后,上述装置还包括:50.生成模块,用于根据所述字段信息,生成所述同步数据对应的数据库模式定义语言文件。51.可选地,所述数据同步模块还具体用于:52.根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到数据同步描述信息控制文件和数据文件。53.可选地,所述数据传输模块具体用于:54.根据所述传输信息配置信息,确定目标系统;55.将所述数据库模式定义语言文件、所述目标数据文件数据同步描述信息控制文件和所述数据文件发送至所述目标系统。56.可选地,所述取数执行信息包括预设抽取时间段;57.相应的,数据同步模块还具体用于:58.根据所述取数执行信息和所述数据源配置信息,在目标源数据库中进行数据查询,得到预设抽取时间段内的目标数据文件。59.第三方面,本技术提供一种数据处理设备,包括:至少一个处理器和存储器;60.所述存储器存储计算机执行指令;61.所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的数据处理方法。62.第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的数据处理方法。63.第五方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的数据处理方法。64.本技术提供的数据处理方法、装置、设备及存储介质,其中该方法用户只需要根据用户设置的规则配置信息自动确定取数指令就可以进行数据抽取和生成对应字段信息文件等,不需要用户过多指定字段类型等,相比较于较为复杂的通用型的数据同步方案数据模型,提高了数据处理安全性,实现简单,支持多种数据源,维护成本低,且能够满足各种跨系统数据抽取和传输的需求。附图说明65.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。66.图1为本技术实施例提供的一种数据处理系统架构示意图;67.图2为本技术实施例提供的一种数据处理方法的流程示意图;68.图3为本技术实施例提供的一种规则管理方式的流程示意图;69.图4为本技术实施例提供的一种数据同步方式的流程示意图;70.图5为本技术实施例提供的一种数据传输方式的流程示意图;71.图6为本技术实施例提供的另一种数据处理方法的流程示意图;72.图7为本技术实施例提供的一种第三方调度的流程示意图;73.图8为本技术实施例提供的一种数据抽取和发送方案的框架示意图;74.图9为本技术实施例提供的一种数据处理装置的结构示意图;75.图10为本技术实施例提供的一种数据处理设备的结构示意图。76.通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式77.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。78.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。79.首先,对本技术实施例中的名词进行解释:80.抽取数据:用于描述按一定的规则从源系统数据库中把数据查询出来。81.软件开发工具包(softwaredevelopmentkit,sdk)调度:用于描述该发明提供给用户打包好的jar(软件包文件格式)包,用户引入自己系统,就可以调用封装好的方法进行数据抽取和数据传输。82.脚本调度:用于描述该发明提供的一套shell(计算机壳层)脚本,供用户手动或者自动调度shell命令执行数据抽取和跨系统发送。83.任务并发:用于描述该发明中数据抽取和传输的任务单位时间内同时执行的数量,合理的并发设置可以提高数据抽取和传输的性能。84.任务发起:手动或者字段触发抽取数据任务执行。85.批次数:用于描述该发明中单个数据库表数据抽取和传输过程中,如果数据量比较大,按一定规则对数据进行分批次处理,多个批次可以并行处理从而设置的一个批次数。86.随着社会发展与信息化的普遍应用,各种基于数据的统计分析,数据挖掘等数据应用存在我们身边,单一的一类数据已经无法满足分析场景,各类信息数据需要在不同的场景中混合使用来挖掘出数据价值,数据跨系统传输成为一种必然需求。在这个过程中,需要一个工具来支撑数据的抽取和跨系统传输。在此背景下,各类数据同步工具应运而生,现有的各类工具都是通用性的,为了适用各种应用场景,包含的功能都比较丰富,但是结构都相对复杂,学习成本较高,维护难度较大,更不便于集成到业务系统中。目前,常用的各类数据同步方案中,最具代表性的数据同步方案包括:datax、sqoop等;目前市场上的同类解决方案都是开源的;市面上通用型的数据同步方案属于开源程序,程序的维护完全交给社区,相关社区活跃度不高,很多开源程序长期没人维护,对程序的更新,优化,升级等迭代较慢,并且程序的安全性没有保障,程序的安全漏洞等没人专人进行扫描维护等;通用型的数据同步方案数据模型都较为复杂,学习和维护成本较高,且不便于集成到业务系统中,用户在使用过程中只能满足数据抽取,但是不能实现数据跨系统的多渠道发送,还需要额外的功能支持数据传输,87.为了解决上述问题,本技术实施例提供一种数据处理方法、装置、设备及存储介质,其中该方法实现了一种轻量级数据同步和跨系统传输的方案,使用简单,配置方便,易于学习,支持多种数据源,能满足各种跨系统数据抽取和传输的需求。88.本技术的技术方案中,所涉及的用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。89.可选的,图1为本技术实施例提供的一种数据处理系统架构示意图。在图1中,上述架构包括数据采集设备101、处理设备102和显示设备103中至少一种。90.可以理解的是,本技术实施例示意的结构并不构成对数据处理系统架构的具体限定。在本技术另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。91.在具体实现过程中,数据采集设备101可以包括输入/输出接口,也可以包括通信接口,数据采集设备101可以通过输入/输出接口或者是通信接口与处理设备连接。92.处理设备102可以获取规则配置信息,根据规则配置信息确定取数指令;根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件;根据传输信息配置信息,将目标数据文件发送至目标系统。93.显示设备103还可以是触摸显示屏或者终端设备的屏幕,用于在显示的上述内容的同时接收用户指令,以实现与用户的交互。94.应理解,上述处理设备可以通过处理器读取存储器中的指令并执行指令的方式实现,也可以通过芯片电路实现。95.另外,本技术实施例描述的网络架构以及业务场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。96.下面结合具体的实施例对本技术的技术方案进行详细的说明:97.可选地,图2为本技术实施例提供的一种数据处理方法的流程示意图。本技术实施例的执行主体可以为图1中的处理设备102,具体执行主体可以根据实际应用场景确定。如图2所示,该方法包括如下步骤:98.s201:获取规则配置信息,根据规则配置信息确定取数指令。99.其中,取数指令包括取数执行信息、数据源配置信息和传输信息配置信息。100.可选地,取数执行信息包括同步数据的字段信息和字段顺序;相应的,在获取规则配置信息,根据规则配置信息确定取数指令之后,还包括:根据字段信息,生成同步数据对应的数据库模式定义语言文件。101.这里,本技术实施例可以根据字段信息生成对应的数据库模式定义语言ddl文件供下游系统进行数据库信息创建表。102.其中,规则配置信息可以通过用户的输入获取的,或者是预存在系统内部的。103.可选地,在步骤s201中可提供以下功能:包括提供使用者规则配置规范,规则配置入口,规则配置持久化,及解析配置规则信息,将规则配置信息缓存到内存中;根据规则提供解析完的可执行的取数sql语句,根据规则解析出同步数据的字段信息和字段顺序;根据字段信息生成对应的ddl文件供下游系统进行数据库信息创建表;根据数据源配置规则提供解析后的可用数据源配置信息缓存到内存中,并创建可用的数据源连接池。104.示范性的,图3为本技术实施例提供的一种规则管理方式的流程示意图,如图3所示,本技术实施例可以通过如图所示过程实现规则管理和取数指令解析。105.在一种可能的实现方式中,取数执行信息包括sql脚本配置文件,数据源配置信息包括cfg数据源配置文件,传输信息配置信息包括properties配置文件。106.用户通过自定义文件的形式提供规则配置,该方案提供结构化查询语言(structuredquerylanguage,sql)脚本文件来定义取数执行脚本;通过cfg配置文件提供数据源配置,并且对配置数据源连接信息进行加密处理;通过properties配置文件提供并发数,数据传输节点,数据传输路径,字段类型,文件格式等信息配置。107.sql脚本配置文件(取数执行信息)主要内容为取数执行sql,包含取数字段信息,取数数据库表,数据库schema,取数条件限制等信息。108.cfg数据源配置文件(数据源配置信息)主要内容:数据库连接串,数据库用户,数据库加密密码串信息。109.properties配置文件(传输信息配置信息)主要包含:文件导出标识,主键标识,特殊字段映射,排除导出列,增量导数时间戳,业务初始化日期,ddl文件推数日期,数据文件发送节点信息等,文件发送节点支持多节点配置,同一份数据文件发送多个目标地址。110.在程序被调用启动时,规则配置模块启动,将数据库配置文件读取并解析创建数据库连接信息。在抽取数据任务触发的时候,会对配置的取数脚本文件解析到内存,并通过数据库连接执行查询,通过数据库元数据生成对的ddl文件信息;同时抽数任务会解析properties配置文件到内存中,根据配置信息进行文件生成和设置相关导数并行度。111.s202:根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件。112.其中,数据源配置信息中包括目标源数据库的标识。113.可选地,根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件,包括:根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到数据同步描述信息控制文件和数据文件。114.这里,本技术实施例在抽取数据之后,可以生成数据同步描述信息控制ctrl文件和数据dat文件,通过上述文件,既实现了数据抽取的功能,在数据传输的过程中便于用户通过数据同步描述信息ctrl文件准确获取数据文件的具体信息,用户可针对性的对数据进行筛选和提取,提高了数据处理的灵活性,提高了用户体验。115.可选地,取数执行信息包括预设抽取时间段;相应的,根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件,包括:根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到预设抽取时间段内的目标数据文件。116.其中,这里的预设抽取时间段可以根据实际情况确定,本技术实施例对此不做具体限制。117.本技术实施例在抽取数据的时候支撑按指定日期使用定制化规则抽取数据和未指定特殊规则时使用默认规则抽取数据的灵活切换,满足用户抽取数据的时候会有抽取历史数据,指定日期补推以往数据的要求。118.可选地,步骤s202可以实现如下功能:跟提供的取数指令通过创建的数据源连接池会话进行数据查询,并把查询出来的数据批量写入到对应的数据文件中;根据查询数据条数信息创建ctrl描述文件,记录同步数据记录数等信息;如果数据量比较大,可以按分批次同时并行写入多个批次数据文件。119.示范性的,图4为本技术实施例提供的一种数据同步方式的流程示意图,如图4所示,本技术实施例可以通过如图所示过程实现数据抽取。120.在一种可能的实现方式中,在抽取数据的任务调度起来后,会将内存中解析好的配置读取,构造数据库连接会话,执行数据抽取sql脚本,根据返回的元数据信息生成对应的字段ddl信息文件,准备拿取字段类型和名称;同时根据并发服务控制的并发数开启并发执行查询数据服务,从数据库中查询所需要的数据,并写入对应的批次文件。在这个过程中会生成三种类型的文件,第一种数据文件,记录查询出来的所有数据,每列之间的数据通过|@|分隔符进行分割;第二种文件是ctrl描述文件,该文件记录本批次导数的记录数,导数时间,生成的数据文件名等信息;第三种文件是ddl文件,该文件是查询数据字段信息文件,记录导数的所有字段和字段类型,及字段顺序。三个文件内容信息彼此关联,可以通过三个文件校验数据抽取情况。121.在一种可能的实现方式中,根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件,包括:根据多个取数执行信息和多个取数执行信息对应的数据源配置信息,生成多个并行查询任务;并行执行多个并行查询任务,在目标源数据库中进行数据查询,得到目标数据文件。122.其中,本技术实施例在数据查询抽取时,可以根据并发服务控制的并发数开启并发执行查询数据服务,从数据库中查询所需要的数据,并写入对应的批次文件,针对多个不同的取数执行信息,可以同时并行执行,进一步地提高了数据处理的效率。123.s203:根据传输信息配置信息,将目标数据文件发送至目标系统。124.其中,可通过传输信息配置信息确定目标系统或者是向目标系统传输信息的路径。125.可选地,步骤s203可以实现如下功能:把生成的数据字段信息ddl文件,数据同步描述信息ctrl文件,数据dat文件,根据配置的发送方式和发送信息传输到对应系统,并记录发送日志信息。126.示范性的,图5为本技术实施例提供的一种数据传输方式的流程示意图,如图5所示,本技术实施例可以通过如图所示过程实现数据跨系统传输。127.在一种可能的实现方式中,给使用者数据文件传输服务,使用者完成把数据抽取生成文件后,自动会触发文件传输服务,将数据文件传输到指定的系统。在该模块中,支持多种发送渠道的选择,使用者可以根据下游系统或者个人的接收方式选择对应的渠道进行发送,发送渠道可以包括邮件,传真,nft,sftp等,选择不同的渠道需要进行相关渠道的配置,发送服务在内存中读取配置进行发送。发送方式上支持同步发送和异步发送,同步发送适用于数据文件小于5m的情形;异步发送方式试用文件大于5m(上述范围仅为示意性地,在实际应用过程中,可以根据实际情况确定)的场景,异步发送方式还需支持异步获取发送结果,供使用者判断发送结果。为给使用者提供发送信息查询服务,特提供发送日志记录服务,将发送日志记录在数据库中,异步发送的结果也会更新到日志表中。128.可选地,根据传输信息配置信息,将目标数据文件发送至目标系统,包括:根据传输信息配置信息,确定目标系统;将数据库模式定义语言文件、目标数据文件数据同步描述信息控制文件和数据文件发送至目标系统。129.这里,本技术实施例将数据字段信息生成的ddl文件、数据同步描述信息ctrl文件和数据dat文件同时传输给目标系统,便于用户获取详细、全面的数据,进一步地提高了用户体验。本技术实施例提供了一种可以实现轻量级数据同步和跨系统传输的方案,配置简单,用户只需要根据用户设置的规则配置信息自动确定取数指令就可以进行数据抽取和生成对应字段信息文件等,不需要用户过多指定字段类型等,相比较于较为复杂的通用型的数据同步方案数据模型,提高了数据处理安全性,实现简单,支持多种数据源,维护成本低,且能够满足各种跨系统数据抽取和传输的需求。130.可选地,本技术实施例还可以在数据同步过程中对并发数的控制更加灵活,相应的,图6为本技术实施例提供的另一种数据处理方法的流程示意图,如图6所示,该方法包括:131.s601:获取规则配置信息,根据规则配置信息确定取数指令。132.其中,取数指令包括取数执行信息、数据源配置信息和传输信息配置信息。133.s602:对取数指令进行拆分处理,得到多个取数子指令。134.s603:根据多个取数子指令和数据源配置信息,生成多个并行查询子任务;135.s604:并行执行多个并行查询子任务,在目标源数据库中进行数据查询,得到目标数据文件。136.s605:根据传输信息配置信息,将目标数据文件发送至目标系统。137.可选地,既可以在单台机器的内存中分配线程级别的并发,也可以在多台多机器上进行物理隔离层级的并发,使用者可按需要设置不同的并发方式。138.可选地,支持同一份数据传输多个系统,可以按不同方式传输,使用者可以一次配置导出的数据发送多个系统,不用担心差异化。139.其中,本技术实施例在数据查询抽取时,可以根据并发服务控制的并发数开启并发执行查询数据服务,从数据库中查询所需要的数据,并写入对应的批次文件,在抽取数据量比较大的数据的时候,可以将数据分成多批次抽取,并设置并发数,支持同时多个批次并发抽取数据,进一步地提高了数据处理的效率。140.根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件;141.根据传输信息配置信息,将目标数据文件发送至目标系统。142.在一种可能的实现方式中,本技术实施例还可以实现第三方调度,提供应用集成的调度入口和第三方批量调度工具调度执行的脚本控制等功能。143.示范性的,图7为本技术实施例提供的一种第三方调度的流程示意图,如图7所示,本技术实施例可以通过如图所示过程实现第三方调度。144.在一种可能的实现方式中,使用者可以在自己的业务系统中集成第三方调度模块,通过该模块的能力进行抽取数据任务的调度执行。该模块提供两种调度方式,第一种是通过sdk的方式,使用者在自己程序中引入jar包并通过sdk的方式进行抽取数据任务发起和重试操作;第二种是通过脚本调度的方式,该模块提供了现成的shell脚本,使用者只需要在自己程序中执行shell脚本,并把参数传递进去,就可以发起抽数任务,如果使用者需要重新抽取数据,只需要灵活发送重跑任务命令就可以发起对应的重跑任务。该模块对调度任务进行了资源管理,合理控制任务资源数,避免任务消耗资源过多导致的内存,cpu过高等系统告警。145.可选地,图8为本技术实施例提供的一种数据抽取和发送方案的框架示意图,如图8所示,该框架包括规则管理模块、数据同步模块、数据传输模板和第三方调度模块。146.可选地,规则管理模块(根据规则及指令预先进行解析),该模块主要功能包括提供使用者规则配置规范,规则配置入口,规则配置持久化,及解析配置规则信息,将规则配置信息缓存到内存中;根据规则提供解析完的可执行的取数sql语句,根据规则解析出同步数据的字段信息和字段顺序;根据字段信息生成对应的ddl文件供下游系统进行数据库信息创建表;根据数据源配置规则提供解析后的可用数据源配置信息缓存到内存中,并创建可用的数据源连接池。147.可选地,数据同步模块(查询功能):该模块主要功能包括跟提供的取数sql通过创建的数据源连接池会话进行数据查询,并把查询出来的数据批量写入到对应的数据文件中;根据查询数据条数信息创建ctrl描述文件,记录同步数据记录数等信息;如果数据量比较大,可以按分批次同时并行写入多个批次数据文件。148.可选地,数据传输模板:主要功能是把生成的数据字段信息ddl文件,数据同步描述信息ctrl文件,数据dat文件,根据配置的发送方式和发送信息传输到对应系统,并记录发送日志信息。149.可选地,第三方调度模块,该模块提供应用集成的调度入口和第三方批量调度工具调度执行的脚本控制等功能。数据抽取和传输方案的工作原理具体如图8所示。150.图9为本技术实施例提供的一种数据处理装置的结构示意图,如图9所示,本技术实施例的装置包括:规则管理模块901、数据同步模块902和数据传输模块903。这里的规则管理模块901可以为图8框架中的规则管理模块。这里的数据同步模块902可以为图8框架中的数据同步模块,这里的数据传输模块903可以为图8框架中的数据传输模块。这里的数据处理装置可以是上述处理装置、处理器本身,或者是实现处理器的功能的芯片或者集成电路。这里需要说明的是,规则管理模块901、数据同步模块902和数据传输模块903的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。151.其中,规则管理模块,用于获取规则配置信息,根据规则配置信息确定取数指令,其中,取数指令包括取数执行信息、数据源配置信息和传输信息配置信息;152.数据同步模块,用于根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到目标数据文件;153.数据传输模块,用于根据传输信息配置信息,将目标数据文件发送至目标系统。154.可选地,在规则管理模块获取规则配置信息,根据规则配置信息确定取数指令之后,上述装置还包括:155.拆分模块,用于对取数指令进行拆分处理,得到多个取数子指令;156.相应的,数据同步模块具体用于:157.根据多个取数子指令和数据源配置信息,生成多个并行查询子任务;158.并行执行多个并行查询子任务,在目标源数据库中进行数据查询,得到目标数据文件。159.可选地,数据同步模块还具体用于:160.根据多个取数执行信息和多个取数执行信息对应的数据源配置信息,生成多个并行查询任务;161.并行执行多个并行查询任务,在目标源数据库中进行数据查询,得到目标数据文件。162.可选地,取数执行信息包括同步数据的字段信息和字段顺序;163.相应的,在规则管理模块获取规则配置信息,根据规则配置信息确定取数指令之后,上述装置还包括:164.生成模块,用于根据字段信息,生成同步数据对应的数据库模式定义语言文件。165.可选地,数据同步模块还具体用于:166.根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到数据同步描述信息控制文件和数据文件。167.可选地,数据传输模块具体用于:168.根据传输信息配置信息,确定目标系统;169.将数据库模式定义语言文件、目标数据文件数据同步描述信息控制文件和数据文件发送至目标系统。170.可选地,取数执行信息包括预设抽取时间段;171.相应的,数据同步模块还具体用于:172.根据取数执行信息和数据源配置信息,在目标源数据库中进行数据查询,得到预设抽取时间段内的目标数据文件。173.参考图10,其示出了适于用来实现本公开实施例的数据处理设备1000的结构示意图,该数据处理设备1000可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(personaldigitalassistant,简称pda)、平板电脑(portableandroiddevice,简称pad)、便携式多媒体播放器(portablemediaplayer,简称pmp)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图10示出的数据处理设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。174.如图10所示,数据处理设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001,其可以根据存储在只读存储器(readonlymemory,简称rom)1002中的程序或者从存储装置1008加载到随机访问存储器(randomaccessmemory,简称ram)1003中的程序而执行各种适当的动作和处理。在ram1003中,还存储有数据处理设备1000操作所需的各种程序和数据。处理装置1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。175.通常,以下装置可以连接至i/o接口1005:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006;包括例如液晶显示器(liquidcrystaldisplay,简称lcd)、扬声器、振动器等的输出装置1007;包括例如磁带、硬盘等的存储装置1008;以及通信装置1009。通信装置1009可以允许数据处理设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的数据处理设备1000,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。176.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1009从网络上被下载和安装,或者从存储装置1008被安装,或者从rom1002被安装。在该计算机程序被处理装置1001执行时,执行本公开实施例的方法中限定的上述功能。177.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。178.上述计算机可读介质可以是上述数据处理设备中所包含的;也可以是单独存在,而未装配入该数据处理设备中。179.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该数据处理设备执行时,使得该数据处理设备执行上述实施例所示的方法。180.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(localareanetwork,简称lan)或广域网(wideareanetwork,简称wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。181.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。182.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。183.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。184.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。185.本技术实施例的数据处理设备,可以用于执行本技术上述各方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。186.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一项的数据处理方法。187.本技术实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,用于实现上述任一项的数据处理方法。188.在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。189.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。190.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本
技术领域
:中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。191.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1