数据采集转换方法及装置与流程

文档序号:17635046发布日期:2019-05-11 00:20阅读:411来源:国知局
数据采集转换方法及装置与流程

本发明涉及数据处理及显示领域,尤其是一种用于数据自动采集并转换的方法以及实现这种方法的装置。



背景技术:

随着计算机技术与网络技术的发展,人们开发出越来越多的软件以及数据库,不同软件与不同数据库所生成的文件的格式往往不相同。而目前生产应用、商业智能分析、第三方系统接口开发等等领域往往需要使用多个不同数据源的数据,并且需要将数据处理、分析后才能使用,因此,人们首先需要对多个源文件的数据进行采集,并且将采集的数据进行处理、转换。

现有的数据采集、转换方法一般有:数据文件读取采集方法以及数据库环境采集方法,通过上述方法来对外部文件或数据库的数据进行采集。但目前此类数据采集方法大多需要人工干预,且数据转换、加工不够自动、智能化,而且往往不能兼容较多的源文件格式、数据库类型,影响数据采集的效率。

为了实现对数据的处理并转换成目标文件,人们开发出各种的ETL(Extract-Transform-Load,数据抽取、转换、装载)软件用于将不同格式的文件的数据进行处理,并且将处理后的数据转换成另一种格式的文件。然而,现有的ETL软件往往不能根据实际使用需要个性化地设置源文件与目标文件之间的各个参数字段的匹配关系,导致ETL软件的应用受到限制。



技术实现要素:

本发明的主要目的是提供一种可由使用者自行定义源文件与目标文件参数字段匹配关系的数据采集转换方法。

本发明的另一目的是提供一种应用范围广且使用灵活的数据采集转换装置。

为了实现上述的主要目的,本发明提供的数据采集转换方法包括数据采集步骤,采集源文件的数据,并分析源文件的参数字段,提取每一参数字段的数据;其中,该方法还包括字段设置步骤,设置源文件的参数字段与目标文件的参数字段的对应关系;数据转换步骤,根据所设置的源文件的参数字段与目标文件的参数字段的对应关系,将源文件的参数字段的数据匹配至目标文件对应的参数字段;目标文件生成步骤,应用匹配到目标文件参数字段的数据生成目标文件。

由上述方案可见,对数据进行采集后,使用者可以根据实际使用需要自己设置源文件的参数字段与目标文件的参数字段的对应关系并由此生成目标文件,数据的采集转换更为灵活。

一个优选的方案是,数据转换步骤中,将源文件的参数字段的数据匹配至目标文件对应的参数字段的步骤包括将一个或多个源文件的参数字段的数据进行计算和/或判断后,生成匹配至目标文件对应的参数字段的数据。

由此可见,使用者可以根据使用的需要将一个或多个源文件的参数字段进行特殊的处理,如进行合并计算、逻辑计算或者进行特定的条件判断进而生成目标文件的参数字段的数据,使得数据的采集转换更加实用。

进一步的方案是,生成目标文件的数据时,对源文件的数据计算和/或判断后生成中间表并写入中间表中,生成目标文件后,删除中间表的数据。

可见,在需要对源文件的数据进行较为复杂的计算或者判断时,先将初步处理的数据写入到中间表中,并且在将中间表的数据处理完毕并生成目标文件后,将中间表的数据删除,这样的操作可以更为有效地提高数据处理的准确性。

进一步的方案是,执行字段设置步骤时,显示图形化窗口,在图形化窗口内显示所设置的源文件的参数字段与目标文件的参数字段。

由此可见,通过图形化窗口显示所设置的源文件的参数字段与目标文件的参数字段,有利于使用者直观地了解所操作的源文件的参数字段与目标文件的参数字段,参数字段匹配关系的设置更为方便。

为实现上述的另一目的,本发明提供的数据采集转换装置包括数据采集模块,采集源文件的数据,并分析源文件的参数字段,提取每一参数字段的数据;其中,该装置还包括字段设置模块,设置源文件的参数字段与目标文件的参数字段的对应关系;数据转换模块,根据所设置的源文件的参数字段与目标文件的参数字段的对应关系,将源文件的参数字段的数据匹配至目标文件对应的参数字段;目标文件生成模块,应用匹配到目标文件参数字段的数据生成目标文件。

由上述方案可见,使用者可以按照实际使用的需要设置源文件的参数字段与目标文件的参数字段的匹配关系,数据采集转换装置按照设置后的匹配关系对数据进行转换处理并生成目标文件。因此,数据采集转换装置更加贴合实际使用需要,使用者的使用更为灵活、方便。

附图说明

图1是本发明数据采集转换装置实施例的结构框图。

图2是本发明数据采集转换方法实施例的流程图。

图3是本发明数据采集转换方法实施例所生成的窗口的示意图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

本发明的数据采集转换方法用于对来自多个源文件的数据进行自动采集,并且将采集获得的数据进行转换,并生成另一种格式的目标文件,优选地,源文件可以是多个格式的文件或者数据库的文件,如后缀为txt、txp、excel、doc、dbf等格式的文件,所生成的目标文件也可以是多种后缀格式的文件或者数据库文件。本发明的数据采集装置是运行在计算机行并实现上述的数据采集转换方法的软件程序。

作为一个优选的方案,本发明的数据采集方法是基于Kettle实现的数据采集转换方法。Kettle是一个ETL的工具集,它为用户管理来自不同数据库的数据,描述要执行的数据操作并提供图形化的操作界面,且数据抽取高效稳定。Kettle工具集中有两种脚本文件,分别是transformation和job,其中transformation用于完成针对数据的基础转换,job用于完成整个工作流的控制。本发明的方案通过使用者自行定义并且设置采集转换方案,实现适配器可插拔,当源、目标数据源发生变动时,只需配置调整采集方案即可。

另外,本方面的方案需要采用图形用户界面,例如使用Spoo作为一个可选的图形用户界面,它允许运行转换任务,其中转换是用Pan工具运行,任务是用Kitchen运行。Pan是一个数据转换引擎,它可以执行多种功能,例如从不同的数据源的文件中读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务,通常任务是在规定的时间间隔内用批处理的模式自动运行。

参见图1,本发明的数据采集转换装置包括数据采集模块10、字段设置模块12、数据转换模块14以及目标文件生成模块16,其中数据采集模块10包括自动采集模块11,字段设置模块12包括窗口显示模块13,数据转换模块14包括中间表模块15。

数据采集模块10用于采集源文件的数据,即从源文件中识别不同的参数字段,并且提取每一参数字段相应的数据。优选地,数据采集模块10应用自动采集模块11自动地接收源文件所上传的数据。例如,数据采集模块10采集燃料管理系统所上传的数据,在燃料管理系统中,每一个电厂均实时采集电厂燃煤使用量的数据,如燃煤的供应量、消耗量、库存余量等数据。自动采集模块11自动地接收燃煤管理系统所上传的每一电厂的燃煤使用数据。

并且,自动采集模块11根据所接收的数据,分析所接收的数据中不同的参数字段,如燃煤的供应量、消耗量等,并且将每一个参数字段的相应的数据提取出来。

字段设置模块12用于设置源文件的参数字段与目标文件的参数字段的对应关系。例如,源文件中包含有多个电厂的燃煤供应量、消耗量等数据,目标文件也需要生成多个电厂的燃煤供应量、消耗量等数据,则可以将源文件中的某一电厂的燃煤供应量作为参数字段与目标文件的该电厂的燃煤供应量作为参数字段并进行匹配。

优选地,为了让使用者直观地了解所设置的源文件参数字段与目标文件参数字段的匹配关系,字段设置模块12通过窗口显示模块13显示图形化窗口,如图3所示。并且,使用者可以在图形化窗口内编辑不同的源文件参数字段与目标文件参数字段的对应关系,以更贴近实际使用需要。

数据转换模块14根据所设置的源文件的参数字段与目标文件的参数字段对数据进行转换,如需要将源文件的参数字段的数据从表格形式转换成图表形式,或者将源文件的参数字段的数据进行处理,如进行运算、逻辑判断后,生成目标文件相应参数字段的数据。

如源文件为燃料管理系统,源文件的参数字段为某一电厂的燃煤库存量的数据,目标文件的参数字段为该电厂的燃煤库存量是否低于警戒煤量,因此,数据转换模块14需要执行逻辑判断,判断源文件中燃煤库存量的数据是否低于警戒煤量,并且由此生成高于警戒煤量或者低于警戒煤量的结果。

当然,数据转换模块14还可以对多个源文件的参数字段的数据进行计算后再执行逻辑判断,例如,源文件的数据包含多个电厂的燃煤库存量的数据,目标文件需要判断多个电厂的燃煤库库存总量是否低于警戒煤量,则数据转换模块14首先将多个电厂的燃煤库存量的数据相加得到库存总量的数据,再与警戒煤量进行对比,获得比较结果。

由于数据转换模块14的计算、判断较为复杂,因此需要生成中间表以记录中间计算过程的数据。数据转换模块14的中间表模块15用于生成一个中间表,并且将数据转换模块14中间计算过程的数据写入中间表中,并且在生成目标文件后,将中间表的数据删除。

目标文件生成模块16在数据转换模块14将数据转换完毕后,应用转换完毕的数据生成目标文件,也就是按照目标文件的格式、对各个字段参数的定义生成预订格式的目标文件。

下面结合图2介绍数据采集转换方法的流程。首先,数据采集模块11执行步骤S1,采集源文件的数据。如源文件是使用者手工导入的文件,则数据采集模块11在使用者导入文件后分析源文件的各个参数字段,并且提取各个参数字段的数据。如源文件为实时更新并且不断上传文件的数据库等,如燃料管理系统,则数据采集模块11需要自动采集所上传的数据。

然后,设置源文件的参数字段与目标文件参数字段的对应关系,首先执行步骤S2,显示图形化窗口,然后执行步骤S3,在图形化窗口内显示可以选择的源文件的参数字段与目标文件的参数字段,并有使用者根据实际使用的需要,自行设置源文件的参数字段与目标文件的参数字段之间的对应关系。

接着,执行步骤S4,根据步骤S3所设置的源文件的参数字段与目标文件的参数字段的匹配关系,将源文件的参数字段的数据进行计算、逻辑判断,如进行数据合并、判断等。同时,执行步骤S5,判断是否需要生成中间表,如需要生成中间表,则执行步骤S6,生成一个中间表,并且将数据处理过程中的中间数据写入到中间表中。如不需要生成中间表,则执行步骤S7,应用转换后的数据生成目标文件,即根据目标文件的格式要求,将计算、判断后的数据填写到目标文件对应的参数字段的位置,按照目标文件的格式生成目标文件。最后,输出目标文件。

生成目标文件后,判断是否需要删除中间表的数据,即执行步骤S8,如需要删除中间表的数据,则执行步骤S9,删除中间表的数据,避免中间表占用大量的存储空间。

可见,字段设置模块12允许使用者根据实际应用的需要自行设置源文件的各个参数字段与目标文件的参数字段的对应关系,并且所设置的源文件的参数字段的数据可以经过特定的运算、处理等方式,生成目标文件的参数字段对应的文件,由此生成目标文件的各个参数字段的数据,并最终生成目标文件。数据采集转换装置更为实用,更加贴近实际使用需要,并且应用非常方便。

最后需要强调的是,本发明不限于上述实施方式,如数据采集步骤所采集数据的目标文件的格式的改变、数据转换步骤中对数据运算、判断方法的改变等变化也应该包括在本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1