一种基于kettle的数据抽取转换分析与分发方法、装置及存储介质与流程

文档序号:30491316发布日期:2022-06-22 01:56阅读:334来源:国知局
一种基于kettle的数据抽取转换分析与分发方法、装置及存储介质与流程

1.本发明涉及数据处理技术领域,具体涉及一种基于kettle的数据抽取转换分析与分发方法、装置及存储介质。


背景技术:

2.目前,在大部分企业中,随着企业业务的不断扩大,企业系统在不断的增加、迭代更新,系统之间也会有很多的关联,就像蜘蛛网一样,错综复杂。当管理层需要对各项数据进行统一完整分析时会面临一个非常艰难的事情。如:原始excel数据、第一代系统数据、第二代系统数据以及零星分散在各个系统数据中,如何将数据归集一个系统并对其进行分析后统一提供服务。现有的系统无法高效快速地满足其需求。


技术实现要素:

3.因此,本发明要解决的技术问题在于克服现有技术中现有的系统无法高效快速地将各项数据归集一个系统并对其进行统一分析后统一提供服务的问题。
4.为了解决上述技术问题,本发明提供一种基于kettle的数据抽取转换分析与分发方法,包括步骤:通过kettle图形化界面编辑包括数据流逻辑的kettle文件;设置指标管理,配置指标任务,所述指标任务包括任务名称、任务编码、任务类型、执行方式、kettle转换执行文件、状态和/或简介信息;配置定时任务,定时执行所述指标任务;根据所执行的所述定时任务进行etl数据抽取,抽取数据源中的数据;根据所执行的所述定时任务,获取相应的所述kettle文件,将所述kettle文件上传至kettle执行引擎;动态解析所述kettle文件并执行所述指标任务;将分析和/或处理后的数据进行数据落库。
5.可选地,在通过kettle图形化界面编辑包括数据流逻辑的kettle文件之前,还包括步骤:定义基础数据仓库模型,包括配置事实表、维度表、主题管理、指标管理和/或数据源管理。
6.可选地,使用kettle转换模式编辑kettle文件,kettle转换包括若干步骤,若干步骤之间通过跳来连接。
7.可选地,其中设置指标管理包括:增加指标并进行相应的说明,说明包括指标名称、指标类型、指标编码计算频率、所属主题、状态和/或简介信息。
8.可选地,其中配置定时任务包括:配置相关联系人,相关联系人包括姓名、邮箱和/或备注;配置任务分组、任务名称、轮询规则、备注、执行地址和/或告警联系人。
9.可选地,kettle执行引擎包括ods层、dwd层、dws层、聚合数据层、多维分析层、业务模型层和/或数据集市层。
10.可选地,数据源包括系统日志、埋点数据、数据库数据和/或文档数据。
11.为了解决上述技术问题,本发明还提供一种基于kettle的数据抽取转换分析与分发装置,包括:存储器;以及与所述存储器连接的处理器,所述处理器被配置成:通过kettle
图形化界面编辑包括数据流逻辑的kettle文件;设置指标管理,配置指标任务,所述指标任务包括任务名称、任务编码、任务类型、执行方式、kettle转换执行文件、状态和/或简介信息;配置定时任务,定时执行所述指标任务;根据所执行的所述定时任务进行etl数据抽取,抽取数据源中的数据;根据所执行的所述定时任务,获取相应的所述kettle文件,将所述kettle文件上传至kettle执行引擎;动态解析所述kettle文件并执行所述指标任务;将分析和/或处理后的数据进行数据落库。
12.为了解决上述技术问题,本发明还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤。
13.本发明技术方案,具有如下优点:
14.本发明提供的一种基于kettle的数据抽取转换分析与分发方法,包括步骤:通过kettle图形化界面编辑包括数据流逻辑的kettle文件;设置指标管理,配置指标任务,指标任务包括任务名称、任务编码、任务类型、执行方式、kettle转换执行文件、状态和/或简介信息;配置定时任务,定时执行指标任务;根据所执行的定时任务进行etl数据抽取,抽取数据源中的数据;根据所执行的定时任务,获取相应的kettle文件,将kettle文件上传至kettle执行引擎;动态解析kettle文件并执行指标任务;将分析和/或处理后的数据进行数据落库。
15.通过上述基于kettle的数据抽取转换分析与分发方法,能够高效快速地将各项数据归集一个系统并对其进行统一分析后统一提供服务。具体地,采用etl和消息服务相结合的技术,实现了各种数据源抽取、转换处理,最后以统一的格式装载到目标库中,并进行数据分析后统一提供服务,根据本发明提供的方案,可以任意指定多个数据源之间的数据流转,数据分析以及数据处理。kettle文件在执行中,支持热部署,上传即生效,降低了系统间的耦合度。
附图说明
16.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本发明的一实施方式中提供的一种基于kettle的数据抽取转换分析与分发方法的流程图;
18.图2为本发明的一实施方式中提供的kettle文件编辑过程示意图;
19.图3为本发明的一实施方式中提供的设置指标管理示意图;
20.图4至图6为本发明的一实施方式中提供的配置指标任务示意图;
21.图7为本发明的一实施方式中提供的配置定时任务的示意图;
22.图8为本发明的一实施方式中提供的整体架构示意图;
23.图9为本发明的一实施方式中提供的一种基于kettle的数据抽取转换分析与分发装置的模块框图。
具体实施方式
24.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
26.本发明一实施例提供一种基于kettle的数据抽取转换分析与分发方法,参考图1,图1为本发明的一实施方式中提供的一种基于kettle的数据抽取转换分析与分发方法的流程图,应当理解的是,该方法还可以包括未示出的附加框和/或可以省略所示出的框,本发明的范围在此方面不受限制。包括如下步骤:
27.在步骤101处,通过kettle图形化界面编辑包括数据流逻辑的kettle文件。
28.参考图2,在一些实施例中,使用kettle转换模式编辑kettle文件,kettle转换包括若干步骤,若干步骤之间通过跳(hop)来连接。
29.具体地,跳定义了一个单向通道,允许数据从一个步骤流向另一个步骤。在kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。步骤:是转换的基本组成部分,以图标的形式出现。如(表输入、文本文件输出)。步骤将数据写到与之相连的一个或多个输出跳,再传送到跳的另一端的步骤。这说明,跳是步骤之间带箭头的连线,其实是两个步骤之间的,被称为行集(rowset)的,数据行缓存(行集的大小可以在转换里定义)。一个步骤的数据发送可以设置为轮流发送和复制发送;轮流发送:将数据行依次发给每一个输出跳;复制发送:将全部数据行发送给所有输出跳(shift+鼠标左键可以快速地新建一个跳)。在kettle中,所有的步骤都以并发的方式执行,当转换启动后,所有的步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输出跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。数据行:一个数据行是零到多个字段的集合。
30.在一些实施例中,在通过kettle图形化界面编辑包括数据流逻辑的kettle文件之前,还包括步骤:定义基础数据仓库模型,包括配置事实表、维度表、主题管理、指标管理和/或数据源管理。
31.具体地,数据仓库模型是一种合理定义数据仓库内容的结构,方便对数据仓库进行的操作和数据仓库系统的维护,通常包括对数据库、表、视图、索引和数据,使用预定义的设计类型进行定期结构化,例如star schema、snowflake schema、galaxy schema(也称为fact constellation schema)。模型是描述整个数据仓库的逻辑描述。在数据仓库中,包括记录的名称和描述。它具有所有数据项以及与数据关联的不同聚合。就像数据库有一个模式一样,它也需要为数据仓库维护一个模式。根据数据仓库中维护的设置和数据,有不同的模式。事实表应该具有与任何业务流程对应的数据。每行代表可以与任何进程关联的任何事件。它存储用于分析的定量信息。维度表存储有关如何分析事实表中的数据的数据。它们有助于事实表收集有关将要采取的措施的不同维度。每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键,当然,维度表行的描述环境应与事实表行完全对应。维度表通常比较宽,是扁平型非规范表,包含大量的低粒度的文本属性。数仓主题(subject)是在较高层次上将企业信息系统中某一分析对象(重点是分析的对象)的
数据进行整合、归类并分析的一种范围,属于一个抽象概念,简单点说每一个主题对应一个宏观分析领域。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。
32.在步骤102处,设置指标管理,配置指标任务,指标任务包括任务名称、任务编码、任务类型、执行方式、kettle转换执行文件、状态和/或简介信息。
33.参考图3,在一些实施例中,设置指标管理包括:增加指标并进行相应的说明,说明包括指标名称、指标类型、指标编码计算频率、所属主题、状态和/或简介信息。
34.具体地,指标管理增加相应指标并进行说明,包含指标名称、指标类型、指标编码计算频率、所属主题、状态以及简介信息。参考图4至图6,配置指标任务,任务基本信息:任务名称、任务编码、任务类型、执行方式、ktr文件(kettle转换执行文件)、状态以及简介信息;任务初始化信息:数据库初始化配置、sql参数初始化配置、kafka初始化配置、自定义初始化配置等。
35.在步骤103处,配置定时任务,定时执行指标任务。
36.具体地,通过调度中心配置定时任务。在一些实施例中,参考图7,配置定时任务包括:首先配置定时任务相关联系人,相关联系人包括姓名、邮箱、备注等信息;然后配置定时任务的任务分组、任务名称、轮询规则、备注、执行地址和/或告警联系人等信息。
37.在步骤104处,根据所执行的定时任务进行etl数据抽取,抽取数据源中的数据。具体地,调度中心定时调用指标任务进行etl数据抽取。
38.在一些实施例中,数据源包括系统日志、埋点数据、数据库数据和/或文档数据。
39.在步骤105处,根据所执行的定时任务,获取相应的kettle文件,将kettle文件上传至kettle执行引擎。
40.在一些实施例中,kettle执行引擎包括ods层、dwd层、dws层、聚合数据层、多维分析层、业务模型层和/或数据集市层。
41.在步骤106处,动态解析kettle文件并执行指标任务。
42.在步骤107处,将分析和/或处理后的数据进行数据落库。
43.具体地,在数据落库后,根据需要提供即席查询服务、报表数据展示、用户画像应用、数据挖掘支持以及接口数据提取服务。
44.通过上述基于kettle的数据抽取转换分析与分发方法,能够高效快速地将各项数据归集一个系统并对其进行统一分析后统一提供服务。具体地,参考图8,采用etl和消息服务相结合的技术,实现了各种数据源抽取、转换处理,最后以统一的格式装载到目标库中,并进行数据分析后统一提供服务,根据本发明提供的方案,可以任意指定多个数据源之间的数据流转,数据分析以及数据处理。kettle文件在执行中,支持热部署,上传即生效,降低了系统间的耦合度。
45.图9为本发明的一实施方式中提供的一种基于kettle的数据抽取转换分析与分发装置的模块框图。该装置包括:
46.存储器201;以及与存储器201连接的处理器202,处理器202被配置成:通过kettle图形化界面编辑包括数据流逻辑的kettle文件;设置指标管理,配置指标任务,指标任务包括任务名称、任务编码、任务类型、执行方式、kettle转换执行文件、状态和/或简介信息;配置定时任务,定时执行指标任务;根据所执行的定时任务进行etl数据抽取,抽取数据源中
的数据;根据所执行的定时任务,获取相应的kettle文件,将kettle文件上传至kettle执行引擎;动态解析kettle文件并执行指标任务;将分析和/或处理后的数据进行数据落库。
47.在一些实施例中,处理器202还被配置成:在通过kettle图形化界面编辑包括数据流逻辑的kettle文件之前,还包括步骤:定义基础数据仓库模型,包括配置事实表、维度表、主题管理、指标管理和/或数据源管理。
48.在一些实施例中,处理器202还被配置成:使用kettle转换模式编辑kettle文件,kettle转换包括若干步骤,若干步骤之间通过跳来连接。
49.在一些实施例中,处理器202还被配置成:其中设置指标管理包括:增加指标并进行相应的说明,说明包括指标名称、指标类型、指标编码计算频率、所属主题、状态和/或简介信息。
50.在一些实施例中,处理器202还被配置成:其中配置定时任务包括:配置相关联系人,相关联系人包括姓名、邮箱和/或备注;配置任务分组、任务名称、轮询规则、备注、执行地址和/或告警联系人。
51.在一些实施例中,处理器202还被配置成:kettle执行引擎包括ods层、dwd层、dws层、聚合数据层、多维分析层、业务模型层和/或数据集市层。
52.在一些实施例中,处理器202还被配置成:数据源包括系统日志、埋点数据、数据库数据和/或文档数据。
53.具体实现方法参考前述方法实施例,此处不再赘述。
54.本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
55.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
56.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
57.用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如
smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
58.这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
59.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
60.也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
61.附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
62.注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
63.本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例
而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1