一种企业数据集成云控制台、实现方法及系统与流程

文档序号:12809886阅读:186来源:国知局

本发明涉及服务器集群技术领域,具体地说是一种企业数据集成云控制台、实现方法及系统。



背景技术:

就企业信息化而言,信息系统建设通常具有阶段性和分布性的特点,这就导致“信息孤岛”现象的存在。“信息孤岛”是指不同软件间,尤其是不同部门间的数据信息不能共享,造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,严重地阻碍了企业信息化建设的整体进程。为解决这一问题,人们开始关注企业数据集成研究。尝试着对不同系统中的数据进行再加工,从而形成一个集成的,面向分析处理的环境,以便能够从这些海量的信息中挖掘规律,提取知识,辅助决策。kettle的出现无疑可以提供对应的帮助,但是相对于海量数据单台服务器存在处理瓶颈,此外界面的极度不友好以及无法远程控制,导致运维开发人员的学习成本增高,降低了数据的准确性,增加了整体it成本。

基于此,本发明提供一种企业数据集成云控制台、实现方法及系统。本发明提出的云控制台技术可以将服务器集群在远程控制台动态扩展管理,作业在服务器集群进行水平扩展,克服了单台服务器的处理瓶颈,并对服务器运行情况进行实时监控,提前发现并解决问题,此外大大降低运维开发人员的学习成本,能够快速有效的完成数据抽取清洗以及存储工作,提供整体数据的准确性,为大数据分析提供便利。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种企业数据集成云控制台、实现方法及系统。

一种企业数据集成云控制台,其结构包括以下五个模块:作业扩展、作业展现、作业启停、作业监控、作业统计,用于实现远程控制服务器集群,完成作业任务,其中,

作业扩展模块,用于动态扩展配置服务器集群,将一个作业指定到不同的服务器协同完成;

作业展现模块,用于展现目前服务器运行的所有作业信息,包括作业描述创建时间、作业流程图以及作业执行日志信息;

作业启停模块,用于远程控制作业任务的启停;

作业监控模块,实时获取作业任务的日志并展现;

作业统计模块,统计整个作业任务完成情况。

所述云控制台实时监控完成作业任务的服务器,该监控的信息包括网络状态、cpu使用率、进程数及磁盘空间信息,并通过包括短信、邮件的方式进行预警通知。

作业启停模块远程控制作业任务启停时,实时准确获取承载采集工作的服务器中数据采集、清洗、存储的相关信息。

一种企业数据集成云控制台实现方法,基于云控制台、服务器集群,其实现过程为:

云控制台在服务器集群中组建数据采集专用集群,该数据采集专用集群包括主服务器、若干从服务器;

为每台数据采集专用集群的服务器安装开源工具kettle,并依次启动所有服务器;

云控制台通过主服务器控制所有作业任务均分到从服务器中,并在所有服务器完成作业任务后,在主服务器中显示相关服务器的运行信息。

所述云控制台实时监控承载采集工作的服务器,该监控的信息包括网络状态、cpu使用率、进程数及磁盘空间信息,并通过包括短信、邮件的方式进行预警通知。

所述云控制台可远程控制作业任务启停,实时准确获取承载采集工作的服务器中数据采集、清洗、存储的相关信息。

所述云控制台中配置有作业扩展模块,该作业扩展模块用于动态扩展配置数据采集专用集群,将一个作业任务指定到不同的服务器中进行协同完成,主服务器控制各从服务器协同完成数据采集工作,实时获取各服务器的网络状态、cpu使用率、进程数及磁盘空间信息,并及时预警。

在作业任务完成后,在云控制台中可展现作业信息,该作业信息包括作业描述创建时间、作业流程图以及作业执行日志信息,获取所有作业信息。

一种企业数据集成云控制台系统,包括云控制台、服务器集群,其中云控制台采用上述云控制台结构,服务器集群则由主服务器、若干从服务器组成,服务器集群中的每台服务器均安装开源工具kettle,云控制台通过主服务器控制所有作业任务均分到从服务器中,并在所有服务器完成作业任务后,在主服务器中显示相关服务器的运行信息。

所述服务器集群中各服务器协同完成某一作业任务,并由主服务器获取相关服务器运行信息;云控制台远程控制主服务器将分散到不同业务系统的、异构数据源中的数据抽取到临时中间层后,进行清洗、转换、集成,最后装载到数据仓库中或者数据集市中,所述数据包括关系数据、平面数据文件。

本发明的一种企业数据集成云控制台、实现方法及系统和现有技术相比,具有以下有益效果:

本发明的一种企业数据集成云控制台、实现方法及系统,通过云控制技术,远程控制kettle的运行,首先克服了单台服务器处理的瓶颈,能够通过集群方式解决大量作业并发问题,能够较为快速有效的实现复杂作业的进行,此外增加了整个作业处理过程的健壮性,单台服务器的宕机不影响整体的稳定运行;其次图形化界面展现相关信息以及远程控制操作作业的运行分配降低了运维开发人员学习成本,能够较为快速有效的控制kettle,保证整体数据抽取的稳定可靠,实用性强,适用范围广泛。

附图说明

附图1为本发明方法的实现示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

企业数据集成,主要是指基于企业分散的信息系统的业务数据进行再集中、再统一管理的过程,包括数据采集、清洗、处理、存储等。

云控制台(cloudcontrolplatform,ccp)是一种处理能力可弹性伸缩的远程控制平台,基于此平台处理数据集成工作,其管理方式比物理服务器更简单高效。

本发明的目的是运用云控制台技术远程控制数据抽取、清洗、储存工作,克服单台服务器处理瓶颈,降低系统开发和运维的难度,减少错误数据的产生,为企业经营决策提供较为准确的参考。

如附图1所示,一种企业数据集成云控制台,其结构包括以下五个模块:作业扩展、作业展现、作业启停、作业监控、作业统计,用于实现远程控制服务器集群,完成作业任务,其中,

作业扩展:

通过云控制台可以动态扩展配置服务器集群,将一个作业指定到不同的服务器进行,主服务器控制各从服务器协同完成数据采集工作,克服单台服务器处理瓶颈,实时获取服务器网络状态、cpu使用率、进程数及磁盘空间等信息,并能及时预警。

作业展现:

展现目前服务器运行的所有作业信息,包括作业描述创建时间、作业流程图以及作业执行日志信息等,较快获取所有作业信息。

作业启停:

可以远程控制作业的启停,一键实时生效。

作业监控:

所有作业的日志可实时获取并展现,能较为快速协助运维人员排查问题。

作业统计:

通过整体的作业统计,能够宏观层面展现不同主题数据的流转,能够整体把握所有作业的整体情况。

作业启停模块远程控制作业任务启停时,实时准确获取承载采集工作的服务器中数据采集、清洗、存储的相关信息。

一种企业数据集成云控制台实现方法,采用云控制台技术,可较为迅速组建数据采集服务器集群。可以将采集工作进行水平扩展,支持采集工作的基本操作:启动、停止、修改及更换服务器。使整个工作能够同时运行在多台服务器上,主服务器控制所有工作均分到不同的服务器上,协同完成,达到负载均衡的目的。此外,对于承载采集工作的服务器实时监控网络状态、cpu使用率、进程数及磁盘空间等信息,并能及时预警通知,包括短信、邮件等。远程控制数据采集处理工具,调用数据采集工具相关接口,远程实时获取相关作业运行情况信息目的。采用云控制台技术可构建更稳定、更安全的应用系统,降低系统开发和运维的难度而专注于业务创新,同时大幅降低整体it成本。

本发明的方法基于云控制台、服务器集群,其实现过程为:

云控制台在服务器集群中组建数据采集专用集群,该数据采集专用集群包括主服务器、若干从服务器;

为每台数据采集专用集群的服务器安装开源工具kettle,并依次启动所有服务器;

云控制台通过主服务器控制所有作业任务均分到从服务器中,并在所有服务器完成作业任务后,在主服务器中显示相关服务器的运行信息。

所述云控制台实时监控承载采集工作的服务器,该监控的信息包括网络状态、cpu使用率、进程数及磁盘空间信息,并通过包括短信、邮件的方式进行预警通知。

所述云控制台可远程控制作业任务启停,实时准确获取承载采集工作的服务器中数据采集、清洗、存储的相关信息。

所述云控制台中配置有作业扩展模块,该作业扩展模块用于动态扩展配置数据采集专用集群,将一个作业任务指定到不同的服务器中进行协同完成,主服务器控制各从服务器协同完成数据采集工作,实时获取各服务器的网络状态、cpu使用率、进程数及磁盘空间信息,并及时预警。

在作业任务完成后,在云控制台中可展现作业信息,该作业信息包括作业描述创建时间、作业流程图以及作业执行日志信息,获取所有作业信息。

一种企业数据集成云控制台系统,包括云控制台、服务器集群,其中云控制台采用上述云控制台结构,服务器集群则由主服务器、若干从服务器组成,服务器集群中的每台服务器均安装开源工具kettle,云控制台通过主服务器控制所有作业任务均分到从服务器中,并在所有服务器完成作业任务后,在主服务器中显示相关服务器的运行信息。

所述服务器集群中各服务器协同完成某一作业任务,并由主服务器获取相关服务器运行信息;云控制台远程管理多台服务器集群,远程控制数据采集工具kettle,实现作业在服务器集群水平扩展,服务器集群由一台主服务器,和一些从服务器组成,主服务器作为一个集群的控制器。各服务器协同完成某一作业任务,获取相关服务器运行信息。远程快速有效的将分散到不同业务系统的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后装载到数据仓库中或者数据集市中,整个过程实时清晰可见。

云控制台技术主要是采用开源工具kettle,集群部署到多台服务器上面,其中一台为master,其余服务器为slave,通过配置文件指定具体的master服务器以及slave服务器,依次启动所有服务器,在图形界面中对集群进行设定,master服务器以及slave服务器可以通过http开放协议相互通信,实现作业水平扩展,由主服务器将作业均分到从服务器,多台服务器协同完成作业任务。通过slaveserver接口可以获取各运行服务器的详细信息,包括网络状态、cpu使用率、进程数及磁盘空间等信息。通过slaveserver、transpainter、kettledatabaserepository等接口远程控制作业启停,实时准确获取数据采集清洗存储的相关信息。

在本发明中,首先是图形化界面动态配置kettle服务器集群,实现作业的水平扩展,解决复杂作业运行缓慢卡死问题。其次图形化界面远程控制数据采集工具kettle的运行,实时获取运行作业信息并展现,对于运维开发人员极大降低学习成本,为企业数据集成提供便利。

通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

除说明书所述的技术特征外,均为本专业技术人员的已知技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1