一种基于服务器集群技术的数据抽取转换方法

文档序号:8322369阅读:228来源:国知局
一种基于服务器集群技术的数据抽取转换方法
【专利说明】一种基于服务器集群技术的数据抽取转换方法
[0001]
技术领域
[0002]本发明涉及数据变换领域,具体地说是一种基于服务器集群技术的数据抽取转换方法。
【背景技术】
[0003]随着计算机技术突飞猛进的发展,企业中的计算机数量正在不断增加,数据处理量也逐年提高。当有很多数据要处理的时候,能够有效地使用所有的计算资源是非常重要的。不管是台个人电脑,还是有数百台服务器,让软件能尽可能的使用所有可用的计算资源,并在可接受的时间范围内获取执行结果,并且能够根据服务器硬件配置的差异,设定不同的数据转换策略,最大限度的利用服务器资源,有效的提高数据转换的效率,是本领域技术人员急需解决的技术问题。

【发明内容】

[0004]本发明的技术任务是针对上述现有技术的不足,提供一种基于服务器集群技术的数据抽取转换方法。该方法将传统的单服务器处理方式改成服务器集群的处理方式,能够最大限度的使用计算机资源,有效的进行水平扩展。数据转换的基本组成是步骤,而通过服务器集群技术的应用,把转换中的每一个步骤都能放在单独的服务器里面并行的执行,将极大提高数据处理的效率。
[0005]本发明的技术任务是按以下方式实现的:一种基于服务器集群技术的数据抽取转换方法,包括如下步骤:
A)定义一个集群schema,所述集群schema由一台主服务器,和若干子服务器组成,所述主服务器为该集群的控制器;
B)以包含在步骤A所述集群schema中的元数据记录主服务器和子服务器之间怎样来回传递的数据。
[0006]作为优选,可以通过TCP/IP套接字在服务器之间传递数据,以提高处理速度,减少不必要的开销。
[0007]作为优选,定义和配置完成集群schema之后,定义的数据转换的每一个步骤的执行都可以选择集群schema中的任意一台子服务器,然后通过主服务器进行总的监控和调度。
[0008]上述方法的具体实现过程优选为:首先定义一个集群schema,通过slave-simple, xml配置文件记录服务器的主机名和子服务器应该监听的端口,还可以配置子服务器的各个方面。然后设计集群转换,得先建立一个标准的转换,然后再将其变成集群类型的。
[0009]最后在运行这个转换时,需要启用“Run this transformat1n in a clusteredmode? ”选项,使得这个转换运行在一个集群上。
[0010]与现有技术相比,本发明提供了一种全新的基于服务器集群技术的数据交换方法,并且提供了水平的扩展方式,能够保障服务器资源利用的最大化,极大提高数据传输效率,且具有良好的实用性。
【附图说明】
[0011]附图1是本发明实施例中集群schema定义示意图;
附图2是本发明实施例中集群转换示意图;
附图3是本发明实施例中执行和监控设置示意图。
【具体实施方式】
[0012]参照说明书附图以具体实施例对本发明的基于服务器集群技术的数据抽取转换方法作以下详细地说明。
[0013]实施例:
本发明的基于服务器集群技术的数据抽取转换方法包括如下步骤:
步骤一:
如附图1所示,在定义一个集群schema之前,需要定义一些子服务器,可以指定所有的细节给定义的集群schema。确保至少选择一台主服务器控制这个集群和一台或更多子服务器;
创建集群schema,以下基础选项可根据实际情况确实:
端口:最小的TCP/IP socket端口被用来传输数据从一台子服务器到另一台。它仅仅是一个起始的端口。如果你的集群转换需要50个端口,就是端口号到端口号+50之间的所有端口都会被使用;
Sockets缓存大小:缓存大小用来缓解子服务器之间通信。不要将这个值设的太高,否则可能会引起数据传输处理的不良振荡;
Sockets刷新间隔(rows):当数据记录行到达这个值后,转换引擎会在数据sockets上执行一个刷新,强制将数据推送到远程子服务器,设置这个参数值产生的性能影响,很大程度上依赖子服务器之间的网络的速度和延迟;
Sokets数据是否压缩:决定子服务器之前传输的数据是否压缩。在面对网络相对慢时(例如10Mbps)这个非常好,设成“Yes”将会导致集群转换变慢,因为压缩和解压数据流需要附加的cpu时间。因此,通常情况下,在网络不是瓶颈时,最好不启用这个选项;
步骤二:
如附图2所示,先建立一个标准的转换。例如,可能想从一个存储在共享网络驱动的大文件里面读取数据,排序数据,然后将数据写入另外一个文件。先建立一个标准的转换。然后如果想在3个子服务器上并行的读取和排序数据,选取你想要在子服务器上执行的步骤,“CSV file input”和“Sort rows”步骤。选择集群…从这个步骤的上下文菜单里面,选择这个步骤要运行的集群schema之后,你的转换将变成集群转换。当执行这个转换,所有的被定义成集群运行(在图2中那些有CX3)的步骤都将运行在这个子服务器上,而那些没有集群标识的步骤将运行在主服务器上; 步骤三:
如附图3所示,为了运行一个集群转换,是通过在IDI里面选择“Execute clustered"选项执行。为了调试的目的,可以使用下面几个集群选项:
提交转换:提交生成的转换给子服务器和主服务器;
准备执行:执行在子服务器和主服务器上生成的转换的初始化工作;
开始执行:当这个选项启用,这个集群转换将在主服务器和字服务器上启动;
显示转换:在IDI中打开主服务器和子服务器上的转换,使得你可以看到生成的转换。
[0014]要完全的运行一个转换,上述前三个选项必须启用;第四个选项非必须,仅仅能够看到这个生成的转换。
【主权项】
1.一种基于服务器集群技术的数据抽取转换方法,其特征在于包括如下步骤: A)定义一个集群schema,所述集群schema由一台主服务器,和若干子服务器组成,所述主服务器为该集群的控制器; B)以包含在步骤A所述集群schema中的元数据记录主服务器和子服务器之间怎样来回传递的数据。
2.根据权利要求1所述的基于服务器集群技术的数据抽取转换方法,其特征在于,通过TCP/IP套接字在服务器之间传递数据。
3.根据权利要求2所述的基于服务器集群技术的数据抽取转换方法,其特征在于,定义和配置完成集群schema之后,定义的数据转换的每一个步骤的执行都可以选择集群schema中的任意一台子服务器,然后通过主服务器进行总的监控和调度。
【专利摘要】本发明公开了一种基于服务器集群技术的数据抽取转换方法,属于数据变换领域。该方法包括如下步骤:A)定义一个集群schema,所述集群schema由一台主服务器,和若干子服务器组成,所述主服务器为该集群的控制器;B)以包含在步骤A所述集群schema中的元数据记录主服务器和子服务器之间怎样来回传递的数据。与现有技术相比,本发明的方法能够保障服务器资源利用的最大化,极大提高数据传输效率,且具有良好的实用性及推广应用价值。
【IPC分类】H04L29-08
【公开号】CN104639659
【申请号】CN201510108370
【发明人】王相成, 刘斌
【申请人】浪潮集团有限公司
【公开日】2015年5月20日
【申请日】2015年3月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1