一种大数据智能抽取的管理方法

文档序号:6513281阅读:322来源:国知局
一种大数据智能抽取的管理方法
【专利摘要】本发明提供一种大数据智能抽取的管理方法,其具体步骤为:完成抽取应用的管理的步骤,完成信息同步的步骤,完成抽取规则管理的步骤,规则参数管理的步骤,抽取任务调度的步骤。该一种大数据智能抽取的管理方法和现有技术相比,在改变数据抽取工具时,不必重新开发功能,只需要对相关信息进行配置即可使用。对于运维人员也不需要精通抽取工具就可以实现对数据集中的管理。
【专利说明】一种大数据智能抽取的管理方法
【技术领域】
[0001]本发明涉及计算机应用【技术领域】,具体的说是一种大数据智能抽取的管理方法。【背景技术】
[0002]随着大数据重要性的凸显,在我国基础数据都已经完善的基础上,将分散在不同地区和部门的数据进行集中的需求日益增多。在集中过程中有直接应用数据库技术进行数据集中的,也有通过第三方数据集中工具进行集中的。应用数据库直接同步数据有很多局限性和较高硬件要求,无法在在广域网和复杂的网络环境中进行数据抽取。最为广泛的是通过数据集中工具进行数据集中。在应用数据集中工具进行数据集中时,往往需要基于不同的数据集中工具进行平台开发或者要求人员对集中工具非常熟悉。这些都将花费大量人力物力,为了减轻数据集中的工作量,我们开发了基于各种数据集中工具的抽取管理应用。本管理应用实现对同一集中工具的多个应用同时进行数据抽取,也能够实现不同抽取工具多个应用同时进行数据抽取。通过统一的集中管理界面进行数据集中的管理、调度和监控,屏蔽不同集中工具的差异,从而实现大数据的抽取。

【发明内容】

[0003]本发明的技术任务是解决现有技术的不足,提供一种实用性强、大数据智能抽取的管理方法。
[0004]本发明的技术方案是按以下方式实现的,该一种大数据智能抽取的管理方法,其具体步骤为:
I)完成抽取应用的管理的步骤,该步骤是指抽取数据源的选择选用至少一个抽取工具的至少一个应用:这时由于充分考虑不同的网络环境下,对不同数据源的抽取,所以在对抽取工具管理的时候,不仅能够实现一个抽取应用的管理,也对多个抽取应用进行管理,还可以对不同抽取工具的多个应用进行管理。
[0005]2)完成信息同步的步骤,该步骤是指:
一、数据抽取规则同步;
二、监控和日志信息同步;
3)完成抽取规则管理的步骤,该步骤是指对抽取规则进行格式定义,实现对抽取规则的树形、多角度分类,并对抽取规则进行分组管理;
4)规则参数管理的步骤,该步骤是指对参数进行分类管理;
5)抽取任务调度的步骤,该步骤是指通过合理设置调度阀值,在调度时,在相同的时间内,使得运行的任务数既不超过源库的传输负荷,也不会超过抽取工具服务器的抽取负荷,完成抽取任务。
[0006]所述信息同步的详细步骤为:在该管理应用实现时,建立一整套表结构,实现抽取工具各规则表信息到平台表信息的映射,从而屏蔽各种数据集中工具信息的差异,使得能够统一同步信息、管理规则、监控任务执行情况,以及调度任务使其执行在不同的抽取工具上进行数据抽取。
[0007]所述抽取规则管理步骤中的分组管理是指:按照业务系统、业务类别、数据来源信息对规则进行分组抽取和管理,对于逻辑上关联的抽取规则,定义逻辑关系,实现任务串
并联管理。
[0008]所述规则参数管理的详细步骤为:这里的参数是指不同的抽取规则对应的不同参数,该参数从范围上分别分为全局参数、局部参数、规则参数;从参数的取值方式上,将参数分为固定值、系统值和动态值,在抽取任务出错时,快速完成对参数值的修改。
[0009]所述抽取任务的调度的详细步骤为:在管理应用建设时,根据数据库服务器、抽取工具服务器、网络传输速率的硬件配置情况,设置合理的阀值;在任务启动时,根据硬件环境合理的启动并行的任务数;对执行出错的任务,根据不同的错误类型,进行不同的应对处理。
[0010]本发明与现有技术相比所产生的有益效果是:
本发明的一种大数据智能抽取的管理方法实现对各种数据抽取工具的管理功能,实现同时对多个抽取应用的管理,从而实现大数据的抽取,对开发人员来说,当新增数据抽取工具时,不必重新开发程序,只需要对相应信息进行配置即可,对运维和管理人员来讲,不必精通每一种数据抽取工具,就能够实现对数据抽取的管理和监控,有效的节约人力,提高工作效率,节省开发维护成本60%,实用性强,易于推广。
【专利附图】

【附图说明】
[0011]附图1是本发明的抽取应用管理示意图。
[0012]附图2是本发明的信息同步列表示意图。
[0013]附图3是本发明的信息同步设置示意图。
[0014]附图4是本发明的抽取规则管理分组示意图。
[0015]附图5是本发明的任务调度列表示意图。
[0016]附图6是本发明的任务调度设置示意图。
【具体实施方式】
[0017]下面结合附图对本发明的一种大数据智能抽取的管理方法作详细说明。
[0018]本发明结合专业数据集中工具,实现大数据量抽取功能。本管理应用能够管理同一数据集中工具的多个应用同时进行数据抽取,也能管理不同数据集中工具的多个应用同时进行抽取,通过统一的集中管理界面进行数据集中的管理、调度和监控,屏蔽不同集中工具的差异,从而实现大数据的抽取。现提供一种大数据智能抽取的管理方法,其具体步骤为:
O如附图1所示,完成抽取应用的管理的步骤,该步骤是指抽取数据源的选择选用至少一个抽取工具的至少一个应用:为支持抽取不同系统的数据,适应于不同的抽取环境,实现大数据量的抽取,本管理方法实现支持多种数据抽取工具的数据抽取。不仅能够同时管理同一抽取工具多个应用进行数据抽取,而且也可以同时支持不同抽取工具多个应用同时进行数据抽取。
[0019]2)如附图2、图3所示,完成信息同步的步骤,该步骤是指:数据抽取规则同步和监控和日志信息同步:由于上述信息在不同的抽取工具中,表结构和字段信息是不一致的,为了能能够在前台统一展现和管理。本平台定义了一整套表结构,通过定义数据抽取工具与平台的表结构的映射关系,实现前台对抽取规则和日志信息的统一管控。
[0020]其具体步骤为:由于步骤I)中提到该管理方法是基于各种数据集中工具建设的,所以在该管理应用实现时,建立一整套表结构,实现抽取工具各规则表信息到平台表信息的映射,从而屏蔽各种数据集中工具信息的差异,使得能够统一同步信息、管理规则、监控任务执行情况,以及调度任务使其执行在不同的抽取工具上进行数据抽取。
[0021]3)如附图4所示,完成抽取规则管理的步骤,该步骤是指受制于数据抽取工具的限制,抽取规则无法实现树形分类、多角度分类,以及无法实现灵活分组管理。本管理应用通过对抽取规则的格式定义,实现对抽取规则的树形、多角度分类。同时,为了实现对抽取规则的灵活管理,本管理应用增加了抽取规则的分组管理。按照业务系统、业务类别、数据来源等信息对规则进行分组抽取和管理,对于逻辑上关联的抽取规则,可以定义逻辑关系,实现任务串并联管理。
[0022]4)规则参数管理的步骤,该步骤是指对参数进行分类管理:数据集中时,抽取规则的参数往往比较多,不同的抽取规则往往对应不同的参数。为了更便捷管参数,依据数据集中的经验,对参数进行了分类管理。从范围上将参数分别分为全局参数、局部参数、规则参数;从参数的取值方式上,将参数分为固定值、系统值、动态值和引用值。根据不同的情况,可以灵活对参数进行初始化和更改。提高了运维效率,减轻了工作量。
[0023]5)如附图5、图6所示,抽取任务调度的步骤,该步骤是指:为了适用对大数据的抽取,本管理应用支持多种数据抽取工具的灵活调用。为了实现对抽取规则的调用,根据目前主流的5种数据抽取工具规则调用情况,抽象出一整套表结构,实现对抽取规则的灵活调用。在进行大数据抽取时,环境及服务器的压力,往往是管理的重点,本管理应用通过系统配置集中库、数据源库、抽取工具服务器等信息,实现动态智能调度。根据源数据库服务器和数据抽取工具服务器的情况,设置调度阀值。调度时,在相同的时间内,使得运行的任务数既不超过源库的传输负荷,也不会超过抽取工具服务器的抽取负荷。另外在第一次调度失败后,在完成抽取任务后,根据不同的错误类型,系统会自动重新调度任务,比如对无法连接的源库,会启动连接测试功能。对于抽取中断的任务,会重新自动抽取等等。
[0024]具体实施例:
本管理应用基于J2EE技术设计实现,采用ORACLE 91及以上数据库和BEA WEBL0GICSERVER 8.1中间件软件开发而成,实施工作步骤如下:
第一步、准备数据库环境。
[0025]在数据库中创建I个表空间和用户,如下表_
用户/密码_表空间 表空间大小
根据实际情况设定 cqglpt—dat 200M_
第二步、部署系统应用。
[0026]1、在建立的用户下导入已整理好的数据。
[0027]2、获得系统程序:CQGLPT。
[0028]3、按默认选项创建域:cqglpt_domain。
[0029]4、启动 startWebLogic.cmd,进入 weblogic 控制台:
创建连接池cqglptpool (用户名/密码)和数据源。[0030]创建数据源,注意JNDIName应为cqglpt—ds,使用cqglptpool接池。
[0031]5、选择 WebApplicationModules,选择 cqglpt 应用进行部署。
[0032]6、启动服务并访问。
[0033]除说明书所述的技术特征外,均为本专业技术人员的公知技术。
【权利要求】
1.一种大数据智能抽取的管理方法,其特征在于,其具体步骤为: 1)完成抽取应用的管理的步骤,该步骤是指抽取数据源的选择选用至少一个抽取工具的至少一个应用; 2)完成信息同步的步骤,该步骤是指: 一、数据抽取规则同步; 二、监控和日志信息同步; 3)完成抽取规则管理的步骤,该步骤是指对抽取规则进行格式定义,实现对抽取规则的树形、多角度分类,并对抽取规则进行分组管理; 4)规则参数管理的步骤,该步骤是指对参数进行分类管理; 5)抽取任务调度的步骤,该步骤是指通过合理设置调度阀值,在调度时,在相同的时间内,使得运行的任务数既不超过源库的传输负荷,也不会超过抽取工具服务器的抽取负荷,完成抽取任务。
2.根据权利要求1所述的一种大数据智能抽取的管理方法,其特征在于,所述信息同步的详细步骤为:在该管理应用实现时,建立一整套表结构,实现抽取工具各规则表信息到平台表信息的映射,从而屏蔽各种数据集中工具信息的差异,使得能够统一同步信息、管理规则、监控任务执行情况,以及调度任务使其执行在不同的抽取工具上进行数据抽取。
3.根据权利要求1所述的一种大数据智能抽取的管理方法,其特征在于,所述抽取规则管理步骤中的分组管理是指:按照业务系统、业务类别、数据来源信息对规则进行分组抽取和管理,对于逻辑上关联的抽取规则,定义逻辑关系,实现任务串并联管理。
4.根据权利要求1所述的一种大数据智能抽取的管理方法,其特征在于,所述规则参数管理的详细步骤为:这里的参数是指不同的抽取规则对应的不同参数,该参数从范围上分别分为全局参数、局部参数、规则参数;从参数的取值方式上,将参数分为固定值、系统值和动态值,在抽取任务出错时,快速完成对参数值的修改。
5.根据权利要求1所述的一种大数据智能抽取的管理方法,其特征在于,所述抽取任务的调度的详细步骤为:在管理应用建设时,根据数据库服务器、抽取工具服务器、网络传输速率的硬件配置情况,设置合理的阀值;在任务启动时,根据硬件环境合理的启动并行的任务数;对执行出错的任务,根据不同的错误类型,进行不同的应对处理。
【文档编号】G06F17/30GK103473360SQ201310445356
【公开日】2013年12月25日 申请日期:2013年9月26日 优先权日:2013年9月26日
【发明者】邹建军, 吕亚伟, 赵兵旗 申请人:浪潮齐鲁软件产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1