一种通用的数据抽取转换方法

文档序号:6610446阅读:439来源:国知局
专利名称:一种通用的数据抽取转换方法
技术领域
本系统涉及一种计算机应用技术领域,具体的说是一种通用的数据抽取转换方法。
背景技术
目前我国各个领域的基础数据都已经完善,各业务系统积累了大量数据,蕴藏了丰富的信息资源,数据利用方面的需求日益增多。数据挖掘、决策支持日益兴起,如何从海量数据中挖掘出有价值的数据,如何有效应对业务需求的变化带来的数据处理规则变化,是软件公司和客户急于解决的问题。目前实现数据抽取转换的方式有很多,如直接写脚本处理数据、ETL软件产品,但无论是写脚本还是ETL产品,都无法避免需要专业技术人员进行数据加载与维护,对业务需求的变更不能及时响应,并且对技术人员要求非常高,不但要懂技术同时需要对业务很熟。因此,需要一套比较科学的方法及方法帮助软件公司及客户适应快速变化的需求,快速的完成数据抽取处理,实现业务人员(客户)自行加载业务、自行维护需求,提高技术对业务变化的响应能力。传统数据抽取处理方法几乎都是面向技术人员使用,业务人员提出需求,技术人员理解需求后做相应的数据抽取处理。技术人员需要既·懂业务有懂技术,对技术人员要求比较高,且对于需求的变动不能及时做出反映。通用的数据抽取处理方法实现了与行业(业务)的无关性,其重点转向了对业务需求变化的管理,其系统功能的关注重点也随之转向了提供支持业务变化的服务,通过这些方法提供的功能,加载和实现各类业务的处理和加工。实现业务人员(客户)自行加载业务、自行维护需求,提高技术对业务变化的响应能力。

发明内容
本发明的目的是提供一种通用的适合非技术人员使用的数据抽取转换方法。根据目前数据应用领域的应用规模及应用内容分析,随着信息技术不断的发展,将来的数据应用会不断的增加,因此技术架构必须重点考虑整个系统的跨平台性、安全性、可靠性、灵活性、稳定性及易管理性,同时技术架构应该有非常好的可扩展能力,并符合整个项目的建设原则和技术要求。本发明是按以下方式实现的,通过分析各类数据抽取处理加载及调度方法,总结出数据抽取处理的公共特征,采用数据结构、抽取规则、抽取计划分别进行定义管理的方式,进行源表数据字典定义、目标表结构设置、抽取规则设置、抽取计划设置,其中,
数据字典定义定义源数据所在的数据库信息、表信息、字段信息、表及字段的业务含义各元数据信息;
目标表结构设置用来定义数据抽取处理后的结果表,包括基本信息、索引信息、表及字段的业务含义各元数据信息;
抽取规则设置使用拖拽方式实现抽取规则,其中需要用到的源表信息、目标表信息、规则信息均用业务语言描述,抽取规则设置内容包括查询组件、修改组件、删除组件、扩展组件、血缘分析;引导抽取规则设置包括以下内容1)新建规则信息,设置内容包括抽取类型、规则名称、规则描述、规则备注;
2)参数维护,维护整个规则的参数,定义的参数,在所有组件中都能使用,参数内容包括参数名称、显示名称、参数描述、参数值类型、参数长度、备注;
3)抽取规则组件定义,根据业务需求逻辑规则,选择并定义多个抽取组件,组件信息包括组件类型、组件名称、组件描述、是否已校验、是否使用、备注;
4)规则校验,定义完成抽取规则组件后,验证规则的正确性,优化提示;
抽取计划设置抽取计划分为手动和自动抽取计划,自动抽取可自定义抽取频率,满足通常用到的各种抽取计划;
以上抽取转换过程都是通过二维关系表方式来存储,采用本地元数据管理方式,将业务加载过程中的字典、结构、规则、计划内容沉淀为元数据,每一步的元数据为下一步提供信息支撑,具体步骤如下
1)准备数据库环境
在数据库中创建I个表空间和用户,如下表 _
权利要求
1.一种通用的数据抽取转换方法,其特征在于通过分析各类数据抽取处理加载及调度方法,总结出数据抽取处理的公共特征,采用数据结构、抽取规则、抽取计划分别进行定义管理的方式,进行源表数据字典定义、目标表结构设置、抽取规则设置、抽取计划设置,其中, 数据字典定义定义源数据所在的数据库信息、表信息、字段信息、表及字段的业务含义各元数据信息; 目标表结构设置用来定义数据抽取处理后的结果表,包括基本信息、索引信息、表及字段的业务含义各元数据信息; 抽取规则设置使用拖拽方式实现抽取规则,其中需要用到的源表信息、目标表信息、规则信息均用业务语言描述,抽取规则设置内容包括查询组件、修改组件、删除组件、扩展组件、血缘分析;引导抽取规则设置包括以下内容 1)新建规则信息,设置内容包括抽取类型、规则名称、规则描述、规则备注; 2)参数维护,维护整个规则的参数,定义的参数,在所有组件中都能使用,参数内容包括参数名称、显示名称、参数描述、参数值类型、参数长度、备注; 3)抽取规则组件定义,根据业务需求逻辑规则,选择并定义多个抽取组件,组件信息包括组件类型、组件名称、组件描述、是否已校验、是否使用、备注; 4)规则校验,定义完成抽取规则组件后,验证规则的正确性,优化提示; 抽取计划设置抽取计划分为手动和自动抽取计划,自动抽取可自定义抽取频率,满足通常用到的各种抽取计划; 以上抽取转换过程都是通过二维关系表方式来存储,采用本地元数据管理方式,将业务加载过程中的字典、结构、规则、计划内容沉淀为元数据,每一步的元数据为下一步提供信息支撑,具体步骤如下 1)准备数据库环境 在数据库中创建I个表空间和用户,如下表
全文摘要
本发明提供一种通用的数据抽取转换方法,通过分析各类数据抽取处理规则及调度方法,总结出数据抽取处理的公共特征,然后,采用数据结构、抽取规则、抽取计划分别进行定义管理、源表数据字典定义、目标表结构设置、抽取规则设置、抽取计划设置,每类都可以灵活的设置相应的参数,用二维关系表记录数据结构、抽取规则、计划的信息,并作为元数据信息供其他服务或接口使用,提供数据全过程的血缘分析,用户界面采用具有业务含义的中文信息展现给使用者,采用业务与技术的低耦合,减少使用者对专业技术人员的依赖,满足业务人员在简单了解数据库知识的情况下,做出符合需求的复杂业务逻辑数据处理。
文档编号G06F17/30GK102902750SQ20121034960
公开日2013年1月30日 申请日期2012年9月20日 优先权日2012年9月20日
发明者周秀强, 崔永生, 吕亚伟, 曹苗苗 申请人:浪潮齐鲁软件产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1