一种基于数据建模及实现数据增量的数据抽取工具的制作方法

文档序号:11919062阅读:223来源:国知局

本发明涉及数据建模和信息采集技术领域,特别涉及一种基于数据建模及实现数据增量的数据抽取工具。



背景技术:

由于纳税人办理纳税业务每日产生的大量业务数据,使得源业务表数据量越来越大,服务器压力越来越大,查询速度越来越慢。

数据同步有两种方式:一种是增量的同步,另一种是全量的同步。两种方式各个各的好处,也各自的问题:

(1)增量同步,主要是在原来数据的基础上利用自增量字段进行数据抽取,如果源表数据修改,很容易造成数据的不一致;

(2)全量同步一般不会造成数据的不一致情况,但随着数据量的增加,全量数据到最后往往会非常庞大,造成数据抽取缓慢。

基于上述问题,本发明提出了一种基于数据建模及实现数据增量的数据抽取工具。在优化查询效率和减少服务器压力的前提下,根据业务需求分类建立数据模型并定制抽取计划,既减轻了服务器压力,也及时完成数据更新,确保了业务数据的时效性。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于数据建模及实现数据增量的数据抽取工具。

本发明是通过如下技术方案实现的:

一种基于数据建模及实现数据增量的数据抽取工具,其特征在于,其应用包括以下步骤:

(1)创建数据结构,数据结构包括表基本信息、字段信息和索引信息;

(2)创建抽取规则,抽取方式包括增量抽取和全量抽取,抽取规则组件包括查询组件,更新组件,删除组件和扩展组件,建立源表与目标表的对应关系;

(3)定制抽取计划,定制调度时间、频率、周期;

(4)调度管理,分析数据模版使用的组件和数据形成规则,并最终生成说明文档。

所述步骤(1)中,数据结构是执行抽取规则和抽取计划的基础,系统会根据数据结构生成数据模版;其基本信息包括表名、表显示名称、是否建表等字段的维护;其字段信息包括字段名称、字段显示名称、主键标志、是否为空、序号等字段的维护;其索引信息是针对数据模版表建立索引字段,优化查询效率。

所述步骤(2)中,抽取规则是实现数据模版增量抽取的核心;所述查询组件用于执行数据查询插入操作;所述更新组件用于源表和数据模版效验;所述删除组件用于全量抽取,为了防止数据重复,在执行查询插入数据前先执行清空表数据操作;所述扩展组件用于自定义编辑存储过程。

所述步骤(4)中,调度管理包括血统分析和建立数据文档;所述血统分析是指分析数据模版使用的组件,并图形化展示抽取类型;所述建立数据文档是指分析数据形成规则,并最终生成一份说明文档。

所述基于数据建模及实现数据增量的数据抽取工具,实行三种增量方式:

(1)数据表中设置时间戳time,当数据表中的任何一个字段变化时,更新时间戳time;

(2)根据数据表的自增量字段fintime执行操作;

(3)利用抽取规则的更新组件,将源表与目标表进行对比,根据验证源表执行操作。

当数据表记录数增长不大,但是记录内容修改频繁时,应用增量方式(1);所述增量方式(1)增量访问的SQL语句为select 字段名1,字段名2 from 表名 where time >='上次访问记录里最后的时间'。

所述增量方式(2)增量访问的SQL语句为select 字段名1,字段名2 from 表名 where fintime>上次访问的fintime。

所述增量方式(3)中,将源表与目标表进行对比,当主键数据一致时跳过;当主键数据不一致时执行UPDATE操作;当主键不存在时执行INSERT操作。

本发明的有益效果是:该基于数据建模及实现数据增量的数据抽取工具,分类定制数据模版,并根据源表数据量选择合理的抽取方式,提高了数据模版的执行效率,且无论使用增量或者全量方式都能确保数据的一致性,既优化了查询效率,又确保了业务数据的时效性。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

该基于数据建模及实现数据增量的数据抽取工具,其应用包括以下步骤:

(1)创建数据结构,数据结构包括表基本信息、字段信息和索引信息;

(2)创建抽取规则,抽取方式包括增量抽取和全量抽取,抽取规则组件包括查询组件,更新组件,删除组件和扩展组件,建立源表与目标表的对应关系;

(3)定制抽取计划,定制调度时间、频率、周期;

(4)调度管理,分析数据模版使用的组件和数据形成规则,并最终生成说明文档。

所述步骤(1)中,数据结构是执行抽取规则和抽取计划的基础,系统会根据数据结构生成数据模版;其基本信息包括表名、表显示名称、是否建表等字段的维护;其字段信息包括字段名称、字段显示名称、主键标志、是否为空、序号等字段的维护;其索引信息是针对数据模版表建立索引字段,优化查询效率。

数据模版是依据用户需求,设计数据模型,并根据数据模型,进行合理建表、建立源表与目标表的对应关系,根据定制的抽取规则和计划实现自动(或手动)抽取数据。

建立数据模版有两方面好处:一方面利于主题类信息查询。建立数据模版后查询直接从数据模版中查询即可,不需要每次都从多个源表中进行汇总统计;另一方面提高了查询效率,减少了服务器压力。部分查询由于数据量大,每次都从多张源表中关联统计查询,往往效率很慢,而且对服务器的压力也很大。而建立数据模版后,就可以直接从模型中查询,提高了查询效率和减缓服务器压力。

所述步骤(2)中,抽取规则是实现数据模版增量抽取的核心;所述查询组件用于执行数据查询插入操作;所述更新组件用于源表和数据模版效验;所述删除组件用于全量抽取,为了防止数据重复,在执行查询插入数据前先执行清空表数据操作;所述扩展组件用于自定义编辑存储过程。

所述步骤(4)中,调度管理包括血统分析和建立数据文档;所述血统分析是指分析数据模版使用的组件,并图形化展示抽取类型;所述建立数据文档是指分析数据形成规则,并最终生成一份说明文档。

所述基于数据建模及实现数据增量的数据抽取工具,实行三种增量方式:

(1)数据表中设置时间戳time,当数据表中的任何一个字段变化时,更新时间戳time;

(2)根据数据表的自增量字段fintime执行操作;

(3)利用抽取规则的更新组件,将源表与目标表进行对比,根据验证源表执行操作。

当数据表记录数增长不大,但是记录内容修改频繁时,应用增量方式(1);所述增量方式(1)增量访问的SQL语句为select 字段名1,字段名2 from 表名 where time >='上次访问记录里最后的时间'。

所述增量方式(2)增量访问的SQL语句为select 字段名1,字段名2 from 表名 where fintime>上次访问的fintime。

所述增量方式(3)中,将源表与目标表进行对比,当主键数据一致时跳过;当主键数据不一致时执行UPDATE操作;当主键不存在时执行INSERT操作。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1