基于数据虚拟化的智能数据集成方法及系统与流程

文档序号:37656881发布日期:2024-04-18 20:30阅读:9来源:国知局
基于数据虚拟化的智能数据集成方法及系统与流程

本发明涉及计算机,特别是涉及基于数据虚拟化的智能数据集成方法及系统。


背景技术:

1、(extract-transform-load,etl)是数据价值化过程中非常重要的一环,是承前启后的必要的一步。etl负责将各种异构数据源中的数据如关系数据、平面数据文件等抽取到临时的中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

2、对于企业日常的数据开发需求,传统的数据开发流程是:1.需求沟通:领导需求下达至业务人员,业务人员与数据相关工程师(如数据分析师、开发工程师、dba等)反复沟通业务目标,确定数据计算规则与流转流程;2.提取:从多个异构数据源中提取数据,包括关系数据库、文件、web api等。3.转换:按照事先设计的开发流程,对提取的数据进行转换和清洗,例如合并、分割、过滤、转换数据类型等,设计一系列中间表及业务目标宽表结构并保存数据。4.加载:将转换形成的最后目标宽表数据加载到目标系统中,例如数据仓库、数据湖、商业智能系统等。5.可视化:将数据以图形化、报表等方式展示到前端界面,供查询、查看。

3、现有技术中存在的问题是:第一方面,由于数据开发前,技术人员必须明确业务目标,并梳理完数据及数据开发流程,因此需要和业务人员反复沟通业务需求,因此,难以快速的理解业务需求并转化为数据需求。第二方面,由于现有技术中通常需要先将不同数据源中所需数据复制到同一数据源,数据复制需消耗大量时间,同时数据开发过程的中间表数据也需要存储,使得整个数据开发链路无法快速查询。第三方面,在第二方面的基础上,3.当数据链路、数据源、目标表字段等发生变动时,需要重新设计数据开发方案,所有操作均需要重新进行,包括数据复制、中间表结构设计、sql等。因此,如何帮助技术人员简单快速的确定数据需求,使数据开发方案的确定过程更加简单、智能和灵活是目前亟待解决的问题。


技术实现思路

1、本发明提供一种基于数据虚拟化的智能数据集成方法及系统,用以解决现有技术中技术人员难以简单快速的确定数据需求,数据发生修改时,需要重新设计数据开发方案的问题,实现帮助技术人员简单快速的确定数据需求,使数据开发方案的确定过程更加简单、智能和灵活。

2、一种基于数据虚拟化的智能数据集成方法,所述方法包括:对目标业务宽表进行业务解析,确定并向用户展示目标业务宽表对应的多层级虚拟表;其中,每层级虚拟表可编辑,每层级虚拟表中每个虚拟表包含数据源的数据表的业务主题字段,且所述业务主题字段可编辑;针对每个虚拟表,响应于用户对虚拟表的绑定操作,基于预确定的视图,确定并向用户展示与虚拟表关联的数据源中数据表的表头字段;其中,所述预确定的视图包含虚拟表对应的逻辑表,所述虚拟表对应的逻辑表用于保存虚拟表对应的元数据,包括与虚拟表关联的数据源中数据表的表头字段;针对每个虚拟表,响应于用户对所述与虚拟表关联的数据源中数据表的表头字段的选择操作,确定与虚拟表关联的数据源中数据表的表头字段。

3、在其中一个实施例中,在对目标业务宽表进行业务解析,确定并向用户展示目标业务宽表对应的多层级虚拟表之前,所述方法还包括:响应于用户的配置操作,通过数据源连接器,更新数据库中各数据表对应的视图;其中,各数据表对应的视图中包括各数据表对应的虚拟表、逻辑表,以及虚拟表与逻辑表之间的映射关系;所述各数据表对应的虚拟表表示各数据表对应的业务主题标签图谱,逻辑表表示业务主题标签图谱中各业务主题标签在数据表中的元数据信息;所述虚拟表与逻辑表之间的映射关系为业务主题标签图谱中各业务主题标签与数据表中的元数据信息的映射关系。

4、在其中一个实施例中,所述对目标业务宽表进行业务解析,确定并向用户展示目标业务宽表对应的多层级虚拟表,包括:在确定视图中包含目标业务字段对应的业务主题标签图谱的情况下,基于视图中目标业务字段对应的业务主题标签图谱,确定目标业务字段对应的业务主题标签图谱;基于各目标业务字段对应的业务主题标签图谱,确定并向用户展示目标业务宽表对应的多层级虚拟表及目标业务宽表与多层级虚拟表之间的关联关系;所述目标业务字段为目标业务宽表的任一个业务字段;或,在确定视图中不包含目标业务字段对应的业务主题标签图谱的情况下,确定并向用户展示目标业务宽表对应的多层级虚拟表。

5、在其中一个实施例中,在向用户展示目标业务宽表对应的多层级虚拟表之后,所述方法还包括:响应于用户对所述目标业务宽表以及虚拟表的编辑操作,更新目标业务宽表与多层级虚拟表之间的关联关系。

6、在其中一个实施例中,所述响应于用户对所述目标业务宽表以及虚拟表的编辑操作,更新目标业务宽表与多层级虚拟表之间的关联关系,包括:响应于用户对所述目标业务宽表的第一关联操作,确定目标业务宽表与多层级虚拟表的第一直接关联关系;或,响应于用户对所述多层级虚拟表中各虚拟表的第二关联操作,确定多层级虚拟表中各虚拟表之间的第二直接关联关系;或,响应于用户对目标层级虚拟表的新增或删除操作,更新目标层级虚拟表;所述目标层级虚拟表为多层级虚拟表中的至少一层;或,响应于用户对目标虚拟表的业务主题字段的编辑操作,更新目标虚拟表的业务主题字段;所述目标虚拟表为多层级虚拟表中的至少一个。

7、在其中一个实施例中,在所述确定与虚拟表关联的数据源中数据表的表头字段之后,所述方法还包括:响应于用户的确定操作,基于所述多层虚拟表、第一直接关联关系和第二直接关联关系,以及与虚拟表关联的数据源中数据表的表头字段,生成目标业务宽表对应的实例。

8、在其中一个实施例中,所述响应于用户的配置操作,通过数据源连接器,更新数据库中各数据表对应的视图,包括:响应于用户的配置操作,通过数据源连接器,获取数据库下的数据表及元数据信息,以及数据表中的表头字段及元数据信息;针对每个数据表,基于数据表及对应的第一预设业务主题标签确定算法,确定数据表对应的第一业务主题标签;并基于数据表中表头字段及对应的第二预设业务主题标签确定算法,确定数据表中的表头字段对应的第二业务主题标签;针对每个数据表,基于所述第一业务主题标签、第二业务主题标签,确定数据表的业务主题标签图谱;基于各数据表的业务主题标签图谱,确定数据库中各数据表对应的视图。

9、在其中一个实施例中,所述第一预设业务主题标签确定算法中包括预设的规则类算法、智能算法以及交互算法,所述基于数据表及其对应的第一预设业务主题标签确定算法,确定数据表对应的第一业务主题标签,包括:在确定数据表对应的第一预设业务主题标签确定算法中包含数据表的规则类算法的情况下,将数据表按照对应的规则类算法进行拆分,得到数据表的初始业务主题标签,并响应于用户对数据表的初始业务主题标签的修改或选择操作,得到数据表对应的第一业务主题标签;或,在确定数据表对应的第一预设业务主题标签确定算法中不包含数据表的规则类算法,但包含数据表的智能算法的情况下,将数据表按照数据表的智能算法进行拆分,得到数据表的初始业务主题标签,并响应于用户对数据表的初始业务主题标签的修改操作,得到数据表对应的第一业务主题标签;或,在确定数据表对应的第一预设业务主题标签确定算法中既不包含数据表的规则类算法,也不包含数据表的智能算法的情况下,响应于用户对数据表中的业务主题的拆分操作,得到数据表的第一业务主题标签。

10、本发明还提供一种基于数据虚拟化的智能数据集成系统,所述系统包括:连接器层、虚拟化服务层和输出层;所述连接器层中包括至少一个数据源连接器,用于连接相应的数据源;所述虚拟化服务层中包括视图管理模块、标签管理模块、算法模块和流程构建模块,其中,所述视图管理模块通过数据源连接器以及标签管理模块和算法模块确定数据库中各数据表对应的视图;所述标签管理模块用于基于算法模块,实现对数据表进行业务解析,确定数据表以及数据表中的表头字段的业务主题标签,并基于数据表以及数据表中的表头字段的业务主题标签确定各数据表对应的视图;所述流程构建模块用于基于视图管理模块、标签管理模块以及算法模块,将目标业务宽表解析为可编辑的多层级虚拟表,并基于多层级虚拟表与视图中已确定的虚拟表与逻辑表的映射关系,确定与目标业务宽表对应的数据源中数据表的数据;基于与用户的交互确定目标业务宽表对应的实例或视图;所述输出层,用于输出虚拟化服务层构建的目标业务宽表对应的实例或视图。

11、本发明还提供计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于数据虚拟化的智能数据集成方法的步骤。

12、本发明还提供存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于数据虚拟化的智能数据集成方法的步骤。

13、上述基于数据虚拟化的智能数据集成方法及系统,通过先对目标业务宽表进行解析,确定目标业务宽表对应的多层级虚拟表,并向用户展现多层级虚拟表,从而辅助技术人员快速根据业务需求确定数据需求,也无需对数据源的数据表进行复杂的中间处理过程。并且由于虚拟表为可编辑的,业务主题字段也是可编辑的,因此,即使后续数据源、数据表或者字段发生变化,方便后续技术人员通过灵活的调整,即可重新定位到目标业务宽表对应的数据的位置。此外,为了更加简单的基于虚拟表找到对应的数据源中数据表的数据,通过向用户展示虚拟表及与虚拟表关联的数据源中数据表的表头字段,使用户可以通过简单的操作即可定位连接到对应的数据,使数据开发方案的确定过程更加简单、智能和灵活。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1