基于数据空间的数据治理方法、系统及计算机设备与流程

文档序号:16668355发布日期:2019-01-18 23:24阅读:196来源:国知局
基于数据空间的数据治理方法、系统及计算机设备与流程

本发明涉及到大数据领域,特别是涉及到一种基于数据空间的数据治理方法、系统及计算机设备。



背景技术:

互操作性是指不同的计算机系统、网络、操作系统和应用程序一起工作并共享信息的能力,是决定信息系统从数据管理走向智能应用的关键基础。然而长久以来,大多数的系统都是在某些业务需求的基础上建立,没有从更大的全局考虑与其他系统的兼容,造成数据标准依据各异,业务口径不统一,数据一致性和可用性的矛盾突出。

数据治理的目标是使得数据可以跨系统互换和执行,现有的数据治理技术方法大多考虑通过基于数据标准的方法或者元数据管理系统,采取“至顶向下”的方式实现,即需要参与互操作的多方系统首先对元数据达成一致,最终实现不同系统对数据共同的理解。传统的数据治理方法随着参与互操作系统的增加,数据也在不断增加,难以在不同的系统之间达成数据标准及源数据的一致。



技术实现要素:

本发明的主要目的为提供一种基于数据空间的数据治理方法、系统及计算机设备,以解决上述背景技术中所提及的技术问题。

本发明提出一种基于数据空间的数据治理方法,包括步骤:

构建数据空间源数据层;

根据上述数据空间源数据层的数据和目标模型构建数据空间bi层;

根据上述构建数据空间bi层的数据、上述目标模型和上述数据空间源数据层的数据构建数据空间ai层;

根据上述数据空间ai层的数据为第三方应用提供对应的数据服务。

进一步地,在上述基于数据空间的数据治理方法中,上述根据上述数据空间源数据层的数据和目标模型构建数据空间bi层的步骤包括步骤:

根据上述第三方应用的业务类型和数据目标类型获取对应的上述目标模型;

根据上述数据空间源数据层的数据和上述目标模型构建上述数据空间bi层。

进一步地,在上述基于数据空间的数据治理方法中,上述根据上述构建数据空间bi层的数据、上述目标模型和上述数据空间源数据层的数据构建数据空间ai层的步骤包括步骤:

根据上述构建数据空间bi层的数据进行推理得到未知数据;

根据上述未知数据、上述数据空间源数据层的数据和上述目标模型构建上述数据空间ai层。

进一步地,在上述基于数据空间的数据治理方法中,上述构建数据空间源数据层的步骤之前,还包括步骤:

获取不同业务系统的原生数据,形成数据湖;

根据上述第三方应用的业务类型和数据目标类型对上述数据湖中的原生数据进行数据识别和清洗,得到源数据。

进一步地,在上述基于数据空间的数据治理方法中,上述构建数据空间源数据层的步骤包括步骤:

根据上述源数据形成主体数据仓库,并构建上述数据空间源数据层。

进一步地,在上述基于数据空间的数据治理方法中,在上述得到上述源数据的步骤之后,还包括步骤:

对上述源数据进行追踪,并根据上述源数据的来源信息对上述源数据进行等级评估。

本发明还提出一种基于数据空间的数据治理系统,包括:

源数据层构建模块,用于构建数据空间源数据层;

bi层构建模块,用于根据上述数据空间源数据层的数据和目标模型构建数据空间bi层;

ai层构建模块,用于根据上述构建数据空间bi层的数据、上述目标模型和上述数据空间源数据层的数据构建数据空间ai层;

api模块,用于根据上述数据空间ai层的数据为第三方应用提供对应的数据服务。

进一步地,上述基于数据空间的数据治理系统,还包括:

建模工具及模型库模块,用于根据上述第三方应用的业务类型和数据目标类型获取对应的上述目标模型;

查询与推理引擎模块,用于根据上述构建数据空间bi层的数据进行推理得到未知数据。

进一步地,上述基于数据空间的数据治理系统,还包括:

数据湖模块,用于获取不同业务系统的原生数据,形成数据湖;

识别和清洗模块,用于根据上述第三方应用的业务类型和数据目标类型对上述数据湖中的原生数据进行数据识别和清洗,得到源数据;

数据血缘追踪模块,对上述源数据进行追踪,并根据上述源数据的来源信息对上述源数据进行等级评估。

本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,上述处理器执行上述程序时实现如实施例中任意一项所述的方法。

本发明的基于数据空间的数据治理方法、系统及计算机设备的有益效果为:通过构建数据空间源数据层、数据空间bi层和数据空间ai层,形成一个具有抽象层次的空间,使在更多的系统互操作或者更大的业务出现时,可从深度、广度和时间维度进行扩展并满足数据服务的需求;且在数据空间源数据层和数据空间bi层的数据的基础上完善数据空间ai层的数据,发现并推理出更深层次的数据,从而从数据中蕴藏的已知知识推理出未知知识。

附图说明

图1是本发明一实施例的基于数据空间的数据治理方法的流程示意图;

图2是本发明一实施例的基于数据空间的数据治理方法的流程示意图;

图3是本发明一实施例的基于数据空间的数据治理方法的流程示意图;

图4是本发明一实施例的基于数据空间的数据治理方法的流程示意图;

图5是本发明一实施例的基于数据空间的数据治理方法的流程示意图;

图6是本发明一实施例的基于数据空间的数据治理方法的流程示意图;

图7是本发明一实施例的基于数据空间的数据治理系统的结构示意图;

图8是本发明一实施例的一种计算机设备的结构示意图。

1、源数据层构建模块;2、bi层构建模块;3、ai层构建模块;4、api模块;5、建模工具及模型库模块;6、查询与推理引擎模块;7、数据湖模块;8、识别和清洗模块;9、数据血缘追踪模块;10、计算机设备;11、外部设备;12、处理单元;13、总线;14、网络适配器;15、(i/o)接口;16、显示器;17、系统存储器;18、随机存取存储器(ram);19、高速缓存存储器;20、存储系统;21、程序/实用工具;22、程序模块。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

参照图1,在本发明实施例中,本发明提出一种基于数据空间的数据治理方法,包括步骤:

s1、构建数据空间源数据层;

s2、根据上述数据空间源数据层的数据和目标模型构建数据空间bi层;

s3、根据上述构建数据空间bi层的数据、上述目标模型和上述数据空间源数据层的数据构建数据空间ai层;

s4、根据上述数据空间ai层的数据为第三方应用提供对应的数据服务。

如上述步骤s1,构建数据空间源数据层,从不同类型的业务系统提取出不同的数据,并对数据进行整合处理,从而构建出上述数据空间源数据层,其中,上述数据空间源数据层是基于apachehadoop、mysql、mangodb等数据库。

如上述步骤s2,根据上述数据空间源数据层的数据和目标模型构建数据空间bi层,利用不同类型的数据构建上述数据空间bi层时,上述目标模型也不同,从而构建出能够对应处理上述数据空间源数据层的数据的上述数据空间bi层,其中,上述目标模型的算法一般包括:线性回归、聚类、分类、时间系列、决策树、神经中枢法、非正常检测、关联性、因素分析、文本挖掘、支持向量机、序列挖掘、朴素贝叶斯、随机森林或tensorflow。

如上述步骤s3,根据上述构建数据空间bi层的数据、上述目标模型和上述数据空间源数据层的数据构建数据空间ai层,从而在上述数据空间bi层的数据的基础上完善上述数据空间ai层的数据,发现并推理出更深层次的数据,从而从数据中蕴藏的已知知识推理出未知知识,上述数据空间源数据层、上述数据空间bi层和上述数据空间ai层组合形成一个具有抽象层次的空间,使在更多的系统互操作或者更大的业务出现时,可从深度、广度和时间维度进行扩展并满足数据服务的需求。

如上述步骤s4,根据上述数据空间ai层的数据为第三方应用提供对应的数据服务,使上述第三方应用可以利用上述数据空间源数据层、上述数据空间bi层和上述数据空间ai层实现数据治理,上述第三方应用可以基于上述数据空间源数据层、上述数据空间bi层和上述数据空间ai层的数据构建满足更多应用场景的业务服务。

参照图2,在本实施例中,上述根据上述数据空间源数据层的上述源数据和目标模型构建数据空间bi层的步骤包括步骤:

s5、根据上述第三方应用的业务类型和数据目标类型获取对应的上述目标模型;

s6、根据上述数据空间源数据层的数据和上述目标模型构建上述数据空间bi层。

如上述步骤s5,根据上述第三方应用的业务类型和数据目标类型获取对应的上述目标模型,按照不同的业务类型构建对应用于提取与计算的上述目标模型,并且上述数据空间源数据层的数据的类型与上述第三方应用的业务类型和数据目标类型相对应,其中,上述目标模型的算法一般包括:线性回归、聚类、分类、时间系列、决策树、神经中枢法、非正常检测、关联性、因素分析、文本挖掘、支持向量机、序列挖掘、朴素贝叶斯、随机森林或tensorflow。

如上述步骤s6,根据上述数据空间源数据层的数据和上述目标模型构建上述数据空间bi层,从而构建出能够对应处理上述数据空间源数据层的数据的上述数据空间bi层。

参照图3,在本实施例中,上述根据上述构建数据空间bi层的数据和上述目标模型构建数据空间ai层的步骤包括步骤:

s7、根据上述构建数据空间bi层的数据进行推理得到未知数据,;

s8、根据上述未知数据、上述数据空间源数据层的数据和上述目标模型构建上述数据空间ai层。

如上述步骤s7,根据上述构建数据空间bi层的数据进行推理得到未知数据,从而根据上述数据空间源数据层和上述数据空间bi层的关系推理出上述未知数据,其中,上述未知数据包括定性数据和定量数据。

如上述步骤s8,根据上述未知数据、上述数据空间源数据层的数据和上述目标模型构建上述数据空间ai层,从而根据上述未知数据而在上述数据空间bi层的数据的基础上完善上述数据空间ai层的数据,发现并推理出更深层次的数据,从而从数据中蕴藏的已知知识推理出未知知识,其中,上述目标模型的算法一般包括:线性回归、聚类、分类、时间系列、决策树、神经中枢法、非正常检测、关联性、因素分析、文本挖掘、支持向量机、序列挖掘、朴素贝叶斯、随机森林或tensorflow。

参照图4,在本实施例中,上述构建数据空间源数据层的步骤之前,还包括步骤:

s9、获取不同业务系统的原生数据,形成数据湖;

s10、根据上述第三方应用的业务类型和数据目标类型对上述数据湖中的原生数据进行数据识别和清洗,得到源数据。

如上述步骤s9,获取不同业务系统的原生数据,形成数据湖,利用数据抽取工具,从不同的业务系统中直接抽取上述原生数据,并汇聚在上述数据湖中,其中,在上述数据湖中的数据是上述原始数据的实时或近实时镜像。

如上述步骤s10,根据上述第三方应用的业务类型和数据目标类型对上述数据湖中的原生数据进行数据识别和清洗,得到源数据,其中,上述数据湖中的原生数据是基于kafka、sqoop等工具实现从不同业务系统中获得,而上述源数据是利用etl等方法对上述数据湖中的原始数据进行数据的识别和清洗获得。

参照图5,在本实施例中,上述构建数据空间源数据层的步骤包括步骤:

s11、根据上述源数据形成主体数据仓库,并构建上述数据空间源数据层。

如上述步骤s11,根据上述源数据形成主体数据仓库,并构建上述数据空间源数据层,从不同类型的业务系统提取出不同的源数据,并根据上述源数据进行整合形成上述主体数据仓库,从而形成不同层次和类型的上述主体数据仓库,从而构建出上述数据空间源数据层,其中,上述数据空间源数据层基于apachehadoop、mysql、mangodb等数据库。

参照图6,在本实施例中,在上述得到上述源数据的步骤之后,还包括步骤:

s12、对上述源数据进行追踪,并根据上述源数据的来源信息对上述源数据进行等级评估。

如上述步骤s12,对上述源数据进行追踪,并根据上述源数据的来源信息对上述源数据进行等级评估,不同级别的上述源数据的可行性度存在差异,上述源数据来源越接近源头数据,上述源数据的等级越高,且可信度也越高。

参照图1-6,在本实施例中,基于数据空间的数据治理方法,包括步骤:

s9、获取不同业务系统的原生数据,形成数据湖;

s10、根据上述第三方应用的业务类型和数据目标类型对上述数据湖中的原生数据进行数据识别和清洗,得到上述源数据;

s12、对上述源数据进行追踪,并根据上述源数据的来源信息对上述源数据进行等级评估;

s11、根据上述源数据构建数据空间源数据层;

s5、根据上述第三方应用的业务类型和数据目标类型获取对应的上述目标模型;

s6、根据上述源数据和上述目标模型构建上述数据空间bi层;

s7、根据上述构建数据空间bi层的数据进行推理得到未知数据;

s8、根据上述未知数据、上述源数据和上述目标模型构建上述数据空间ai层;

s4、根据上述数据空间ai层的数据为第三方应用提供对应的数据服务。

参照图7,本发明还提出一种基于数据空间的数据治理系统,包括:

源数据层构建模块1,用于构建数据空间源数据层,从不同类型的业务系统提取出不同的数据,并对数据进行整合处理,从而构建出上述数据空间源数据层,其中,上述数据空间源数据层是基于apachehadoop、mysql、mangodb等数据库;

bi层构建模块2,用于根据上述数据空间源数据层的数据和目标模型构建数据空间bi层,利用不同类型的数据构建上述数据空间bi层时,上述目标模型也不同,从而构建出能够对应处理上述数据空间源数据层的数据的上述数据空间bi层,其中,上述目标模型的算法一般包括:线性回归、聚类、分类、时间系列、决策树、神经中枢法、非正常检测、关联性、因素分析、文本挖掘、支持向量机、序列挖掘、朴素贝叶斯、随机森林或tensorflow;

ai层构建模块3,用于根据上述构建数据空间bi层的数据、上述目标模型和上述数据空间源数据层的数据构建数据空间ai层,从而在上述数据空间bi层的数据的基础上完善上述数据空间ai层的数据,发现并推理出更深层次的数据,从而从数据中蕴藏的已知知识推理出未知知识,上述数据空间源数据层、上述数据空间bi层和上述数据空间ai层组合形成一个具有抽象层次的空间,使在更多的系统互操作或者更大的业务出现时,可从深度、广度和时间维度进行扩展并满足数据服务的需求;

api模块4,用于根据上述数据空间ai层的数据为第三方应用提供对应的数据服务,使上述第三方应用可以利用上述数据空间源数据层、上述数据空间bi层和上述数据空间ai层实现数据治理,上述第三方应用可以基于上述数据空间源数据层、上述数据空间bi层和上述数据空间ai层的数据构建满足更多应用场景的业务服务。

在本实施例中,还包括:

建模工具及模型库模块5,用于根据上述第三方应用的业务类型和数据目标类型获取对应的上述目标模型,按照不同的业务类型构建对应用于提取与计算的上述目标模型,并且上述数据空间源数据层的数据的类型与上述第三方应用的业务类型和数据目标类型相对应,其中,上述目标模型的算法一般包括:线性回归、聚类、分类、时间系列、决策树、神经中枢法、非正常检测、关联性、因素分析、文本挖掘、支持向量机、序列挖掘、朴素贝叶斯、随机森林或tensorflow;

查询与推理引擎模块6,用于根据上述构建数据空间bi层的数据进行推理得到未知数据,从而根据上述数据空间源数据层和上述数据空间bi层的关系推理出上述未知数据,其中,上述未知数据包括定性数据和定量数据。

在本实施例中,还包括:

数据湖模块7,用于获取不同业务系统的原生数据,形成数据湖,利用数据抽取工具,从不同的业务系统中直接抽取上述原生数据,并汇聚在上述数据湖中,其中,在上述数据湖中的数据是上述原始数据的实时或近实时镜像;

识别和清洗模块8,用于根据上述第三方应用的业务类型和数据目标类型对上述数据湖中的原生数据进行数据识别和清洗,得到源数据,其中,上述数据湖中的原生数据是基于kafka、sqoop等工具实现从不同业务系统中获得,而上述源数据是利用etl等方法对上述数据湖中的原始数据进行数据的识别和清洗获得;

数据血缘追踪模块9,对上述源数据进行追踪,并根据上述源数据的来源信息对上述源数据进行等级评估,不同级别的上述源数据的可行性度存在差异,上述源数据来源越接近源头数据,上述源数据的等级越高,且可信度也越高。

在本实施例中,还包括:

次bi层构建模块,用于根据上述数据空间源数据层的数据和上述目标模型构建上述数据空间bi层,从而构建出能够对应处理上述数据空间源数据层的数据的上述数据空间bi层;

次ai层构建模块,用于根据上述未知数据、上述数据空间源数据层的数据和上述目标模型构建上述数据空间ai层,从而根据上述未知数据而在上述数据空间bi层的数据的基础上完善上述数据空间ai层的数据,发现并推理出更深层次的数据,从而从数据中蕴藏的已知知识推理出未知知识,其中,上述目标模型的算法一般包括:线性回归、聚类、分类、时间系列、决策树、神经中枢法、非正常检测、关联性、因素分析、文本挖掘、支持向量机、序列挖掘、朴素贝叶斯、随机森林或tensorflow;

主体数据仓库模块,用于根据上述源数据形成主体数据仓库,并构建上述数据空间源数据层,从不同类型的业务系统提取出不同的源数据,并根据上述源数据进行整合形成上述主体数据仓库,从而形成不同层次和类型的上述主体数据仓库,从而构建出上述数据空间源数据层,其中,上述数据空间源数据层基于apachehadoop、mysql、mangodb等数据库;

数据质量监测工具模块,用于监测采集到的数据的质量,一旦监测到上述数据的质量发生变化,就提前给予警示。

数据安全保护工具,用于对涉及秘密或隐私的数据进行加密等脱敏保护,制作安全的数据副本或设置数据访问权限。

参照图8,在本发明实施例中,本发明还提供一种计算机设备,上述计算机设备10以通用计算设备的形式表现,计算机设备10的组件可以包括但不限于:一个或者多个处理器或者处理单元10,系统存储器17,连接不同系统组件(包括系统存储器17和处理单元12)的总线13;

总线13表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机设备10典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备10访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器17可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)18和/或高速缓存存储器19。计算机设备10可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统20可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd~rom,dvd~rom或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线13相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块22,这些程序模块22被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块22的程序/实用工具21,可以存储在例如存储器中,这样的程序模块22包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块22通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备10也可以与一个或多个外部设备11(例如键盘、指向设备、显示器16、摄像头等)通信,还可与一个或者多个使得用户能与该计算机设备10交互的设备通信,和/或与使得该计算机设备10能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口15进行。并且,计算机设备10还可以通过网络适配器14与一个或者多个网络(例如局域网(lan)),广域网(wan)和/或公共网络(例如因特网)通信。如图所示,网络适配器14通过总线13与计算机设备10的其他模块通信。应当明白,尽管图8中未示出,可以结合计算机设备10使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元12通过运行存储在系统存储器17中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于数据空间的数据治理方法。

也即,上述处理单元12执行上述程序时实现:构建数据空间源数据层,并根据上述数据空间源数据层的数据和目标模型构建数据空间bi层,再根据上述构建数据空间bi层的数据、上述目标模型和上述数据空间源数据层的数据构建数据空间ai层,并且,根据上述数据空间ai层的数据为第三方应用提供对应的数据服务。

本发明的基于数据空间的数据治理方法、系统及计算机设备的有益效果为:通过构建上述数据空间源数据层、上述数据空间bi层和上述数据空间ai层,形成一个具有抽象层次的空间,使在更多的系统互操作或者更大的业务出现时,可从深度、广度和时间维度进行扩展并满足数据服务的需求;且在上述数据空间源数据层和上述数据空间bi层的数据的基础上完善上述数据空间ai层的数据,发现并推理出更深层次的数据,从而从数据中蕴藏的已知知识推理出未知知识。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1