基于元数据图结构相似性的多业务关联性分析方法及装置与流程

文档序号:11276340阅读:297来源:国知局
基于元数据图结构相似性的多业务关联性分析方法及装置与流程

本发明涉及关联性分析技术,尤其涉及一种基于元数据图结构相似性的多业务关联性分析方法及装置。



背景技术:

元数据是指描述数据的数据,主要描述领域的概念、关系、规则、语义等。元数据是管理海量数据系统(例如:数据仓库、数据集市、hadoop大数据平台等)的有效途径,它能够为访问数据提供清晰完整的目录,使用户能够从整体清楚地了解数据,指导用户高效地使用数据。

采用现有技术,基于元数据进行关联性分析时,主要存在着如下的缺陷:

一,元数据的一条关系链路是从头到尾有直接引用关系或直接数据流向关系的一个业务流程,而一般情况下企业的多个业务之间还存在着许多间接的联系,但是现有的元数据系统没有方法确定多个业务之间的关键联系枢纽点,所以当一个业务口径发生变化时无法直观地评估这个业务对其他业务的影响,只能采用人工回溯的方法查找每个元数据对象对业务流程的影响。

二,现有的元数据关联性分析只是粗略的比较两个关系链路中重合的元数据对象的个数,而事实上不同的业务常使用元数据对象的不同属性并且逻辑流程关系也往往不同,因此,没有考虑元数据对象属性信息和逻辑关系的关联性分析的结果经常缺乏准确性。

三,目前对业务进行分类主要依靠业务人员凭借经验进行手工分类,在数据量较小时可以勉强处理,但是在海量复杂的大数据面前,人工分类就明显有些力不从心,而现有的元数据应用系统缺少辅助分类的方法和机制。



技术实现要素:

有鉴于此,本发明实施例希望提供一种基于元数据图结构相似性的多业务关联性分析方法及装置,至少解决了现有技术存在的问题。

本发明实施例的技术方案是这样实现的:

本发明实施例的一种基于元数据图结构相似性的多业务关联性分析方法,所述方法包括:

从多个业务中获取元数据后,建立元数据对象的关系图;

判断所述元数据对象的关系图中同一元模型是否存在共同的元数据对象及元数据对象属性,如果存在,则根据所述元数据对象的关系图中结构的顶点及顶点属性以及边的相似性,得到元数据图的结构相似性;

基于所述元数据图的结构相似性,来确定多个业务之间的关联关系。

上述方案中,所述从多个业务中获取元数据后,建立元数据对象的关系图,包括:

按照不同的粒度将所述元数据划分为多个类,每一类分别建立的描述模型为所述元模型;

由所述元模型的实例或实体构成所述元数据对象;

根据所述元数据对象之间的引用或数据流向关系建立元数据关系,并以元数据对象为顶点,元数据对象之间的关系为边,建立元数据对象的有向图,将所述元数据对象的有向图作为所述元数据对象的关系图。

上述方案中,所述方法还包括:

每个业务涉及的资源对象和所述资源对象之间的关系皆支持使用所述元数据对象的有向图进行表示。

上述方案中,所述根据所述元数据对象的关系图中结构的顶点及顶点属性以及边的相似性,得到元数据图的结构相似性,包括:

获取所述元数据对象的关系图中结构的顶点结合顶点属性的相似度;

获取所述元数据对象的关系图中边的相似度;

根据所述顶点结合顶点属性的相似度和所述边的相似度,得到元数据图的结构相似性。

上述方案中,所述获取所述元数据对象的关系图中结构的顶点结合顶点属性的相似度,包括:

每个业务用一个元数据有向图的元数据子图进行表示;

获取两个元数据子图的公共顶点及其属性占指定规格图的比重,根据所述比重计算任意两个业务对应的元数据子图结构的顶点结合顶点属性的相似度。

上述方案中,所述获取所述元数据对象的关系图中边的相似度,包括:

每个业务用一个元数据有向图的元数据子图进行表示;

获取两个元数据子图的公共边占指定规格图的比重,根据所述比重计算任意两个业务对应的元数据子图结构的边的相似度。

上述方案中,基于所述元数据图的结构相似性,来确定多个业务之间的关联关系,包括:

综合所述任意两个业务对应的元数据子图结构的顶点结合顶点属性的相似度和所述任意两个业务对应的元数据子图结构的边的相似度,衡量任意不同业务之间的关联性;

按照实际需要关注的角度,通过调节因子调整权值得到业务关联度值,由所述业务关联度值确定多个业务之间的关联关系。

本发明实施例的一种基于元数据图结构相似性的多业务关联性分析装置,所述装置包括:

建立单元,用于从多个业务中获取元数据后,建立元数据对象的关系图;

处理单元,用于判断所述元数据对象的关系图中同一元模型是否存在共同的元数据对象及元数据对象属性,如果存在,则根据所述元数据对象的关系图中结构的顶点及顶点属性以及边的相似性,得到元数据图的结构相似性;

确定单元,用于基于所述元数据图的结构相似性,来确定多个业务之间的关联关系。

上述方案中,所述建立单元,进一步包括:

分类子单元,用于按照不同的粒度将所述元数据划分为多个类,每一类分别建立的描述模型为所述元模型;

构成子单元,用于由所述元模型的实例或实体构成所述元数据对象;

关系建立子单元,用于根据所述元数据对象之间的引用或数据流向关系建立元数据关系,并以元数据对象为顶点,元数据对象之间的关系为边,建立元数据对象的有向图,将所述元数据对象的有向图作为所述元数据对象的关系图。

上述方案中,所述装置还包括:

每个业务涉及的资源对象和所述资源对象之间的关系皆支持使用所述元数据对象的有向图进行表示。

上述方案中,所述处理单元,进一步包括:

第一处理子单元,用于获取所述元数据对象的关系图中结构的顶点结合顶点属性的相似度;

第二处理子单元,用于获取所述元数据对象的关系图中边的相似度;

第三处理子单元,用于根据所述顶点结合顶点属性的相似度和所述边的相似度,得到元数据图的结构相似性。

上述方案中,所述第一处理子单元,进一步用于:

每个业务用一个元数据有向图的元数据子图进行表示;

获取两个元数据子图的公共顶点及其属性占指定规格图的比重,根据所述比重计算任意两个业务对应的元数据子图结构的顶点结合顶点属性的相似度。

上述方案中,所述第二处理子单元,进一步用于:

每个业务用一个元数据有向图的元数据子图进行表示;

获取两个元数据子图的公共边占指定规格图的比重,根据所述比重计算任意两个业务对应的元数据子图结构的边的相似度。

上述方案中,所述确定单元,进一步用于:

综合所述任意两个业务对应的元数据子图结构的顶点结合顶点属性的相似度和所述任意两个业务对应的元数据子图结构的边的相似度,衡量任意不同业务之间的关联性;

按照实际需要关注的角度,通过调节因子调整权值得到业务关联度值,由所述业务关联度值确定多个业务之间的关联关系。

本发明实施例的基于元数据图结构相似性的多业务关联性分析方法包括:从多个业务中获取元数据后,建立元数据对象的关系图;判断所述元数据对象的关系图中同一元模型是否存在共同的元数据对象及元数据对象属性,如果存在,则根据所述元数据对象的关系图中结构的顶点及顶点属性以及边的相似性,得到元数据图的结构相似性;基于所述元数据图的结构相似性,来确定多个业务之间的关联关系。采用本发明实施例,能提高关联性分析的准确度和效果。

附图说明

图1为本发明实施例的方法流程示意图;

图2为应用本发明实施例的应用场景中元数据系统的三层架构示意图;

图3为应用本发明实施例的应用场景中基于元数据图结构相似性的多业务关联性分析原理图;

图4为应用本发明实施例的应用场景中基于元数据图结构相似性的多业务关联性分析流程图。

具体实施方式

下面结合附图对技术方案的实施作进一步的详细描述。

本发明实施例的一种基于元数据图结构相似性的多业务关联性分析方法,如图1所示,所述方法包括:

步骤101、从多个业务中获取元数据后,建立元数据对象的关系图。

步骤102、判断所述元数据对象的关系图中同一元模型是否存在共同的元数据对象及元数据对象属性,如果存在,则根据所述元数据对象的关系图中结构的顶点及顶点属性以及边的相似性,得到元数据图的结构相似性。

步骤103、基于所述元数据图的结构相似性,来确定多个业务之间的关联关系。

在本发明实施例一实施方式中,所述从多个业务中获取元数据后,建立元数据对象的关系图,包括:按照不同的粒度将所述元数据划分为多个类,每一类分别建立的描述模型为所述元模型;由所述元模型的实例或实体构成所述元数据对象;根据所述元数据对象之间的引用或数据流向关系建立元数据关系,并以元数据对象为顶点,元数据对象之间的关系为边,建立元数据对象的有向图,将所述元数据对象的有向图作为所述元数据对象的关系图。

在本发明实施例一实施方式中,所述方法还包括:每个业务涉及的资源对象和所述资源对象之间的关系皆支持使用所述元数据对象的有向图进行表示。

在本发明实施例一实施方式中,所述根据所述元数据对象的关系图中结构的顶点及顶点属性以及边的相似性,得到元数据图的结构相似性,包括:获取所述元数据对象的关系图中结构的顶点结合顶点属性的相似度;获取所述元数据对象的关系图中边的相似度;根据所述顶点结合顶点属性的相似度和所述边的相似度,得到元数据图的结构相似性。

在本发明实施例一实施方式中,所述获取所述元数据对象的关系图中结构的顶点结合顶点属性的相似度,包括:每个业务用一个元数据有向图的元数据子图进行表示;获取两个元数据子图的公共顶点及其属性占指定规格图(如最小图)的比重,根据所述比重计算任意两个业务对应的元数据子图结构的顶点结合顶点属性的相似度。

在本发明实施例一实施方式中,所述获取所述元数据对象的关系图中边的相似度,包括:每个业务用一个元数据有向图的元数据子图进行表示;获取两个元数据子图的公共边占指定规格图(如最小图)的比重,根据所述比重计算任意两个业务对应的元数据子图结构的边的相似度。

在本发明实施例一实施方式中,基于所述元数据图的结构相似性,来确定多个业务之间的关联关系,包括:综合所述任意两个业务对应的元数据子图结构的顶点结合顶点属性的相似度和所述任意两个业务对应的元数据子图结构的边的相似度,衡量任意不同业务之间的关联性;按照实际需要关注的角度,通过调节因子调整权值得到业务关联度值,由所述业务关联度值确定多个业务之 间的关联关系。

本发明实施例的基于元数据图结构相似性的多业务关联性分析装置,所述装置包括:建立单元,用于从多个业务中获取元数据后,建立元数据对象的关系图;及处理单元,用于判断所述元数据对象的关系图中同一元模型是否存在共同的元数据对象及元数据对象属性,如果存在,则根据所述元数据对象的关系图中结构的顶点及顶点属性以及边的相似性,得到元数据图的结构相似性;及确定单元,用于基于所述元数据图的结构相似性,来确定多个业务之间的关联关系。

在本发明实施例一实施方式中,所述建立单元,进一步包括:

分类子单元,用于按照不同的粒度将所述元数据划分为多个类,每一类分别建立的描述模型为所述元模型;

构成子单元,用于由所述元模型的实例或实体构成所述元数据对象;

关系建立子单元,用于根据所述元数据对象之间的引用或数据流向关系建立元数据关系,并以元数据对象为顶点,元数据对象之间的关系为边,建立元数据对象的有向图,将所述元数据对象的有向图作为所述元数据对象的关系图。

在本发明实施例一实施方式中,所述装置还包括:

每个业务涉及的资源对象和所述资源对象之间的关系皆支持使用所述元数据对象的有向图进行表示。

在本发明实施例一实施方式中,所述处理单元,进一步包括:

第一处理子单元,用于获取所述元数据对象的关系图中结构的顶点结合顶点属性的相似度;

第二处理子单元,用于获取所述元数据对象的关系图中边的相似度;

第三处理子单元,用于根据所述顶点结合顶点属性的相似度和所述边的相似度,得到元数据图的结构相似性。

在本发明实施例一实施方式中,所述第一处理子单元,进一步用于:

每个业务用一个元数据有向图的元数据子图进行表示;

获取两个元数据子图的公共顶点及其属性占指定规格图的比重,根据所述比重计算任意两个业务对应的元数据子图结构的顶点结合顶点属性的相似度。

在本发明实施例一实施方式中,所述第二处理子单元,进一步用于:

每个业务用一个元数据有向图的元数据子图进行表示;

获取两个元数据子图的公共边占指定规格图的比重,根据所述比重计算任意两个业务对应的元数据子图结构的边的相似度。

在本发明实施例一实施方式中,所述确定单元,进一步用于:

综合所述任意两个业务对应的元数据子图结构的顶点结合顶点属性的相似度和所述任意两个业务对应的元数据子图结构的边的相似度,衡量任意不同业务之间的关联性;

按照实际需要关注的角度,通过调节因子调整权值得到业务关联度值,由所述业务关联度值确定多个业务之间的关联关系。

以一个现实应用场景为例对本发明实施例阐述如下:

先对本发明实施例的一个应用场景介绍如下:

在当今的大数据时代,商务智能bi的成功实现及运用取决于有效的元数据管理和应用。元数据被定义为描述其他数据的数据,主要包括业务、技术和管理等领域的相关主题、概念、术语、结构、流程、关系和规则等数据。高水平的元数据应用能够为各种复杂的系统以及海量的数据充当引路标,能够帮助用户更好地了解各种业务的来龙去脉,增强数据对业务的基础支撑能力,提升数据质量的管控能力,实现高效的企业管理。然而,目前元数据的应用仍然处于简单的使用阶段,缺乏高层次深度的研究和应用,在多个业务复杂关系分析方面仍需要极大改进。

上述应用场景采用本发明实施例,是根据业务对应的元数据有向图的顶点及其属性以及边的相似性衡量多个业务之间的关联性,能够反映多个业务之间复杂交叉的影响关系,为业务人员熟悉多个业务之间关系提供指导,为企业进行经营分析提供决策。能解决的主要问题有:1)通过建立元数据对象的关系图并且比较图结构顶点及其属性以及边的相似性确定多个业务之间的关联关系, 能够直观地反映一个业务变更对其他业务的影响程度。2)考虑了不用业务使用相同的资源属性以及业务的前后逻辑关系的情况,充分利用了元数据对象的顶点及其属性信息和前后逻辑流程关系对应的边衡量元数据图结构的相似性时,使业务关联性分析结果更加可信。3)以元数据图结构相似性为基础计算得到业务关联度后可以创建一系列应用,例如:业务变更影响预警系统、梳理和合并业务的冗余重复流程、自动辅助业务分类等,可以解决大数据面临的一些复杂问题。

元数据系统的三层架构如图2所示,上述应用场景采用本发明实施例,增加了基于元数据图结构相似性的多业务元对象分析功能模块(如图2中的a15所示),在此基础上进一步提出了如图2中a16所示的高层的扩展应用如业务变更预警模块、梳理合并业务的冗余重复流程模块以及自动辅助业务分类等模块,其余以a11,a12,a13,a14所标记的模块为现有模块。

基于元数据图结构相似性的多业务关联性分析功能模块的主要原理如图3所示,图3为基于元数据图结构相似性的多业务关联性分析原理图,具体描述如下:

一,不同业务使用的资源对象有类似之处,即不同的业务都共同使用了某些资源对象或者这些资源对象的某些属性,映射元数据图为顶点及其属性有共同之处,那么这些业务之间是存在关联的。

例如:图3中公司有两个业务分别对应的两张市场占有率报表,这两张报表的数据都是通过同一个表汇总的,但是按照不同的口径使用了该表的一些相同的字段,则这两个业务相关的报表由共同涉及的表及表的属性字段关联到了一起。

目前,结构化数据(例如,关系数据库、olap联机分析数据等)和非结构化数据的描述信息(例如,日志文件、xml文件、webservice接口、hadoop平台数据等)是常见的产生元数据的主体,通过对这些数据的描述数据进行自动或手工提取录入是元数据系统的获取层取得数据的主要途径。

在元数据系统的逻辑层,按照不同的粒度将元数据划分为δ类,每种类别 分别建立一个描述模型,称之为元模型,这样可以将所有元数据按元模型进行分类并表示成一个集合m={m1,m2,...,mδ},其中每个元模型mχ可以用若干个属性描述,即mχ=(a1,a2,...,aκ)。一个元模型的实例或实体称为元对象,表示成根据元对象之间的引用或数据流向关系建立元数据关系,表示成rχ,γ即元数据对象之间的关系。以元对象作为顶点,元对象之间的关系作为边,那么可以建立元数据的有向图,表示成g=〈v,e>,其中顶点表示成集合边表示成邻接矩阵这样,每个业务涉及的资源对象和这些资源对象之间的关系都可以用元数据的有向图表示出来。在元数据的功能层上,以对业务进行抽象获得元数据的有向图为基础,比较元数据有向图中同一元模型是否存在共同的元对象以及元对象的属性,根据元数据图结构的顶点和顶点属性的相似性衡量不同业务之间的关联性。

由于同一元模型的属性维度是相同的,因此同一元模型衍生出来的元对象和元对象的属性的维度大小也是相同的,但是因为业务各不相同,所以具体的元对象或其属性值可能是不同的,采用本发明实施例,是使用余弦相似度衡量同一元模型mχ的不同元对象的属性之间的相似度,计算公式(1-1)如下:

其中,如果属性不为空,则表示为1,否则为0。

每个业务用一个元数据有向图的子图表示,考虑两个图的公共顶点及其属性占最小图的比重,那么可以计算任意两个业务α和β对应的元数据图结构的顶点结合顶点属性的相似度,如公式(1-2)所示:

其中子图gα,gβ∈g。

二,不同业务的逻辑过程类似,也就是说,这些不同的业务都使用了从某些资源对象或其属性到另一些资源对象或其对应的属性的逻辑流程,映射元数据图为共同的连续有向边,则这些业务之间是相关联的。

在本实施例中,从抽象的元数据有向图的角度来看,若元对象之间存在着共同的连续的、有向的边,那么可以根据元数据图结构的边的相似性衡量不同业务之间的关联性。比如上例中公司的两个业务相关的报表由共同涉及的表及表的属性字段关联到了一起,而这个表和字段都是通过同一个存储过程处理的,这样就存在着从存储过程到表及其字段之间的连续的、有向的逻辑链路。

考虑两个业务对应的元数据有向图的公共边占最小图的比重可以计算任意两个业务α和β对应的元数据图结构的边相似度,如公式(1-3)所示:

三,综合元数据图结构的顶点及顶点属性的相似性和边的相似性这两个方面来衡量多个不同业务之间的关联性,按照实际需要关注的角度,通过调节因子调整权值得到业务关联度值。

现实中经常同时考虑两个业务共同使用的资源对象及属性和业务逻辑流程来比较两个业务之间的关系,因此本实施例结合上述两个公式(1-2)和(1-3),提出计算任意两个业务α和β的关联度公式,如(1-4)所示:

rel(α,β)=sim(gα,gβ)=θ·sv(gα,gβ)+(1-θ)·se(gα,gβ)(1-4)

如果两个业务α和β中一个业务是另外一个业务的子业务,那么这两个业务的关联度为100%,即rel(α,β)=1。

四,根据不同业务之间的关联度值,可以创建一系列应用,例如:业务变 更影响预警系统、梳理和合并业务的冗余重复流程、自动辅助业务分类等。

在元数据系统的功能层上利用元数据图结构相似性的多业务关联性分析结果可以建立一系列高级扩展应用。

具体来说,业务变更影响预警系统可以提前评估一个业务的变更操作对其他业务的影响,如果业务的关联度高并且影响超过预警阈值,则发出告警,这样可以避免仅考虑变更一个业务而忽视其他业务产生的严重的不良影响。

梳理和合并业务的冗余重复流程的应用可以按照业务的关联度找出这些业务可能存在的冗余重复流程并将这些流程进行调整合并,从而节省资源和成本。

自动辅助业务分类的应用可以根据业务的关联度以及已有的业务类别进行自动辅助分类,减少人工分类的工作量。

图4为基于元数据图结构相似性的多业务关联性分析流程图,如图4所示,基于元数据图结构相似性的多业务关联性分析方法的整个流程如下:

步骤11、对需要管理的业务进行元数据采集。

这里,进行元数据采集包括业务系统的接口、源代码、文档,数据库的表、视图、存储过程,etl的数据抽取、清洗、转换、映射、加载等规则,建模工具的数据模型api、olap联机分析数据等资源对象描述的采集以及关系规则描述的采集,其中结构化数据可以通过数据字典获取,非结构化数据包括xml文件、日志文件、webservice接口、hadoop平台等通过提供标准规则进行解析的方式获取。

步骤12、按照规定的粒度建立元模型,每个元模型mχ用若干个属性描述,即mχ=(a1,a2,...,aκ),将元数据按元模型进行分类。

步骤13、按照元模型对元数据进行描述建立元对象根据元对象之间的引用/被引用或数据流出/流入等规则建立元数据关系rχ,γ即元数据对象之间的关系。以元对象作为顶点,元对象之间的关系作为边,建立元数据的有向图g=〈v,e〉,其中顶点为集合边为邻接矩阵

步骤14、根据不同的业务都共同使用了某些资源对象或者这些资源对象的某些属性则这些业务之间存在关联的原理,按前述公式(1-1)和(1-2)计算任意两个业务α和β对应的元数据图结构的顶点结合顶点属性的相似度。

步骤15、根据不同的业务都使用了从某些资源对象或其属性到另一些资源对象或其对应的属性的逻辑流程则这些业务之间是相关联的原理,按前述公式(1-3)计算任意两个业务α和β对应的元数据图结构的边相似度。

步骤16、综合元数据图结构的顶点及顶点属性的相似性和边的相似性这两个方面来按公式(1-4)计算任意两个业务α和β的关联度。

步骤17、根据两个业务α和β的关联度阀值判断两个业务α和β是否关联,若是则执行步骤18,否则,返回重新执行步骤12。

步骤18、根据两个业务α和β的关联度值创建一系列应用。

这里,就根据关联度值创建一系列应用而言,例如:业务变更影响预警系统、梳理和合并业务的冗余重复流程、自动辅助业务分类等。

采用本发明实施例,1)根据不同的业务共同使用了某些资源对象或者其某些属性,以及共同使用了从某些资源对象或其属性到另一些资源对象或其对应的属性的业务逻辑流程的相似性所抽象出的元数据有向图结构的顶点及其属性以及边的相似性,根据该相似性来衡量多个业务之间关联性;2)使用元数据有向图结构的顶点及其属性以及边的相似性来分析多个业务之间的关联性并实现应用层的元数据关联分析模块。本发明实施例弥补了现有元数据技术无法胜任处理多个业务之间复杂关系的不足,所提出的这种基于元数据图结构相似性的多业务关联性分析方法,通过建立元数据对象的关系图并且比较图结构顶点及其属性以及边的相似性确定多个业务之间的关联关系,能够直观地反映一个业务变更对其他业务的影响程度,在此基础上可以创建一系列应用实现业务变更预警、 冗余业务流程合并和自动辅助业务分类等,解决大数据中面临的一些问题。本方案在实际应用中具有较高的实用性。

本发明实施例所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。

相应的,本发明实施例还提供一种计算机存储介质,其中存储有计算机程序,该计算机程序用于执行本发明实施例的基于元数据图结构相似性的多业务关联性分析方法。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1