跨业务域的大数据智能分析系统及方法与流程

文档序号:15981902发布日期:2018-11-17 00:25阅读:293来源:国知局

本发明涉及大数据领域,具体涉一种跨业务域的大数据智能分析系统及方法。

背景技术

在信息化和数据化的时代,如何对数据进行多维分析以进行决策支持,是商务智能和数据挖掘领域的重要课题,olap就是为了解决这一问题而产生的。一般情况下,数据仓库的数据量较大,直接在大量数据上进行多维聚合运算需要耗费大量的计算资源,以及过长的查询耗时。olap提供了一种基于预计算提高多维分析效率的解决方案,即通过实现一个“数据立方体”对数据仓库中的数据按不同的维度组合进行预聚合,并把结果保存下来;当分析师进行实际业务查询时,无需重新对数据执行聚合运算,而是直接读取预计算结果,这使得对百万甚至上亿数据规模的分析变得可能。在大数据多维分析场景中,数据规模往往在千亿甚至万亿级别,且维度数量过多、维度基数超大,存在维度爆炸的隐患。如果依然对所有维度组合的情况进行预计算,一定会导致预计算时间过长、结果数据量过大,增加了预计算和存储成本。



技术实现要素:

本发明旨在提供跨业务域的大数据智能分析系统及方法,以解决现有技术方案中预计算时间过长、结果数据量过大的问题。

为了实现所述目的,本发明跨业务域的大数据智能分析系统,包括:

数据立方体逻辑模型构建模块,用于获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;

数据立方体构建模块,用于获取待分析业务数据和数据立方体逻辑模型,基于数据立方体逻辑模型的维度定义获取各维度组合,从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值,根据选定维度组合及其度量值构建数据立方体;

查询分析服务模块,用于根据数据立方体建立索引以供用户查询分析。

优选的,系统还包括:

数据接入模块,用于从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;

数据整合模块,用于对数据接入模块选择的需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。

优选的,所述根据元数据选择需要接入的数据包括:显示元数据以供用户选择,获取用户选择的元数据,根据用户选择的元数据选择需要接入的数据。

优选的,所述根据选定维度组合及其度量值构建数据立方体包括:根据选定维度组合及其度量值建立事实表。

优选的,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系。

优选的,所述设定值为1‰。

作为本发明的另一方面,跨业务域的大数据智能分析方法,包括如下步骤:

获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;

获取待分析业务数据和数据立方体逻辑模型,基于数据立方体逻辑模型的维度定义获取各维度组合;

从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;

根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值;

根据选定维度组合及其度量值构建数据立方体;

根据数据立方体建立索引以供用户查询分析。

优选的,方法还包括:

从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;

对需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。

优选的,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系。

优选的,所述设定值为1‰。

通过实施本发明可以取得以下有益技术效果:本发明根据被查询概率大于设定值的维度组合构建数据立方体,进而减少构建数据立方体所需的维度组合种类;由于减少了构建数据立方体所需的维度组合种类,因此也减少了构建数据立方体所需的预计算的计算量和预计算的计算时间,进而减低了预计算的计算成本;由于减少了构建数据立方体所需的维度组合种类,因此也减少了数据立方体的数据存储量,进而降低存储成本。

附图说明

图1为本申请实施例中的跨业务域的大数据智能分析系统的一种连接图;

图2为本申请实施例中的跨业务域的大数据智能分析系统的另一种连接图;

图3为本申请实施例中的跨业务域的大数据智能分析系统的一种流程图;

图4为本申请实施例中的跨业务域的大数据智能分析系统的另一种流程图。

具体实施方式

为了便于本领域技术人员的理解,下面结合具体实施例对本发明作进一步的说明:

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

实施例1:

如图1和图2所示,跨业务域的大数据智能分析系统,包括:

数据立方体逻辑模型构建模块1,用于获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;

数据立方体构建模块2,用于获取待分析业务数据和数据立方体逻辑模型,基于数据立方体逻辑模型的维度定义获取各维度组合,从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值,根据选定维度组合及其度量值构建数据立方体;

查询分析服务模块3,用于根据数据立方体建立索引以供用户查询分析。

通过实施本发明可以取得以下有益技术效果:本发明根据被查询概率大于设定值的维度组合构建数据立方体,进而减少构建数据立方体所需的维度组合种类;由于减少了构建数据立方体所需的维度组合种类,因此也减少了构建数据立方体所需的预计算的计算量和预计算的计算时间,进而减低了预计算的计算成本;由于减少了构建数据立方体所需的维度组合种类,因此也减少了数据立方体的数据存储量,进而降低存储成本。查询分析服务模块根据数据立方体建立索引后以供用户查询分析,进而使得系统可以实现查询分析的目的。

本实施例中,元数据指的是:描述数据的数据,如表名、字段名称、字段类型、基数、是否为主键外键等等。维度指的是:观察数据的一种角度,如时间、区域等。度量指的是:要分析展示的数据,即指标。度量值指的:是度量的值,即指标的值。

作为本实施例中的一种可选实施方式,如图2所示,系统还包括:

数据接入模块5,用于从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;

数据整合模块6,用于对数据接入模块选择的需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。

数据接入模块先读取元数据,再根据元数据选择需要接入的数据,使得系统无需读取全部数据,提高效率。

通过数据接入模块所选择的需要接入的数据进行数据抽取和数据整合,涵盖业务范围更加广泛、全面,大大提高系统的可用性。数据整合指的是对企业多个业务系统数据源的数据关联整合,例如,在供应商合同履约信息中,通过到货日期、过账日期与财务系统进行关联,可获得过账金额、合同金额等数据来从更多维度对供应商履约行为进行更加全面的评估。

作为本实施例中的一种可选实施方式,所述根据元数据选择需要接入的数据包括:显示元数据以供用户选择,获取用户选择的元数据,根据用户选择的元数据选择需要接入的数据。使得系统可以接受用户的选择,并根据用户的选择选择需要接入的数据。

作为本实施例中的一种可选实施方式,所述根据选定维度组合及其度量值构建数据立方体包括:根据选定维度组合及其度量值建立事实表。事实表中维度可以为键值对数据格式(key-value),并通过键值对与维表进行关联,其主键用于查询,可以提高查询效率。事实表指的是存放度量值的表,同时存放了维表的外键。维表指的是对维度描述的表。

作为本实施例中的一种可选实施方式,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系;所述基于数据立方体逻辑模型的维度定义获取各维度组合包括:根据层级关系和维度定义获取各维度组合(除预设条件下的维度组合外的所有维度组合,其中预设条件为维度组合中至少存在一个层级高的维度在层级低的维度之后)。在构建数据立方体逻辑模型时,如有层级关系,如省级=>市级=>县级=>区级,或年月日时分秒这种层级关系,如果按不同维度组合直接进行计算,则要覆盖所有维度组合的计算需计算2的n次方种(假定有abc三个有一定层级关系的维度,直接计算需要覆盖abc、ab、bc、ac、a、b、c、空8种),如按照如层级关系进行计算,低级别的层级出现时高级别的层级一定是先出现了的(月之前肯定要指定年,日之前肯定要指定月),那么计算结果范围将缩小至n+1种(abc、ab、a、空)。

作为本实施例中的一种可选实施方式,数据立方体存储在列式数据库中,并通过缓存技术存储之前已经查询的结果,在后续查询中首先在缓存中进行匹配,降低io开销,使得查询更加高效。

作为本实施例中的一种可选实施方式,所述设定值为1‰。设定值可以根据实际使用需求进行设置,如也可以设置成万分之一,千万分之一等。

作为本实施例中的一种可选实施方式,查询分析服务模块还用于基于立方数据体建立可视化查询,以便于用户以拖、拉、拽等方式方便的进行分析,便于实施分析思路的快速验证和报表开发。

实施例2:

如图3和图4所示,跨业务域的大数据智能分析方法,包括如下步骤:

步骤s1:获取待分析业务数据的元数据,并根据待分析业务数据的元数据构建数据立方体逻辑模型,其中,所述数据立方体逻辑模型包括维度定义和度量定义;

步骤s2:获取待分析业务数据和数据立方体逻辑模型;

步骤s3:基于数据立方体逻辑模型的维度定义获取各维度组合;

步骤s4:从各维度组合中选取被查询概率大于设定值的维度组合作为选定维度组合;

步骤s5:根据选定维度组合和数据立方体逻辑模型中的度量定义对待分析业务数据进行预计算以得到各选定维度组合的度量值;

步骤s6:根据选定维度组合及其度量值构建数据立方体;

步骤s7:根据数据立方体建立索引以供用户查询分析。

作为本实施例中的一种可选实施方式,如图4所示,方法还包括:

步骤s01:从各业务系统读取数据的元数据,并根据元数据选择需要接入的数据;

步骤s02:对需要接入的数据进行数据抽取,并将抽取的数据进行数据整合以得到待分析业务数据。

作为本实施例中的一种可选实施方式,所述数据立方体构建模块还包括层级关系定义,所述层级关系为维度的层次结构的级别关系。

作为本实施例中的一种可选实施方式,所述设定值为1‰。

本实施例中方法的原理和效果可以参考实施例1中系统的原理和效果,并实施例不再详细描述。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1