多维度数据分析模型动态扩展方法和系统的制作方法

文档序号:8528235阅读:587来源:国知局
多维度数据分析模型动态扩展方法和系统的制作方法
【技术领域】
[0001]本发明设计数据分析领域,且特别涉及一种多维度数据分析模型动态扩展方法和系统。
【背景技术】
[0002]数据分析系统需要将其代表的业务场景表示成计算机能够处理的形式,这就是分析的数据模型。同时,用户也通过数据模型去理解数据,并与系统交互。
[0003]目前主要有两种方法来实现数据分析:一是为某个场景定制一个应用,这样可以比较贴切地描述分析对象,理论上可以达到理想的效果,但是开发资源要求高,受开发者水平限制大。
[0004]另一种方法是在一个分析系统中,建立能够描述不同数据模型的语言或工具。这种方法使数据分析系统能适用于不同业务场景,具有很大优势。在这种系统中,数值分析最有效的方法是利用维度的概念。但是现有的多维度分析系统建立模型的灵活度有限,一般来说,模型描述的是一个静态的数据集,而且都要求先建立完整的模型,才能开始分析。数据模型一旦建立,变动的代价将很大,当用户面对预定义维度以外的数据时,数据分析就不能有效进行。这样的多维度模型不适合多数据来源,或半结构化,非结构化数据的分析

【发明内容】

[0005]本发明为了克服现有分析系统开发成本高且扩展困难的问题,提供一种多维度数据分析模型动态扩展方法和系统。
[0006]为了实现上述目的,本发明提供一种多维度数据分析模型动态扩展方法包括:
[0007]导入数据集,检测数据集获得检测信息;
[0008]根据检测信息将数据集内的属性字段映射到预先设定的维度模型或建立新的维度,形成动态扩展后的维度模型;
[0009]根据动态扩展后的维度模型建立表征属性字段和属性字段所对应的元素之间关系的元素表和表征属性字段和所属维度模型内层级之间关系的关系表。
[0010]于本发明一实施例中,根据检测信息将数据内的属性字段映射到预先设定的维度模型的方法包括直接映射和间接映射。
[0011 ] 于本发明一实施例中,当数据集内的某一属性字段与其所属的维度模型内某一层级之间满足设定规则时,属性字段直接映射到其所属的维度模型内,形成层级的子节点或父节点。
[0012]于本发明一实施例中,当数据集内的某一属性字段的元素与维度模型内某一层级的元素之间存在多对一或一对多的关系时,将属性字段动态增加到其所属的维度模型内,且属性字段为层级的父节点或子节点。
[0013]于本发明一实施例中,导入数据集后,采用抽样检测或全样本检测来获得检测信息。
[0014]于本发明一实施例中,检测信息包括:数据类型、数据内容和数据范围,数据类型由属性字段表征,数据内容由元素表征,数据范围为属性字段所对应的元素的一致程度。
[0015]于本发明一实施例中,根据检测信息将数据内的属性字段映射到预先设定的维度模型的步骤包括:
[0016]将数据范围与设定阈值进行比较;
[0017]当数据范围大于或等于设定阈值时,匹配数据类型和预先设定的维度模型;
[0018]当数据类型与预先设定的维度模型匹配时,将数据集内的属性字段映射到预先设定的维度模型;否则,建立新的维度。
[0019]本发明的另一方面还提供一种多维度数据分析模型动态扩展系统包括检测模块、动态扩展模块和表组建模块。检测模块导入数据集,检测数据集获得检测信息。动态扩展模块根据检测信息将数据集内的属性字段映射到预先设定的维度模型或建立新的维度,形成动态扩展后的维度模型。表组建模块根据动态扩展后的维度模型建立表征属性字段和属性字段所对应的元素之间关系的元素表和表征属性字段和所属维度模型内层级之间关系的关系表。
[0020]于本发明一实施例中,当数据集内的某一属性字段与其所属的维度模型内某一层级之间满足设定规则时,属性字段直接映射到其所属的维度模型内,形成层级的子节点或父节点。
[0021]于本发明一实施例中,当数据集内的某一属性字段的元素与维度模型内某一层级的元素之间存在多对一或一对多的关系时,将属性字段动态增加到其所属的维度模型内,且属性字段为层级的父节点或子节点。
[0022]经由上述的技术方案可知,在本发明实施例中,用户导入数据集,检测模块检测数据集获得检测信息。动态扩展模块根据检测信息将数据映射到预先设定的维度模型上或者建立新的维度。即以预先设定的维度模型为基础维度模型,在基础维度模型上动态扩展数据集内所包含的属性字段。数据集内的属性字段可以动态扩展为基础维度模型内某一层级的父节点或子节点,扩展方式非常灵活且不同的用户只共用基础维度模型,动态扩展后的维度模型不会相互影响。本发明提供的多维度数据分析模型动态扩展方法和系统支持维度的动态扩展,可以处理动态、多样的数据,使得数据集之间通过模型进行的复杂关联成为可能,符合大数据时代的需求。
[0023]进一步的,为方便模型的动态扩展,设置数据集内的属性字段映射包括直接映射和间接映射。针对不同的数据采用不同的映射方式,提高数据的分析和处理速度,满足大数据的处理。
[0024]为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
【附图说明】
[0025]图1所示为本发明一实施例提供的多维度数据分析模型动态扩展方法的流程图。
[0026]图2所示为图1中步骤S20所包含的步骤的流程图。
[0027]图3所示为本发明一实施例提供的多维度数据分析模型动态扩展方法的实现示意图。
[0028]图4所示为本发明一实施例提供的预先设定的一种维度模型。
[0029]图5所示为本发明一实施例提供的在图4所示的维度模型上动态扩展后的维度模型。
[0030]图6所示为本发明一实施例提供的在图4所示的维度模型上动态扩展后的另一维度模型。
[0031]图7所示为本发明一实施例提供的多维度数据分析模型动态扩展系统的结构示意图。
【具体实施方式】
[0032]如图1、图2和图3所示,本实施例提供的多维度数据分析模型动态扩展方法包括:
[0033]步骤S10、导入数据集,检测数据集获得检测信息。于本实施例中,通过抽样检测的方式获取数据集的检测信息,抽样的量可以为数据量的百分比或采用其它的方式进行设定。采用抽样检测的方式可以大大提高对数据集的检测速度。然而,本发明对检测的方式不作任何限定。于其它实施例中,可以采用全样本检测的方式来获得数据集的检测信息。
[0034]于本实施例中,数据集经检测后所形成的检测信息包括数据类型、数据内容和数据范围,所述检测包括维度的抽取和数据范围的计算。数据类型是由属性字段进行表征,如属性字段为年、月、日或时间戳中的一个或多个时,则数据类型为时间类型的数据;当属性字段为城市、县市、街道、详细地址等时,则数据类型为地理类型。数据内容由元素表征,如具体的2012年、2013年、2014年等数据。数据范围为属性字段所对应的元素一致性的程度。具体而言,在有些数据集内会包括两个或两个以上表征不同数据类型的属性字段,检测模块计算每一属性字段所对应的元素的一致程度形成数据范围。
[0035]步骤S20、根据检测信息将数据集内的属性字段映射到预先设定的维度模型或建立新的维度,形成动态扩展后的维度模型。具体包括:
[0036]步骤S21、将数据范围与设定阈值进行比较;
[0037]步骤S22、当数据范围大于或等于设定阈值时,匹配数据类型和预先设定的维度模型;
[0038]步骤S23、当数据类型与预先设定的维度模型匹配时,将数据集内的属性字段映射到预先设定的维度模型;否则,建立新的维度。
[0039]具体而言,当数据集内包括时间类型(“年”这一属性字段)和地理类型(“城市”这一属性字段)的数据时,检测模块计算“年”这一属性字段所对应的所有元素的一致程度。譬如,“年”这一属性字段下包括100个元素,这100个元素中有95个是符合“年”这一属性字段的标准格式(如XXXX年),则此时“年”这一属性字段的数据范围为95%。当数据范围大于或等于设定阈值(如90% )时,将“年”这一属性字段映射到预先设定的维度模型内的时间维度上。同样的,检测模块计算“城市”这一属性字段的数据范围,当该数据范围大于或等于设定阈值时,将“城市”这一属性字段映射到预先设定的维度模型内的地理维度上。然而,本发明对设定阈值的具体数值不作任何限定。用户可以根据数据集的情况来自行设定其它阈值。
[0040]于本实施例中,将数据集内的属性字段映射到预先设定的维度模型的方法包括直接映射和间接映射。根据数据集内数据与其所属的维度模型内某一层级之间的关系来选择映射方法,该设置可大大增加数据扩展的速度,可满足大数据处理的要求。然而,本发明对此不作任何限定。于其它实施例中,可只采用间接映射的方式。以下对直接映射和间接映射作详细介绍。
[0041]图4所示为预先设定的维度模型内的地理维度。对于直接映射,当用户导入的数据集中,某一属性字段与其所属的维度模型内某一层级之间满足设定规则时,属性字段直接映射到该维度模型内,形成某一
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1