数据源数据自动建模方法

文档序号:9375822阅读:334来源:国知局
数据源数据自动建模方法
【技术领域】
[0001] 本发明涉及一种数据源数据自动建模方法,具体地涉及一种对复杂数据源数据进 行自动建模并展示的方法。
【背景技术】
[0002] 很多存储复杂数据的数据源,例如从社交数据库、电商数据库,到人类基因数据 库,都是基于复杂的多维、大数据量存储的数据集。针对这种数据集进行处理,存在一个巨 大的挑战是如何从海量的数据中发现隐含的数据结构、数据关联关系、并最终提取出有意 义的数据。通常来说,分析师想不借助任何工具,从如此巨量的数据中提取出有意义的数据 来是不太现实的。通常分析师会借助各种分析工具来帮助提取部分有意义的数据。但是依 赖现有分析工具对复杂数据源数据进行建模并展示必须要持续的人机交互。用户需要很熟 悉复杂数据集的特性,必须给计算机明确的指令来让计算机调用相应的算法来完成建模。 在很多情况下,这种人机交互需要重复进行多次。当用户处理的数据是以万亿计时,这样的 数据处理方式非常复杂和繁琐。因此需要一种高级数据自动建模以及可视化方式。

【发明内容】

[0003] 针对上述技术问题,本发明目的是:提供一种数据源数据自动建模方法,在海量数 据中建立分析模型,可以方便地为业务人员进行数据建模,可以更快更好的分析用户海量 数据。
[0004] 本发明的技术方案是: 一种数据源数据自动建模方法,包括如下步骤: SOl:多数据源接入及表结构解析:接入不同的数据源中的数据,解析各数据源中所有 表的表结构; S02:为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属 性列表,为每个属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方 式; S03:归并同类项业务对象以及来源:对所有设置业务对象的属性进行汇总并归并同 类项; S04:解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进 行建模,对未设置业务对象的属性按照建模规则进行建模,所述建模规则包括数值型属性 标记为度量,非数值型属性标记为维度,并归并同类项业务对象。
[0005] 优选的,所述步骤SOl中的表结构包括表中的字段以及字段类型。
[0006] 优选的,所述步骤SOl包括以下步骤: 获取表连接及表结构的元数据; 获取表的表结构属性列表; 记录表结构属性列表,并与步骤S02中生成的业务对象映射匹配。
[0007] 与现有技术相比,本发明的优点是: 1.该方法可以帮助用户基于数据源中数据快速有效的建立起业务模型,还可以帮助用 户发现数据源中隐藏的数据之间的深层次关联关系,比如基于用户身份信息时可以挖掘用 户的年龄段以及对应的消费量、消费习惯的关联信息。
[0008] 该方法为用户在海量数据中建立分析模型提供了可行的基础,可以嵌在魔镜数据 分析平台中,可以方便的为业务人员进行数据建模,可以更快更好的分析用户海量数据。
【附图说明】
[0009] 下面结合附图及实施例对本发明作进一步描述: 图1为本发明数据源数据自动建模方法的流程图。
【具体实施方式】
[0010] 为使本发明的目的、技术方案和优点更加清楚明了,下面结合【具体实施方式】并参 照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发 明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本 发明的概念。
[0011] 实施例: 如图1所示,一种对复杂数据源数据进行自动建模并展示的方法,具体步骤如下: A.多数据源接入及表结构解析 对用户的不同数据源中数据进行接入,分析并解析出各数据源中所有表的表结构。数 据源可以是mysql、oracle、DB2等关系型数据库,比如说用户有个mysql数据库,库中含有 △、8两张表,4表包含41、4233..^10,10个字段,8表包含81、82、83三个字段。该步骤 可以对mysql数据库中A、B两张表,以及每张表中所有的字段(包括字段类型),使用SQL 语法获取数据源元数据的方法解析出A、B两张表表结构。A表包含A1、A2、A3. . . A10,10个 字段,B表包含B1、B2、B3三个字段,以及每个字段的类型,类型可以为字符型,文本型,数值 型,逻辑型和日期型。记录上述结果为后续建模做准备。
[0012] 语法获取数据源元数据的部分伪代码如下: L/iN 丄η ^ * *w 〇/ ?
获取的每个步骤都是由数据库管理系统本身提供的接口提供的。
[0013] 为数据源表中每个字段标识一个业务对象 遍历数据源中所有表,提取所有需要建模的属性列表,为每个属性设置业务对象名称、 业务对象类型、业务对象聚集方式。
[0014] 例如,如果用户从业务角度,对A表中A2、A3字段比较感兴趣,那么用户可以对应 的建立业务对象YWA2、YWA3,为每个属性设置业务对象名称YWA2、YWA3,YWA2的业务对象类 型是数值型,YWA3是时间类型,YWA2业务对象聚集方式可以是汇总、平均、最大值、最小值 等等,YWA3聚集方式可以是计数。
[0015] -般的,数值型的业务对象的聚集方式可以是汇总、平均、最大值、最小值等等,字 符类型的业务对象的聚集方式可以是计数。
[0016] 归并同类项业务对象以及来源 对所有设置业务对象的属性进行汇总,归并同类项。
[0017] 例如,在电商系统数据库中可能包含用户表以及交易表,用户表中包含了用户的 身份证信息(实名制),即每个用户都记录了唯一的身份证信息,交易表中也包含了用户信 息,即每个交易记录都包含了用户的身份证信息和交易信息。在这种业务场景中,分析该数 据库的业务人员可以建立一个用户身份证的业务对象。用户表以及交易表中都包含用户身 份证信息,将业务人员建立的用户身份证业务对象关联到用户表中的身份证信息,以及交 易表中的身份证信息。当用户希望查询身份证以及其他业务对象的关联关系时,系统知道 可以从两个表(两个路径)中分析并得出最优的结果。
[0018] 自动解析业务对象并进行建模 对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规 则进行建模。该建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同 类项业务对象。
[0019] 例如,交易金额标识为度量,用户所在省份标识为维度,同时归并同类项业务对 象。例如步骤C中例子,用户表以及交易表都包含用户身份证信息,则业务人员只需要一个 业务对象"用户身份",把该业务对象同时关联到用户表中身份信息列以及交易表中身份信 息列。
[0020] 用户可以对建模后的模型进行手工设置,最终呈现出用户想要的业务模型以及数 据库中表字段的映射,可以减少业务人员对庞大的数据库中所有字段进行手工配置。
[0021] 应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的 原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨 在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修 改例。
【主权项】
1. 一种数据源数据自动建模方法,其特征在于,包括如下步骤: 501 :多数据源表结构解析:解析数据源中所有表的表结构; 502 :为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属性 列表,为属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方式; 503 :归并同类项业务对象:对所有设置业务对象的属性进行汇总并归并同类项; 504 :解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进 行建模,对未设置业务对象的属性按照建模规则进行建模,所述建模规则包括数值型属性 标记为度量,非数值型属性标记为维度,并归并同类项业务对象。2. 根据权利要求1所述的数据源数据自动建模方法,其特征在于,所述步骤SOl中的表 结构包括表中的字段、字段类型以及默认值。3. 根据权利要求1所述的数据源数据自动建模方法,其特征在于,所述步骤SOl包括以 下步骤: 获取表连接及表结构的元数据; 获取表的表结构属性列表; 记录表结构属性列表,并与步骤S02中生成的业务对象映射匹配。
【专利摘要】<b>本发明公开了一种数据源数据自动建模方法,包括如下步骤:多数据源接入及表结构解析:接入不同的数据源中的数据,解析各数据源中所有表的表结构;为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属性列表,为每个属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方式;归并同类项业务对象:对所有设置业务对象的属性进行汇总并归并同类项;解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模,建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。可以方便地进行数据建模,有利于分析用户海量数据。</b>
【IPC分类】G06F17/30
【公开号】CN105095436
【申请号】CN201510436270
【发明人】马晓东, 马小东, 谢晓芳, 王鹏
【申请人】苏州国云数据科技有限公司
【公开日】2015年11月25日
【申请日】2015年7月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1