一种基于模型驱动的数据分析方法

文档序号:9887918阅读:451来源:国知局
一种基于模型驱动的数据分析方法
【技术领域】
[0001]本发明属于一种企业数据智能分析方法,具体涉及一种数据模型和数据分析,尤其是一种应用于模型驱动的数据分析方法。
【背景技术】
[0002]随着国际国内信息化建设的快速发展,各大军工集团、企事业单位的操作型的业务信息系统已经积累了大量的经营发展、科研生产、人力资源、安全管控等方面的业务数据,如何更好的运用这类沉淀的历史数据,成为了现代人们关注的问题。因此,在数据分析过程中,对于数据分析的高效性和稳定性成为了一个重点。

【发明内容】

[0003]本发明的目的是提供一种在数据分析时能够稳定、快速有效的对大量数据进行处理的数据分析方法。
[0004]本发明是这样实现的,一种基于模型驱动的数据分析方法,包括以下步骤:
[0005]步骤I准备工作;
[0006]根据业务需要分析,收集相关的信息,包括业务需求文件、技术要求文件、项目管理计划要求;
[0007]步骤2系统定义;
[0008]系统定义包括:业务指标分析,确定数据分析维度,确定数据分析粒度,确定数据分析层级;
[0009]步骤3数据抽取
[0010]数据抽取:数据源接口,包括原始数据接口和外部数据接口,源数据接口从业务系统中通过约定的借口方式抽取数据,为数据仓库输入数据;
[0011]步骤4数据转换
[0012]数据转换:数据转化包含对来自多个操作型系统的数据源的处理,保证数据按要求装人数据仓库,对抽取的数据进行分析,如果数据复杂程度比较低,则直接进入步骤5,反之,则需要根据数据的复杂程度进行数据的转换;
[0013]步骤5数据加载
[0014]数据加载:数据加载部分负责将数据抽取和转化的数据按照物理数据模型定义的表结构装入数据仓库中,
[0015]步骤6模型设计
[0016]分析模型设计包括:分析模型设计,分析模型定义,模型设计方式;
[0017]步骤7模型驱动设计
[0018]数据分析模型驱动包括SQL引擎和调度算法。
[0019]所述的步骤2包括如下步骤,
[0020]I)业务指标分析
[0021]在技术要求文件中技术限定的条件下,根据步骤I中的需求分析,明确业务指标的名称、定义、数据来源、计算公式等信息;
[0022]业务指标一般按照以下原则确定:
[0023](I)业务指标必须是业务流转中特定的工作指标,不能笼统,
[0024](2)业务指标是可以数量化或者行为化的,验证这些绩效指标的数据或者信息是可以获得的,
[0025](3)业务指标是在付出努力的情况下可以实现,避免设立过高或过低的目标,
[0026](4)业务指标是可以证明和观察的,
[0027](5)业务指标是在一定时间限制内完成的;
[0028]2)确定数据分析维度
[0029]数据分析维度按照以下原则确认:
[0030](I)数据值不参与运算,可以作为其他运算数据的约束条件,
[0031](2)数据值是固定的,在一定的时期内不易变化的,
[0032](3)选取与业务有关联关系的、有意义的维度值,
[0033]3)确定数据分析层级
[0034]数据分析层级指从宏观的汇总信息通过层层分析到明细的微观数据的过程,数据分析层级的确定需要注意以下事项:
[0035](I)在业务需求的引导下,分析层级之间必须具备一定的逻辑关系,
[0036](2)分析的层级越多,维度数据就越详细,建模难度就越大,
[0037](3)不同层级的人员,进入的分析层级不同,通常建议一个维度的层级小于等于4层,
[0038]4)确定数据分析粒度
[0039]粒度即数据汇总的程度,不同层级的人员需要的数据粒度不同,数据分析粒度就是根据步骤I中的需求分析,对业务数据的汇总程度进行规划,
[0040](I)最小的数据分析粒度为从操作型系统中直接抽取的操作型数据,
[0041](2)数据分析粒度应当结合数据分析层级进行设计,
[0042](3)数据分析粒度越小,可查询的信息就越多;反之,查询的信息就越少。
[0043]所述步骤6包括
[0044]I)分析模型设计
[0045]分析模型设计,通过适当运用计算机的逻辑思维,将业务流程、业务应用等业务工作进行梳理,使看起来不相关的业务数据进行关联并产生相互关系;
[0046]2)分析模型定义
[0047]分析模型是指根据业务的不同需要,用适当的模型设计方式将抽取来的大量数据进行分组、汇总并进行分析的过程;
[0048]3)模型设计方式
[0049]数据分析模型设计方式通常分为3种建模方式:即星型模型、雪花模型和混合模型;
[0050](I)星型模型
[0051]星型模型具有用户容易理解、优化浏览、适于查询处理等优点,但是维度数据可能会增加分析数据的容量,造成较大的数据冗余;
[0052](2)雪花模型
[0053]雪花模型最大限度的减少数据存储量以及把较小的标准化数据联合在一起来改善查询性能;由于采取了标准化及维的较小的粒度,雪花模型增加了应用程序的灵活性,对星型模型的维度数据作进一步层次化,原有的维度数据可能被扩展为小的分析数据,形成一些小的局部的“层次”;雪花模式最大限度地减少数据存储量以及联合较小的维度数据来改善查询性能;
[0054](3)混合模型
[0055]混合模型兼具了星型模型和雪花模型的优点,在具有复杂的维度、层级和粒度数据情况下,可以提供快捷的查询服务,更适合于数据分析的模型设计。
[0056]所述步骤7包括,
[0057](I) SQL 引擎
[0058]SQL引擎由许多不同的存储过程组成,存储过程与事务处理不同,可以为存储过程制定名称,编译并保存在数据库服务器中,每个存储过程调用都依赖于相应的维度数据和分析数据;
[0059](2)调度算法
[0060]调度算法将SQL引擎获取到的维度数据进行调用,并将的维度数据再次通过SQL引擎获取数据,得到最后的分析数据;
[0061]包引擎包括两种类型的包和一个调度算法,一种是主包,另一种是通用包,主包通过SQL引擎,读取业务数据维度信息,获得了维度数据信息后,主包调用执行已经被参数化的通用包,通用包的功能主要是从数据源导入数据到目标表中。
[0062]本发明的优点是,它能够快速有效的对大量数据进行处理的数据分析方法。
【附图说明】
[0063]图1为本发明所提供的一种基于模型驱动的数据分析方法流程图。
【具体实施方式】
[0064]下面结合附图和实施例对本发明进行详细介绍:
[0065]一种基于模型驱动的数据分析方法,包括以下步骤:
[0066]步骤I准备工作
[0067]根据业务需要分析,收集相关的信息,包括业务需求文件、技术要求文件;项目管理计划要求。
[0068]步骤2系统定义
[0069]系统定义包括:业务指标分析;确定数据分析维度;确定数据分析粒度;确定数据分析层级。
[0070]I)业务指标分析
[0071]在技术要求文件中技术限定的条件下,根据步骤I中的需求分析,明确业务指标的名称、定义、数据来源、计算公式等信息。
[0072]业务指标一般按照以下原则确定:
[0073](I)业务指标必须是业务流转中特定的工作指标,不能笼统。
[0074](2)业务指标是可以数量化或者行为化的,验证这些绩效指标的数据或者信息是可以获得的。
[0075](3)业务指标是在付出努力的情况下可以实现,避免设立过高或过低的目标。
[0076](4)业务指标是可以证明和观察的。
[0077](5)业务指标是在一定时间限制内完成的。
[0078]2)确定数据分析维度
[0079]维度即分析事物的角度。维度属性是数据分析的约束条件、报表标签生成的基本来源,是数据模型中不可或缺的的基本单位,维度属性的详细程度直接影响着数据的分析层级和分析粒度。维度属性越详细,数据分析层级就越深,分析粒度就越小,反之,数据分析层级浅,分析粒度大。
[0080]数据分析维度一般按照以下原则确认:
[0081](I)数据值不参与运算,可以作为其他运算数据的约束条件。
[0082](2)数据值是固定的,在一定的时期内不易变化的。
[0083](3)选取与业务有关联关系的、有意义的维度值。
[0084]3)确定数据分析层级
[0085]数据分析层级指从宏观的汇总信息通过层层分析到明细的微观数据的过程。数据分析层级的确定需要注意以下事项:
[0086](I)在业务需求的引导下,分析层级之间必须具备一定的逻辑关系。
[0087](2)分析的层级越多,维度数据就越详细,建模难度就越大。
[0088](3)不同层级的人员,进入的分析层级不同,通常建议一个维度的层级小于等于4层。
[0089]4)确定数据分析粒度
[0090]粒度即数据汇总的程度。不同层级的人员需要的数据粒度不同,数据分析粒度就是根据步骤I中的需求分析,对业务数据的汇总程度进行规划。
[0091](I)最小的数据分析粒度为从操作型系统中直接抽取的操作型数据。
[0092](2)数据分析粒度应当结合数据分析层级进行设计。
[0093](3)数据分析粒度越小,可查询的信息就越多;反之,查询的信息就越少。
[0094]步骤3数据抽取
[0095]数据抽取(data extract):数据源接口。包括原始数据接口和外部数据接口。源数据接口从业务系
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1