数据分析系统和方法

文档序号:8512582阅读:494来源:国知局
数据分析系统和方法
【技术领域】
[0001]本发明涉及数据处理,更具体地,涉及一种数据分析系统和方法。
【背景技术】
[0002]随着信息技术的发展,企业信息系统产生了大量的数据。如何从这些海量数据中提取对企业决策分析有用的信息成为企业决策管理人员所面临的重要难题。如何在企业数据仓库的基础上解决可视化灵活分析查询的问题随之而来。
[0003]传统上,所有的数据分析需求都须提交给数据部门,数据部门通过执行hadoop的map/reduce程序,快则I小时,慢则几天,才能将结果提供给业务部门。业务部门在获取数据后需要借助于办公软件或其他第三方软件进行数据分析,最终形成分析结果。随着需求的不断变化,往往业务部门需要多次这样反复这样的工作,时效性很差,很难满足业务需要。
[0004]这种传统的数据分析方案时间周期长且不可控,缺乏有效的系统化管理。针对需求变化,这种方案需有较长的响应时间。此外,缺乏可视化的数据分析系统,用户体验不佳。
[0005]因此,需要一种改进的数据分析方案。

【发明内容】

[0006]本发明的目的是提供一种数据分析系统和方法,能够在企业级数据架构(例如hadoop)的基础上,提供用户高效的(例如,秒级)的灵活可拖拽、可钻取的企业级数据分析方案。
[0007]根据本发明的第一方面,提供了一种数据分析系统,包括:调度器,用于分发以数据库查询语言描述的任务信息;数据分析引擎,用于将任务信息转换为分布式语法,以对数据建立索引;数据仓库,用于存储具有所建立的索引的数据;分析数据库,与数据仓库同步具有所建立的索引的数据;查询模块,用于接收与针对所述数据的至少一部分的查询相关联的元数据;以及配置模块,用于将元数据转换为数据分析引擎能够识别的第一语法。所述数据分析引擎被配置为将以第一语法描述的元数据转换为分析数据库能够识别的第二语法,所述分析数据库被配置为基于以第二语法描述的元数据来执行所述查询。
[0008]在一实施例中,所述数据库查询语言是HQL查询语言。
[0009]在一实施例中,所述分布式语法基于Map/Reduce模型,所述索引是Iucence索引。
[0010]在一实施例中,所述第一语法基于HQL查询语言,所述第二语法基于solr应用服务器。
[0011 ] 在一实施例中,所述查询模块包括用户接口,用于从用户接收元数据。
[0012]在一实施例中,所述数据分析引擎还被配置为从分析数据库接收查询结果,并将查询结果发送给配置模块,所述配置模块还被配置为将查询结果发送给查询模块,以及所述查询模块还被配置为向用户呈现查询结果。
[0013]根据本发明的第二方面,提供了一种数据分析方法,包括:向数据分析引擎分发以数据库查询语言描述的任务信息;数据分析引擎将任务信息转换为分布式语法,以对数据建立索引;将具有所建立的索引的数据存储在数据仓库中;将数据仓库中存储的具有所建立的索引的数据同步至分析数据库;接收与针对所述数据的至少一部分的查询相关联的元数据;将元数据转换为数据分析引擎能够识别的第一语法;数据分析引擎将以第一语法描述的元数据转换为分析数据库能够识别的第二语法;以及分析数据库基于以第二语法描述的元数据来执行所述查询。
[0014]上述第一方面的实施例也适用于第二方面。
[0015]根据本发明的实施例,能够能够在企业级数据架构的基础上,提供用户高效的的灵活可拖拽、可钻取的企业级数据分析方案。
【附图说明】
[0016]通过下面结合【附图说明】本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
[0017]图1是根据本发明实施例的数据分析系统的框图;
[0018]图2是根据本发明实施例的数据分析方法的流程图。
【具体实施方式】
[0019]以下将结合附图和具体实施例,对本发明的实施例进行详细阐述。应当注意,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了对与本发明没有直接关联的公知技术的详细描述,以防止对本发明的理解造成混淆。
[0020]图1是根据本发明实施例的数据分析系统100的框图。如图所示,数据分析系统100包括调度器110,数据分析引擎120,数据仓库130,分析数据库140,查询模块150和配置模块160。
[0021]调度器110用于分发以数据库查询语言(例如HQL查询语言)描述的任务信息。在一个示例中,调度器110基于Hadoop,可以实时监控任务并进行任务的调度。如果任务周期及时间满足预定调度条件,调度器110将以HQL查询语言描述的任务信息发给数据分析引擎120。任务信息可以指示对特定数据进行抽取,抽取的范围可以通过HQL进行描述,降低用户使用门槛。
[0022]数据分析引擎120用于将任务信息转换为分布式语法,以对数据建立索引。具体地,这里分布式语法可以基于Map/Reduce模型,索引可以是Iucence索引。在一个示例中,数据分析引擎120管理基于Hadoop的数据存储优化、抽取及外部服务,并作为数据仓库130和分析数据库140对外的接口。
[0023]数据仓库130用于存储具有所建立的索引的数据。在一个示例中,数据仓库130可以是企业数据仓库,包括企业原始数据存储,并且存储具有所建立的索引的数据。
[0024]分析数据库140与数据仓库130同步具有所建立的索引的数据。在一个示例中,分析数据库140负责数据的调度与服务。
[0025]查询模块150用于接收与针对具有所建立的索引的数据的至少一部分的查询相关联的元数据。查询模块150包括用户接口,用于从用户接收元数据。这里,元数据可以包括与查询相关的信息,如查询的条目,并且可以是以与用户接口向适应的格式或语言来描述的。在一个示例中,查询模块150基于海量数据的联机分析处理(OLAP)系统,提供所见即所得的数据分析界面,支持用户灵活拖拽、钻取等功能,并支持最终用户进行动态多维分析,其中包括跨维、在不同层次之间跨成员的计算。既满足了常用的OLAP需求,又基于数据分析引擎120解决了海量数据的性能问题,对应亿级别数据达到秒级响应速度。
[0026]配置模块160用于将元数据转换为数据分析引擎120能够识别的第一语法。这里,第一语法可以基于HQL查询语言。
[0027]然后,数据分析引擎120将以第一语法描述的元数据转换为分析数据库140能够识别的第二语法。这里,第二语法可以基于solr应用服务器。然后,分析数据库140基于以第二语法描述的元数据来执行查询。
[
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1