一种结合Spark技术构建灵活业务模型的方法与流程

文档序号:12666165阅读:602来源:国知局

本发明涉及数据处理技术领域,尤其是大数据分析应用领域,具体涉及一种结合Spark技术构建灵活业务模型的方法。



背景技术:

大数据蕴含大信息,大信息提炼大知识,大知识将在更高的层面、更广的视角、更大的范围帮助用户提高专项领域的数据应用能力,目前围绕大数据分析领域的技术手段越来越多,基于海量数据存储及分析的分布式计算技术越来越多的得到应用推广,比如目前较为流行的基于Hadoop技术存储及分析手段,该类手段在海量数据挖掘过程中日益体现出优势,然后围绕Hadoop技术的海量数据存储及分析也存在诸多问题,比如要求开发人员具备较强的算法模型构建能力以及业务模型转数据模型的转换能力,这些阻碍了围绕Hadoop技术的海量数据存储及分析深入应用。



技术实现要素:

本发明旨在解决基于Hadoop技术的海量数据存储及分析过程中存在业务模型构建繁琐、业务人员无法深入参与构建算法模型等问题,通过对支撑Spark架构运行技术服务进行改造,暴露相关服务接口,在通过建设一套服务工具,依托Spark服务接口构建面向业务人员的灵活建模工具,实现用户在页面上就可以轻松构建业务模型,不需要关注业务模型向算法模型转换的细节,然而这些转换执行由本发明的提供技术实现。

本发明的技术方案如下:

一种结合Spark技术构建灵活业务模型的方法,其特征在于:

(1)Spark封装:通过对Spark运行相关接口进行二次开发,对外暴露可以动态调整参数的接口;依托Spark接口服务提供接口进行应用开发,为不同领域的业务模型构建人员提供数据和服务支撑;

(2)搭建灵活建模工具,自定义模型配置功能,最大程度挖掘数据中心信息的价值,并可共享使用;为用户提供配置界面,根据业务需要,通过简单的配置,实现数据的可视化展示;根据综合数据库的情况建立轨迹分析模型;将原本需要根据业务场景定制的分析模型 抽象化为可配置的功能组件;

(3)监控服务:对Spark封装服务调用接口使用情况的实时监控,提供各种数据的访问统计功能,根据不同的条件进行各种数据的统计服务。

本发明产生消除了传统计算模式中的I/O性能瓶颈,大规模数据的处理性能将获得显著提升,并为海量数据实时处理打造了一条宽广的“高速公路”。

该发明能够不同业务数据分析的需求,基于特定的分析数据源定制开发的业务主题分析模块,释放业务建模人员建立算法模型压力,具有较好的实际应用推广价值。

具体实施方式

基于Hadoop海量数据处理流程包括Map(映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。本发明通过对Hadoop\Spark运行服务的优化,实现算法模型可根据灵活建模工具提供的可视化页面灵活定制。

本发明的设计技术方案内容包括Spark封装服务、灵活建模工具、监控服务子系统三个部分,以下将详细阐明各个子系统内容。

(1)Spark封装服务:

Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

在Spark的核心机制方面,主要有两个层面:首先是RDD(Resilient Distributed Datasets),RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现,它表示已被分区,不可变的并能够被并行操作的数据集合,并且通常缓存到内存中,并且每次对RDD数据集的操作之后的结果,都可以存放到内存中。其次,就是在RDD上面执行的算法操作(Operator),在Spark的支持算法操作方面,主要有转换(Transformation)和操作(Action)这两大类。本发明通过对Spark运行相关接口进行二次开发,对外暴露可以动态调整参数的接口。第二部分,灵活建模工具将依托Spark接口服务提供接口进行应用开发,为不同领域的业务模型构建人员提供数据和服务支撑。

(2)灵活建模工具:

根据自己需要自行灵活搭建符合自身业务的分析模型外,灵活建模工具提供自定义模型 配置功能,最大程度挖掘数据中心信息的价值,并可共享使用。

可视化分析工具基于WEB技术实现的,为用户提供配置界面,根据业务需要,通过简单的配置,实现数据的可视化展示。

分析模型配置功能模块用户可通过拖拽、填充表格等方式,以可视化形式,方便地进行数据源配置、数据对象配置、字典管理、方案模版配置以及方案调度策略配置,根据综合数据库的情况建立轨迹分析模型。

将业务分析模型通过“分析模型配置”模块予以实现。即将原本需要根据业务场景定制的分析模型抽象化为可配置的功能组件,高端用户或管理员可直接自定义所需的分析模型。

(3)监控服务:

监控服务子系统主要实现对Spark封装服务调用接口使用情况的实时监控,另外还提供各种数据的访问统计功能,可以灵活地进行统计,根据不同的条件进行各种数据的统计服务,主要包括数据访问量统计、用户/IP访问量统计等功能。

监控服务子系统组成部分包括:消息监控、服务异常监控、服务流量监控、统计分析、负载均衡、服务日志监控等内容。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1