一种基于工作流的大数据分析方法与流程

文档序号:11950415阅读:428来源:国知局

本发明涉及数据处理算法技术领域,具体地说是一种基于工作流的大数据分析方法。



背景技术:

随着信息时代的到来,数据的积累成几何倍增长。为了从已有的海量数据中挖掘有效信息,出现了各种不同的数据挖掘算法。

在数据挖掘中,无法立即确定最合适的算法,需要通过不断的尝试不同的算法,或者算法组合来获得不同的计算模型。根据模型评估,获得最佳的处理方案、以及最优的分析模型。

如果数据分析人员需要既懂算法的原理,又要懂算法的具体代码实现,那对技术人员要求较高,并且在实现不同的算法组合分析数据时,需要不断调整编码,较为繁琐。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种基于工作流的大数据分析方法,使得用户可以完全不了解代码实现,只关注数据分析的流程调整以及结果。

本发明解决其技术问题所采用的技术方案是:

一种基于工作流的大数据分析方法,包括可视化流程式数据分析处理,基于有向无环图的流程编辑规范,生成可在内存分布式计算框架下运行的规范代码,可将流程化数据分析处理方法以服务的形式对外发布;能够接收流式数据,提供并行处理服务请求能力,具有毫秒级响应能力;

以内存分布式计算框架作为数据分析过程的执行环境,向执行环境提交执行请求,采用分布式内存计算方式对数据进行挖掘分析;

大数据分析系统提供工作流调试功能,方便用户调整算法或参数;提供对数据的可视化展示功能;提供对多种数据源的支持,进而实现一站式大数据分析系统。

优选的,采用b/s架构,用户可以通过浏览器对流程进行绘制,包括流程编辑与调优,流程执行,模型评估与数据展示,服务发布。

进一步的,流程编辑与调优,首先增加流程节点,建立与其他节点的关系,编辑节点参数,直到流程编辑完成,通过调试模式对流程进行调试,调试过程中根据错误信息、计算结果、模型评估结果等,对流程进行调优。

进一步的,流程执行,大数据分析系统根据流程节点关系,对流程进行排序,排序后根据流程节点属性生成满足内存分布式框架的代码,将代码编译打包,将代码包提交到内存分布式框架进行运算,并实时监控计算过程。

进一步的,模型评估与数据展示,对分析后的结果进行评估,选择最优结果,使用可视化图形手段进行展示。

进一步的,服务发布,将流程进行服务发布,服务能够并行处理请求,能够接收流式数据,能够响应及时。为实现响应及时的功能,系统采用了缓存机制以及条件响应机制。

进一步的,流程的运行环境采用分布式内存计算框架。

基于工作流的大数据分析方法目的在于:

提供分布式算法,之前数据挖掘分析的门槛较高,科研人员既需要研究计算模型,又需要编码实现,这样对科研人员的要求太高。为了降低数据挖掘分析的门槛,使得数据挖掘分析比较大众化,就需要提供对已有算法的实现;

提供可编辑的流程化数据分析方法,目的是很方便的调整数据分析流程、流程节点参数,从而达到计算模型的最优,能够很大程度的提高工作效率;

提供分布式内存计算环境,为了适应对大数据的处理,当前手段是必须采取内存分布式计算,提高运算速度,提高分析效率;

作为数据分析平台,系统提供了算法开发规范、算法调试、流程调试、流程发布功能,开发者可以依托本系统进行有针对性的业务开发。

本发明的一种基于工作流的大数据分析方法和现有技术相比,具有以下有益效果:

凭借算法开发规范、算法调试、流程调试,能够使用户将本系统作为算法分析的开发平台,节省开发、部署、运营麻烦;

通过绘制算法流程,降低了数据挖掘分析的门槛,为数据挖掘分析提供了便利;

提供分布式内存计算环境,省去用户部署分布式计算环境的麻烦;

提供服务能力,能够作为服务中心对第三方提供数据挖掘分析支持服务;

系统胜任数据挖掘分析各个阶段的工作,作为一站式数据挖掘分析平台,提高分析挖掘的效率;

本发明将各种算法(如分类、聚类、关联、回归等)作为流程节点,可以随机的组合节点绘制成流程图,并根据流程图的算法节点关系,自动生成规范化代码,提交代码到内存分布式计算系统上执行,实现数据挖掘的分布式内存计算。这就使得用户可以完全不了解代码实现,只关注数据分析的流程调整以及结果。

附图说明

图1是数据分析流程的创建以及执行的过程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

一种基于工作流的大数据分析方法,包括可视化流程式数据分析处理,基于有向无环图的流程编辑规范,生成可在内存分布式计算框架下运行的规范代码,可将流程化数据分析处理方法以服务的形式对外发布;能够接收流式数据,提供并行处理服务请求能力,具有毫秒级响应能力;

以内存分布式计算框架作为数据分析过程的执行环境,向执行环境提交执行请求,采用分布式内存计算方式对数据进行挖掘分析;

大数据分析系统提供工作流调试功能,方便用户调整算法或参数;提供对数据的可视化展示功能;提供对多种数据源的支持,进而实现一站式大数据分析系统。

采用b/s架构,用户可以通过浏览器对流程进行绘制,包括流程编辑与调优,流程执行,模型评估与数据展示,服务发布。

流程编辑与调优,首先增加流程节点,建立与其他节点的关系,编辑节点参数,直到流程编辑完成,通过调试模式对流程进行调试,调试过程中根据错误信息、计算结果、模型评估结果等,对流程进行调优。

流程执行,大数据分析系统根据流程节点关系,对流程进行排序,排序后根据流程节点属性生成满足内存分布式框架的代码,将代码编译打包,将代码包提交到内存分布式框架进行运算,并实时监控计算过程。

模型评估与数据展示,对分析后的结果进行评估,选择最优结果,使用可视化图形手段进行展示。

服务发布,将流程进行服务发布,服务能够并行处理请求,能够接收流式数据,能够响应及时。为实现响应及时的功能,系统采用了缓存机制以及条件响应机制。

流程的运行环境采用分布式内存计算框架。

如图1所示,首先是新建流程,创建流程以后,可以向流程里拖放算法节点。已有算法可以直接添加到流程中。未有算法,根据算法开发规范,增加新的算法后,可以将新增加的算法加入到流程中。增加算法到流程后,可以修改算法中所用到的属性。编排完成后,提交到内存分布式框架上进行运算,并对运行结果进行评估。

通过分布式架构设计,构建全生命周期的数据挖掘管理,采用流程化设计,提供错误诊断机制,内嵌多种常用数据挖掘算法,为用户提供可视化自定义数据挖掘解决方案;

具有完备的数据准备、模型构建、模型评估、模型管理和结果展示等挖掘步骤,可为用户提供全生命周期的数据挖掘管理;

采用便利的数据流程化、可视化建模方式,使数据挖掘过程更加符合用户的业务分析过程,使操作过程流畅自然;

配备完善的帮助及错误诊断机制,提高了流程创建效率和结果准确性;

在囊括数据挖掘模型的基础上,内嵌多种国际常用算法,为用户提供可视化自定义数据挖掘解决方案。

通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

除说明书所述的技术特征外,均为本专业技术人员的已知技术。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1