大数据流程建模分析引擎的制作方法_2

文档序号:9787475阅读:来源:国知局
k、yarn和hdfs资源进行数据分析程序的执行。
[0020]界面层:提供数据分析建模操作的平台界面,每一个数据分析的算法包均在界面上以唯一标识的可拖拽式组件存在,用户通过界面操作各算法组件,并以有向线条连接,表示数据分析流程方向和步骤,组合成完整的业务数据分析算法模型,通过界面的启动功能运行后台任务调度模块和算法包,调度资源完成数据的快速分析和处理。
[0021 ]上述任务调度时使用深度优先搜索算法,其步骤如下:
(1)获取任务队列;
(2)递归拿到任务动作节点;
(3)调用ETL工厂类执行任务节点,返回为RDD,直到执行到end动作,表示节点运行成功。
[0022]如图2所示,dom4j解析是将解析器读入整个文档,然后构建一个驻留内存的树结构,使用DOM接口来操作这个树结构,由于流程的xml文件大小普通为几KB左右,故采用dom4j解析文件;其优点在于:整个文档树在内存中,便于操作;支持删除、修改、重新排列等多种功能;访问效率高。
[0023]如图3所示,流程节点表示任务可以并行执行,直到执行到end动作,表示节点运行成功;当运行时并未出现end动作,一直是节点时,表示错误的解析节点,如图4-6表示不同流程下运行到end动作的示意图。
[0024]如图7所示的一个非有向无环图,因为A点出发向B经C可回到A,形成一个环,将从C至IJA的边方向改为从A到C,则变成有向无环图。
[0025]有向无环图:在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。
[0026]有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。如图7,不为有向树,但为有向无环图。
[0027]由于业务的流程分支也存在多样性及流程输出固定性,可以将流程xml文件解析为有向无环图。每一种最终指向end标签的路线,都可划分为一个流程。图的每个节点可定义为一个需要运行的作业。
[0028]使用本发明对海量数据进行分析处理时通过界面层进行数据分析建模操作,生产数据分析模型,通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务,最终通过平台层的计算和存储资源执行任务得到结果。
[0029]基于内存计算框架spark进行大数据流程建模处理,spark框架的特点是高效,快速处理大量数据;而前端的展示页面则变得更人性化,简单的拖拽式的建模平台,完全适用于普通用户,用户完全可以随意搭配,快速得出想要的数据。
【主权项】
1.一种大数据流程建模分析引擎,其特征在于:包括平台层、任务调度层和界面层; 所述平台层完成资源调度、分配工作; 所述任务调度层包括校验模块、解析模块、任务调度模块和算法包;其中,所述校验模块提供数据分析流程是否符合流程设计规则的校验功能,符合校验规则的部分,可以进入解析模块;所述解析模块提供将界面层生成的数据分析流程的转换为可执行的数据分析流程任务的解析功能;所述任务调度模块根据解析模块生成的完整的数据分析流程,调度所述算法包中的各类数据分析算法接口,组成完整的可运行的分析流程任务程序,并调度底层资源进行数据分析程序的执行; 所述界面层:提供数据分析建模操作的平台界面,每一个数据分析的算法包均在界面上以唯一标识的可拖拽式组件存在,用户通过界面操作各算法组件,并以有向线条连接,表示数据分析流程方向和步骤,组合成完整的业务数据分析算法模型,通过界面的启动功能运行后台任务调度模块和算法包,调度资源完成数据的快速分析和处理。2.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述的数据分析流程建模均通过web页面的建模操作台进行,通过可拖拽的算法包与又向连接线的组合形成有向无环的数据分析模型。3.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述解析模块将整个界面层生产的数据分析流程模型转化为一个DAG有向无环图,由解析模块解析这个DAG图,生成完整的spark数据分析流程。4.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述解析模块读入整个前台页面生成的xml文档,构建一个驻留内存的树结构,使用DOM接口来操作这个树结构。5.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述解析模块是根据xml,将各步骤解析成有向无环图,end表示终结流程。6.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述任务调度时使用深度优先搜索算法,其步骤如下: (1)获取任务队列; (2)递归拿到任务动作节点; (3)调用ETL工厂类执行任务节点,返回为RDD,直到执行到end动作,表示节点运行成功。7.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述平台层以Hadoop平台为主;所述底层资源包括Hadoop平台中的spark、yarn和hdf s。8.根据权利要求1所述的大数据流程建模分析引擎,其特征在于:所述解析模块中采用dom4j解析文件。
【专利摘要】本发明公开了一种大数据流程建模分析引擎,包括界面层、应用逻辑层、数据分析算法层和平台层;对海量数据进行分析处理时通过界面层进行数据分析建模操作,生产数据分析模型,通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务,最终通过平台层的计算和存储资源执行任务得到结果;本发明基于spark的设计理念,在用户进行流程化数据建模分析操作,来解析用户的数据分析操作步骤及流程,最终通过流程调用spark,将用户的数据分析操作步骤全部进行内存处理后,最终输出结果,从而达到高效的一体化流程。
【IPC分类】G06F17/30
【公开号】CN105550268
【申请号】CN201510907357
【发明人】朱亚洲, 朱俊秀, 丁章明, 陈骥洲
【申请人】江苏曙光信息技术有限公司
【公开日】2016年5月4日
【申请日】2015年12月10日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1