大数据流程建模分析引擎的制作方法

文档序号:9787475阅读:566来源:国知局
大数据流程建模分析引擎的制作方法
【技术领域】
[0001]本发明属于大数据快速分析领域,具体涉及一种大数据流程建模分析引擎。
【背景技术】
[0002]现有技术中的大数据分析工具软件,基本都是基于本地化处理,将数据存在本地硬盘中,采用关系型数据库对于少量的数据进行处理分析,但对于海量数据,则无法进行有效的处理分析。
[0003]并且现有技术中的数据分析工具的前端页面展示过于繁琐,需要很专业的数据管理员才能操作,普通用户则望尘莫及,所以针对的用户群体比较狭隘,另外现在的数据处理分析采用关系型数据进行海量数据处理时效率低下,难以满足应用需求。

【发明内容】

[0004]发明目的:针对现有技术存在的问题,本发明提供一种可高效、快速处理大量数据的大数据流程建模分析引擎。
[0005]技术方案:一种大数据流程建模分析引擎,包括界面层、任务调度层和平台层;
所述平台层完成资源调度、分配工作;
所述任务调度层包括校验模块、解析模块、任务调度模块和算法包;其中,所述校验模块提供数据分析流程是否符合流程设计规则的校验功能,符合校验规则的部分,可以进入解析模块;所述解析模块提供将界面层生成的数据分析流程的转换为可执行的数据分析流程任务的解析功能;所述任务调度模块根据解析模块生成的完整的数据分析流程,调度所述算法包中的各类数据分析算法接口,组成完整的可运行的分析流程任务程序,并调度底层资源进行数据分析程序的执行;
所述界面层:提供数据分析建模操作的平台界面,每一个数据分析的算法包均在界面上以唯一标识的可拖拽式组件存在,用户通过界面操作各算法组件,并以有向线条连接,表示数据分析流程方向和步骤,组合成完整的业务数据分析算法模型,通过界面的启动功能运行后台任务调度模块和算法包,调度资源完成数据的快速分析和处理。
[0006]具体地,所述的数据分析流程建模均通过web页面的建模操作台进行,通过可拖拽的算法包与又向连接线的组合形成有向无环的数据分析模型。
[0007]具体地,所述解析模块将整个界面层生产的数据分析流程模型转化为一个DAG有向无环图,由解析模块解析这个DAG图,生成完整的spark数据分析流程。
[0008]具体地,所述解析模块读入整个前台页面生成的xml文档,构建一个驻留内存的树结构,使用DOM接口来操作这个树结构。
[0009]具体地,所述解析验证是根据xml,将各步骤解析成有向无环图,end表示终结流程。
[0010]具体地,所述任务调度时使用深度优先搜索算法,其步骤如下:
(I)获取任务队列; (2)递归拿到任务动作节点;
(3)调用ETL工厂类执行任务节点,返回为RDD,直到执行到end动作,表示节点运行成功。
[0011]具体地,所述平台层以Hadoop平台为主;所述底层资源包括Hadoop平台中的spark、yarn和hdfs0
[0012]具体地,所述解析模块中采用dom4j解析文件。
[0013]解释说明:1、spark设计理念是基于内存,多次计算,尽量避免文件输出到硬盘,以达到减少频繁1操作的问题。
[0014]2、深度优先搜索是一种在开发爬虫早期使用较多的方法,它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件),在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链;深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTM的其他超链接;当不再有其他超链接,表示节点结束。
[0015]有益效果:与现有技术相比,本发明的优点在于:基于spark的设计理念,在用户进行流程化数据建模分析操作,来解析用户的数据分析操作步骤及流程,最终通过流程调用spark,将用户的数据分析操作步骤全部进行内存处理后,最终输出结果,从而达到高效的一体化流程。
【附图说明】
[0016]图1是本发明的系统图;
图2是本发明的流程解析校验图;
图3是本发明的解析树示意图;
图4是单流程示意图;
图5是分支流程示意图;
图6是单输出流程示意图;
图7是流程映射不意图。
【具体实施方式】
[0017]下面结合附图和【具体实施方式】,进一步阐明本发明。
[0018]如图1所示,一种大数据流程建模分析引擎,包括界面层、任务调度层、平台层; 平台层:主要以Hadoop平台为主,本发明主要用到Hadoop平台中的yarn、spark和hdf s
作为发明的基础功能支撑;每一个基于本发明的数据分析流程任务的运行均需三者配合完成资源调度、分配等工作,yarn是一种通用的资源管理系统,可提供统一的资源管理和调度,spark是一个通用的并行计算框架,hdfs是一个高度容错性的系统;hdfs非常适合大规模数据集上的应用,实现流式读取文件系统数据的目的。
[0019]任务调度层:为本发明的主体部分,包好校验模块、解析模块、任务调度模块和算法包;其中,校验模块提供数据分析流程的是否符合流程设计规则的校验功能,符合校验规则的部分,可以进入解析模块;解析模块提供将界面层生成的数据分析流程的转换为可执行的数据分析流程任务的解析功能,将整个界面层生产的数据分析流程模型转化为一个DAG有向无环图,由解析模块解析这个DAG图,生成完整的spark数据分析流程,解析模块读入整个前台页面生成的xml文档,构建一个驻留内存的树结构,使用DOM接口来操作这个树结构;解析验证是根据xml,将各步骤解析成有向无环图,end表示终结流程,解析模块中采用dom4j解析文件;任务调度模块根据解析模块生成的完整的spark数据分析流程,调度算法包中的各类数据分析算法接口,组成完整的可运行的spark分析流程任务程序,并调度底层spar
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1