一种大数据分析模型的标记与解释系统及方法

文档序号:10534963阅读:223来源:国知局
一种大数据分析模型的标记与解释系统及方法
【专利摘要】本发明公开了一种大数据分析模型的标记与解释系统及方法,系统包括模型标记单元,模型管理单元、模型解释单元、模型编译单元和用户单元;所述模型标记单元用于对模型元数据的标记,所述模型管理单元用于对模型进行审批、元数据管理和索引,所述模型解释单元用于对用户作业进行解析和DAG关系图转化,所述模型编译单元用于模型依赖关系的构建、依赖库的下载和联合编译,所述用户单元用于对用户身份识别,用户对模型的设计实现、管理、提交。本发明解决了大数据分析过程中对模型的标记和解释,方便了用户创建作业时的操作,加快了模型的调用和解释过程。
【专利说明】
一种大数据分析模型的标记与解释系统及方法
技术领域
[0001 ]本发明涉及一种大数据分析模型的标记与解释系统及方法。
【背景技术】
[0002]近年来,随着大数据处理技术的不断发展,各式各样的大数据分析平台横空出世,它们也慢慢的开始支持各种不同类型的大数据任务类型的处理,它们的模型库中集成了Mahout、Pig、Crunch、DataFu等多种类型的函数模型,用户可以通过模型库中的各种模型构建大数据处理任务,创建并注册调度事务。但是这些作业的配置文件需要用户自己编写,文件的编译与解析也需要提交到远端服务器,常常耗费很多时间,缺乏一个可视化和本地的平台,可以方便地通过拖曳的方式进行作业设计与解析,再发布到远端执行引擎执行。
[0003]专利申请号:CN201010299093.4公开了一种XML元数据对象化解析系统,它由预设单元、定义单元、解析单元和实例化单元组成。其中,预设单元用于对XML数据结构的XMLShemale进行预定义;定义单元用于一句预设单元预设的XML Schema对XML数据中的数据元素进行定义;解析单元用于读取定义单元定义的XML数据,并对上XML数据进行解析;实例化单元用于实例化解析单元解析的XML数据对应的数据对象,形成与上述XML数据结构相同的数据对象。此专利使编程人员无需关心XML数据的解析工作,直接使用已经填充数据的对象,降低了程序的复杂度。但方法过于繁琐,需单独维护一个XML Schema文件。
[0004]专利申请号:CN201010524965.2公开了一种一种分布式工作流处理方法,该系统包括:监听的流程事件,获取所述流程事件的事件信息;根据所述事件信息,获取预先存储的所述流程事件关联的流程模板,生成流程实例,将所述流程实例以及其关联信息封装为流程实例组件;根据执行引擎列表中保存的执行引擎及其状态信息,通过调用所述流程实例关联的执行引擎提供的接口,将所述流程实例组件发送给所述执行引擎。该发明使得分布式环境下工作流引擎系统的扩展性更好,但是以整个作业的流程作为模板进行保存,缺乏灵活性。
[0005]现有的大数据模型专利或标记与解释方法实现的作业解析功能在用户作业的解释方面,大多依赖已存储的作业模板和预设的XML定义文件,特别是在作业模板方面,只简单的根据当前作业去调用作业模板,没有考虑到用户提交不同于现有模板的作业时的处理情况。

【发明内容】

[0006]本发明的目的在于克服现有技术的不足,提供一种大数据分析模型的标记与解释系统及方法,基于大数据分析模型、标记语言与解释编译相结合,符合企业的大数据分析与处理需求,并且创新性的使用大数据分析模型,并对模型的元数据进行标记,使用模型哈希值作为Key值进行索引存储,使得解释过程中能快速访问模型信息,并轻易的获取到模型的使用场景、执行的平台、数据源和相关依赖信息,同时,用户在调用时也能获取到模型的性能评估信息,为用户在模型选择的时候提供参考。
[0007]本发明的目的是通过以下技术方案来实现的:一种大数据分析模型的标记与解释系统,它包括:
模型标记单元,用于对模型信息进行标记,把模型的信息分为组成成分和基础信息两部分来进行标记,标记完所有信息后形成XML形式的模型描述文件,传入模型管理单元,等待用于解释;
模型管理单元,用于进行模型的审批、注册、模型标记描述和模型执行程序的索引、存储及管理;
模型解释单元,用于模型运行关系DAG图的转换,接收用户的模型,完成模型中模型的描述数据结构到DAG图元的一一映射关系转换,并进行DAG环检测,生成关系节点;进一步根据模型的XML标记文件解释出模型编译所需的依赖库文件、数据源和文件信息,最终生成一个XML文件类型的workflow文件,交予模型编译单元;
模型编译单元,接收来自模型解释单元的workflow文件,遍历workflow文件,根据每一个模型所依赖的库文件地址,获得当前模型运行所需要的所有依赖库文件信息,将其链接成一个下载内容文件,并根据下载内容文件,通知模型管理单元,查询依赖库存储地址,一次性将所有依赖的库文件下载到当前模型地址目录,并进行联合编译形成完整的分布式大数据存储平台可运行程序文件后提交给模型管理单元;
用户单元提供用户端的操作,对用户身份进行验证。
[0008]所述的将模型信息的组成成分使用B树结构进行描述,模型自身作为根节点,其组成成分作为子节点,便于解释单元查找模型对应的资源。
[0009]所述的模型的基础信息用自定义XML语言描述符作为标签的形式进行描述,模型名称、用途、使用场景、数据源、执行平台、所需依赖库文件和性能评估信息用自定义XML的描述符号进行标记并记录,形成模型元数据的通用标签描述;模型组件之间的逻辑关系,同样使用自定义XML描述符作为特殊标签进行描述;性能评估信息标签,除了包括执行用时、输入输出占用和CPU占用情况等性能数据值标签,还需一个历史描述符作为标签,记录历史执行信息。
[O 010 ] 所述的特殊XM L描述符标签为《f r om,t ο》。
[0011]所述的用户身份验证,当身份认证为管理员时,能够对模型管理单元中管理的所有模型进行操作,以便进行模型的设计,删除、修改;当身份认证是普通用户时,能够对属于自己的模型进行管理,请求模型的执行。
[0012]—种大数据分析模型的标记与解释方法,它包括如下步骤:
S1:用户登录,用户通过用户单元,远程输入账号密码,进行登录,用户单元对用户身份进行判断,若用户为普通用户,则能够编辑属于自己的模型,进行提交,请求执行;若为管理员,能够对所有用户提交的模型进行编辑执行外,还能够通过模型管理单元进行模型的删除;
52:模型标记,当用户把编辑的新模型提交给模型管理单元后,模型管理单元通知系统中的模型标记单元把模型的信息分为组成成分和基础信息两部分来进行标记,模型的组成成分,使用B树结构进行描述,模型的基础信息用XML描述符作为标签的形式进行描述,标记完成后,形成一个XML类型的描述文件;
53:模型存储,模型标记完成后,通知模型管理单元,并将形成的XML文件提交给模型管理单元,模型管理单元对传入的模型XML描述文件进行Hash化,得到模型的哈希值作为Key值,模型的XML文件信息作为Value值,以此将模型存储为Key-Value形式模型检索数据结构,根据该索引数据结构,该模型的XML文件连同提交的该模型所有的程序文件一同存入模型管理单元中的模型库,然后将本次模型的Key值存入模型管理单元中的模型索引表中;
S4:模型解释,模型管理单元接收用户提交的模型,并通知模型解释单元对模型进行解释,模型解释单元根据模型的XML文件中的entry标签,找到此标签下的节点所调用的模型,将其记录;按照XML文件中的hops标签提供的节点顺序信息,依次记录各个entry标签下节点调用的模型,形成一个关于模型运行关系的DAG图;依次遍历所有节点下模型的XML描述文件,集中记录所有模型执行所需的依赖库文件、数据源、文件信息和执行环境信息;最终转换成一个同样是XML文件类型的workflow工作流描述文件,输出给模型编译单元和模型管理单元;
S5:模型编译,模型编译单元接收来自模型解释单元的workflow输入文件,根据workflow输入文件中所记录的模型执行所需的依赖库文件、数据源、文件信息和执行环境信息,通知模型管理单元,查询所依赖的库文件所存储的地址,然后一次性下载所有的依赖库文件,将下载完成的依赖库文件和当前模型文件进行联合编译,将其打包为一个分布式大数据存储平台可运行的新模型的整体程序包,并放入该模型的workflow文件同目录下的Iib文件夹中,通知模型管理单元该模型已准备就绪,为可执行状态;
S6:模型执行,模型管理单元把执行目录下的workflow文件和打包的可运行程序包提交到分布式大数据存储平台执行;
S7:性能评估,模型执行过程中,模型管理单元记录下每一个模型本次的执行情况,执行完成后,将这些信息反馈给模型标记单元;模型标记单元依次从模型管理单元调出各个模型,在历史执行情况标签下添加本次模型执行的信息数据,然后根据包含本次在内的所有历史信息,求出这些评估信息的历史均值数据,并更新性能评估标签中记录的性能数据值。
[0013]所述的步骤S4中还包括记录过程中出现两个相同的模型的处理方法:若记录过程中出现两个相同的模型,则从第一次的出现此模型的时候开始,重新扫描这一段的模型,若出现两次的模型是同一个模型,说明此模型存在DAG环,返回错误;若一个节点出度为2,则需在此节点后增加一个XML描述符标记为fork的新节点,用于标记数据信息分支;若一个节点入度为2,则需在此节点前增加一个XML描述符为join的新节点,用于标记数据信息的汇聚。
[0014]本发明的有益效果是:本发明提供了一种大数据分析模型的标记与解释系统及方法,基于大数据分析模型、标记语言与解释编译相结合,符合企业的大数据分析与处理需求,并且创新性的使用大数据分析模型,并对模型的元数据进行标记,使用模型哈希值作为Key值进行索引存储,使得解释过程中能快速访问模型信息,并轻易的获取到模型的使用场景、执行的平台、数据源和相关依赖信息,同时,用户在调用时也能获取到模型的性能评估信息,为用户在模型选择的时候提供参考。
【附图说明】
[0015]图1为系统模块结构示意图; 图2为标记过程示意图;
图3为解释过程示意图。
【具体实施方式】
[0016]下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
[0017]如图1所示,一种大数据分析模型的标记与解释系统,它包括:
模型标记单元,用于对模型信息进行标记,把模型的信息分为组成成分和基础信息两部分来进行标记,模型信息的组成成分使用B树结构进行描述,模型自身作为根节点,其组成成分作为子节点,便于解释单元查找模型对应的资源,模型的基础信息用XML自定义描述符作为标签的形式进行描述,模型名称、用途、使用场景、数据源、执行平台(软硬件环境)、所需库文件和性能评估信息用XML中定义的描述符号进行标记并记录;模型组件之间的逻辑关系,同样使用XML定义的描述符作为特殊标签(fronuto)进行描述模型组件之间的逻辑关系;性能评估信息,除了定义一个XML的描述符作为标签进行包括执行用时、资源占用和CPU占用情况的性能数据值信息进行标记,另外还需定义一个XML描述符作为标签,进行历史执行信息记录。标记完所有信息后形成XML形式的模型描述文件,传入模型管理单元,等待用于解释。
[0018]模型管理单元,用于进行模型的审批、注册、模型标记描述和模型执行程序的索弓1、存储及管理;
模型解释单元,用于模型运行关系DAG图的转换,接收用户的模型,完成模型中模型的描述数据结构到DAG图元的一一映射关系转换,并进行DAG环检测,生成关系节点;进一步根据模型的XML标记文件解释出模型编译所需的依赖库文件、数据源和文件信息,最终生成一个XML文件类型的workflow文件,交予模型编译单元;
模型编译单元,接收来自模型解释单元的workflow文件,遍历workflow文件,根据每一个模型所依赖的库文件地址,获得当前模型运行所需要的所有依赖库文件信息,将其链接成一个下载内容文件,并根据下载内容文件,通知模型管理单元,查询依赖库存储地址,一次性将所有依赖的库文件下载到当前模型地址目录,并进行联合编译形成完整的分布式大数据存储平台可运行程序文件后提交给模型管理单元;
用户单元提供用户端的操作,包括用户身份验证、模型设计实现、管理、提交等。
[0019]所述的用户身份验证,当身份认证为管理员时,能够对模型管理单元中管理的所有模型进行操作,以便进行模型的设计,删除、修改;当身份认证是普通用户时,能够对属于自己的模型进行管理,请求模型的执行。
[0020]一种大数据分析模型的标记与解释方法,它包括如下步骤:
S1:用户登录,用户通过用户单元,远程输入账号密码,进行登录,用户单元对用户身份进行判断,若用户为普通用户,则能够编辑属于自己的模型,进行提交,请求执行;若为管理员,能够对所有用户提交的模型进行编辑执行外,还能够通过模型管理单元进行模型的删除;如图1所示步骤I,用户通过用户单元提交模型与执行请求。
[0021 ] S2:模型标记,如图1步骤2所示,当用户把编辑的新模型提交给模型管理单元后,模型管理单元请求系统中的模型标记单元对模型进行标记。如图2所示,模型标记单元把模型的信息分为组成成分和基础信息两部分来进行标记,模型的组成成分,使用B树结构进行描述,模型自身作为根节点,其组成成分作为子节点,便于解释单元查找模型对应的资源。模型的基础信息用XML描述符作为标签的形式进行描述,模型名称、用途、使用场景、数据源、执行平台(软硬件环境)和所需库文件等信息用用XML中定义的描述符号进行标记并记录;模型组件之间的逻辑关系,同样使用XML定义的描述符作为特殊标签(from,to)进行描述模型组件之间的逻辑关系;性能评估信息,除了定义一个XML的描述符作为标签进行包括执行用时、资源占用和CPU占用情况的信息进行标记,另外还需定义一个XML描述符作为标签,进行历史执行信息记录标记完成后,形成一个XML类型的描述文件。
[0022]S3:模型存储,如图1步骤3所示,模型标记完成后,通知模型管理单元,并将形成的XML文件提交给模型管理单元,模型管理单元对传入的模型XML描述文件进行Hash化,得到模型的哈希值作为Key值,模型的XML文件信息作为Value值,以此将模型存储为Key-Value形式模型检索数据结构,根据该索引数据结构,该模型的XML文件连同提交的该模型所有的程序文件一同存入模型管理单元中的模型库,然后将本次模型的Key值存入模型管理单元中的模型索引表中;
S4:模型解释,如图1步骤4所示,模型管理单元接收用户提交的模型,并通知模型解释单元对模型进行解释。如图3所示,模型解释单元根据模型的XML文件中的entry标签,找到此标签下的节点所调用的模型,将其记录;按照XML文件中的hops标签提供的节点顺序信息,依次记录各个entry标签下节点调用的模型,形成一个关于模型运行关系的DAG图;若记录过程中出现两个相同的模型,则从第一次出现此模型的时候开始,重新扫描这一段的模型,若出现两次的模型是同一个模型,说明此模型存在DAG环,返回错误;若一个节点出度为2,则需在此节点后增加一个XML描述符标记为fork的新节点,用于标记数据信息分支;若一个节点入度为2,则需在此节点前增加一个XML描述符为join的新节点,用于标记数据信息的汇聚。依次遍历所有节点下模型的XML描述文件,集中记录所有模型执行所需的依赖库文件、数据源、文件信息和执行环境信息;最终转换成一个同样是XML文件类型的workflow工作流描述文件,输出给模型编译单元和模型管理单元;
S5:模型编译,如图1步骤6所示,模型编译单元接收来自模型解释单元的workflow输入文件,根据workflow输入文件中所记录的模型执行所需的依赖库文件、数据源、文件信息和执行环境信息,通知模型管理单元,查询所依赖的库文件所存储的地址,然后一次性下载所有的依赖库文件,将下载完成的依赖库文件和当前模型文件进行联合编译,将其打包为一个分布式大数据存储平台可运行的新模型的整体程序包,并放入该模型的workflow文件同目录下的Iib文件夹中,通知模型管理单元该模型已准备就绪,为可执行状态;如图1步骤7所示。
[0023]S6:模型执行,模型管理单元把对应执行目录下的workflow文件和打包的可运行程序包提交到分布式大数据存储平台执行;
S7:性能评估,模型执行过程中,模型管理单元记录下每一个模型本次的执行情况,执行完成后,将这些信息反馈给模型标记单元;如图1步骤10所示,模型标记单元依次从模型管理单元调出各个模型,在历史执行情况标签下添加本次模型执行的信息数据,然后根据包含本次在内的所有历史信息,求出这些评估信息的历史均值数据,并更新性能评估标签中记录的性能数据值。
【主权项】
1.一种大数据分析模型的标记与解释系统,其特征在于,它包括: 模型标记单元,用于对模型信息进行标记,把模型的信息分为组成成分和基础信息两部分来进行标记,标记完所有信息后形成XML形式的模型描述文件,传入模型管理单元,等待用于解释; 模型管理单元,用于进行模型的审批、注册、模型标记描述和模型执行程序的索引、存储及管理; 模型解释单元,用于模型运行关系DAG图的转换,接收用户的模型,完成模型中模型的描述数据结构到DAG图元的一一映射关系转换,并进行DAG环检测,生成关系节点;进一步根据模型的XML标记文件解释出模型编译所需的依赖库文件、数据源和文件信息,最终生成一个XML文件类型的workflow文件,交予模型编译单元; 模型编译单元,接收来自模型解释单元的workflow文件,遍历workflow文件,根据每一个模型所依赖的库文件地址,获得当前模型运行所需要的所有依赖库文件信息,将其链接成一个下载内容文件,并根据下载内容文件,通知模型管理单元,查询依赖库存储地址,一次性将所有依赖的库文件下载到当前模型地址目录,并进行联合编译形成完整的分布式大数据存储平台可运行程序文件后提交给模型管理单元; 用户单元提供用户端的操作,对用户身份进行验证。2.根据权利要求1所述的一种大数据分析模型的标记与解释系统,其特征在于:所述的将模型信息的组成成分使用B树结构进行描述,模型自身作为根节点,其组成成分作为子节点,便于解释单元查找模型对应的资源。3.根据权利要求1所述的一种大数据分析模型的标记与解释系统,其特征在于:所述的模型的基础信息用自定义XML语言描述符作为标签的形式进行描述,模型名称、用途、使用场景、数据源、执行平台、所需依赖库文件和性能评估信息用自定义XML的描述符号进行标记并记录,形成模型元数据的通用标签描述;模型组件之间的逻辑关系,同样使用自定义XML描述符作为特殊标签进行描述;性能评估信息标签,除了包括执行用时、输入输出占用和(PU占用情况等性能数据值标签,还需一个历史描述符作为标签,记录历史执行信息。4.根据权利要求3所述的一种大数据分析模型的标记与解释系统,其特征在于:所述的特殊XML描述符标签为《from,to》。5.根据权利要求1所述的一种大数据分析模型的标记与解释系统,其特征在于:所述的用户身份验证,当身份认证为管理员时,能够对模型管理单元中管理的所有模型进行操作,以便进行模型的设计,删除、修改;当身份认证是普通用户时,能够对属于自己的模型进行管理,请求模型的执行。6.如权利要求1-5中的任意一项所述的一种大数据分析模型的标记与解释方法,其特征在于:它包括如下步骤: S1:用户登录,用户通过用户单元,远程输入账号密码,进行登录,用户单元对用户身份进行判断,若用户为普通用户,则能够编辑属于自己的模型,进行提交,请求执行;若为管理员,能够对所有用户提交的模型进行编辑执行外,还能够通过模型管理单元进行模型的删除; S2:模型标记,当用户把编辑的新模型提交给模型管理单元后,模型管理单元通知系统中的模型标记单元把模型的信息分为组成成分和基础信息两部分来进行标记,模型的组成成分,使用B树结构进行描述,模型的基础信息用XML描述符作为标签的形式进行描述,标记完成后,形成一个XML类型的描述文件; S3:模型存储,模型标记完成后,通知模型管理单元,并将形成的XML文件提交给模型管理单元,模型管理单元对传入的模型XML描述文件进行Hash化,得到模型的哈希值作为Key值,模型的XML文件信息作为Value值,以此将模型存储为Key-Value形式模型检索数据结构,根据该索引数据结构,该模型的XML文件连同提交的该模型所有的程序文件一同存入模型管理单元中的模型库,然后将本次模型的Key值存入模型管理单元中的模型索引表中; S4:模型解释,模型管理单元接收用户提交的模型,并通知模型解释单元对模型进行解释,模型解释单元根据模型的XML文件中的entry标签,找到此标签下的节点所调用的模型,将其记录;按照XML文件中的hops标签提供的节点顺序信息,依次记录各个entry标签下节点调用的模型,形成一个关于模型运行关系的DAG图;依次遍历所有节点下模型的XML描述文件,集中记录所有模型执行所需的依赖库文件、数据源、文件信息和执行环境信息;最终转换成一个同样是XML文件类型的workflow工作流描述文件,输出给模型编译单元和模型管理单元; S5:模型编译,模型编译单元接收来自模型解释单元的workflow输入文件,根据workflow输入文件中所记录的模型执行所需的依赖库文件、数据源、文件信息和执行环境信息,通知模型管理单元,查询所依赖的库文件所存储的地址,然后一次性下载所有的依赖库文件,将下载完成的依赖库文件和当前模型文件进行联合编译,将其打包为一个分布式大数据存储平台可运行的新模型的整体程序包,并放入该模型的workflow文件同目录下的Iib文件夹中,通知模型管理单元该模型已准备就绪,为可执行状态; S6:模型执行,模型管理单元把执行目录下的workflow文件和打包的可运行程序包提交到分布式大数据存储平台执行; S7:性能评估,模型执行过程中,模型管理单元记录下每一个模型本次的执行情况,执行完成后,将这些信息反馈给模型标记单元;模型标记单元依次从模型管理单元调出各个模型,在历史执行情况标签下添加本次模型执行的信息数据,然后根据包含本次在内的所有历史信息,求出这些评估信息的历史均值数据,并更新性能评估标签中记录的性能数据值。7.根据权利要求6所述的一种大数据分析模型飞标记与解释方法,其特征在于:所述的步骤S4中还包括记录过程中出现两个相同的模型的处理方法:若记录过程中出现两个相同的模型,则从第一次的出现此模型的时候开始,重新扫描这一段的模型,若出现两次的模型是同一个模型,说明此模型存在DAG环,返回错误;若一个节点出度为2,则需在此节点后增加一个XML描述符标记为fork的新节点,用于标记数据信息分支;若一个节点入度为2,则需在此节点前增加一个XML描述符为join的新节点,用于标记数据信息的汇聚。
【文档编号】G06F17/30GK105893509SQ201610192742
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】郝玉洁, 陶昌云, 王珂, 李年华
【申请人】电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1