Hadoop大数据平台多租户作业管理方法及其系统与流程

文档序号：12664975阅读：3619来源：国知局

本发明涉及大数据平台技术领域，尤其涉及一种Hadoop大数据平台多租户作业管理方法及其系统。

背景技术：

随着大数据时代的到来，构建了越来越多的大数据平台，很多公司也有了自己的大数据平台，并基于此构建了自己的大数据应用。目前，很多公司的大数据平台都是使用单一的租户，所有用户通过一个共同的租户向平台提交作业。因此，权限、资源、队列、作业信息等都无法很好的隔离和管理。这种方式会导致大数据平台不稳定，增加日常维护的成本。例如，开发人员和运行工作流的人员使用相同的用户，这样导致开发和测试的作业与每天线上运行的定时作业使用相同的集群资源池，相同的数据权限。而共用资源池会引发资源的争抢，导致线上定时作业不能按时完成。数据权限的混乱经常会出现因为开发人员的误操作，导致线上数据被误删除。这些都造成了大数据平台的不稳定性。

面对上述问题，现有技术一般有两类解决方案：

一是基于编码规则的作业提交方案，这种方案要求用户提交的作业必须按照规则去编码，然后由平台相关程序来设置作业信息。比如，不能在MR(MapReduce，基于Hadoop平台的一个分布式离线计算框架)代码里面写作业名，不能在MR代码里设置MapReduce资源，队列等。因为Hadoop默认写在代码里面的作业信息的优先级最高，会覆盖所有别的方式设置的作业参数。

二是基于文本解析的作业提交方案，这种方案会使用文本分析器去分析用户编写的程序，然后过滤出用户自己设置的非法作业参数。这对用户来说是非常不友好的，而且，分析源代码需要很大的资源消耗，会在很大程序上增加平台的建设成本。

以上两种方法都有非常多的缺点，第一种方案对用户来说限制太多，大大降低了用户作业的灵活性。第二种方案可移植性太差，需要专用的文本解析平台的协调工作。

技术实现要素：

本发明的主要目的在于提供一种Hadoop大数据平台多租户作业管理方法及其系统，以解决现有技术中的上述问题。

根据本发明实施例提供一种Hadoop大数据平台多租户作业管理方法，其包括：为指定用户预分配作业资源信息；提供作业提交界面，通过所述作业提交界面接收来自指定用户的作业数据及其作业参数；根据所述作业资源信息对所述作业数据进行包装，建立所述作业资源信息与所述作业数据之间的对应关系；当所述作业数据被调度时，根据所述作业资源信息设置所述作业数据的作业参数，以使根据所述作业参数在大数据平台运行所述作业数据。

其中，所述对所述作业数据进行包装，还包括：为所述作业数据设置作业标识。

其中，所述方法还包括：当所述作业数据信息被调度时拦截所述作业数据，判断所述作业数据信息是否设置有作业标识，若是则执行根据所述作业参数设置所述作业数据的作业参数的步骤。

其中，所述方法还包括：生成新的作业提交模块，所述新的作业提交模块的优先级高于Hadoop原生作业提交模块；当所述作业数据被调度时，执行所述新的作业提交模块，根据所述作业资源信息设置所述作业数据的预定的作业参数。

其中，所述作业资源信息包括：用户对应的大数据平台租户信息、该租户在大数据平台上使用的资源信息。

其中，所述作业数据的相关参数信息包括：作业标识、MapReduce资源信息。

根据本发明实施例还提供一种Hadoop大数据平台多租户作业管理系统，其包括：资源预分配模块，用于为指定用户预分配作业资源信息；作业提交界面，用于接收来自指定用户的作业数据及其作业参数；作业包装模块，用于根据所述作业资源信息对所述作业数据进行包装，建立所述作业资源信息与所述作业数据之间的对应关系；作业提交模块，用于当所述作业数据被调度时，根据所述作业资源信息设置所述作业数据的作业参数，以使根据所述作业参数在大数据平台运行所述作业数据。

其中，所述作业包装模块还用于，为所述作业数据设置作业标识。

其中，所述系统还包括：作业选择模块，用于当所述作业数据信息被调度时拦截所述作业数据，判断所述作业数据信息是否设置有作业标识，若是则执行所述作业提交模块的处理。

其中，所述作业提交模块的优先级高于Hadoop原生作业提交模块。

根据本发明的技术方案，通过预先为每个指定用户预先分配作业资源信息，根据所述作业资源信息设置所述作业数据的作业参数，以使根据所述作业参数在大数据平台运行所述作业数据，降低了大数据平台的资源消耗，节省了平台的建设成本。并且，本发明的技术方案简单、易用，具有良好的用户交互体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明一个实施例的大数据平台多租户作业管理方法的流程图；

图2是本发明另一实施例的大数据平台多租户作业管理方法的流程图；

图3是根据本发明实施例的大数据平台多租户作业管理系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

本发明提供一种大数据平台多租户作业管理方法，该方法可应用于大数据平台多租户作业管理系统(简称为Bdagent系统)，该系统可设置于大数据平台的客户端。

图1是根据本发明一个实施例的大数据平台多租户作业管理方法的流程图。如图1所示，所述方法包括：

步骤S102，为指定用户预分配作业资源信息。

为大数据平台的多个用户中的每个用户预先分配与作业(job)相关的资源信息，其中所述资源信息主要包括：用户对应的大数据平台租户，该租户在大数据平台上可以使用的资源队列，以及资源配额。其中租户是指在大数据平台上提交作业的用户，多个用户可以使用同一个租户提交作业。租户是大数据平台上的真正用户，平台的权限、资源、作业信息都是以租户为单位来进行管理的。

步骤S104，提供作业提交界面，通过所述作业提交界面接收来自指定用户的作业数据及其作业参数。

在本发明实施例中，为用户提供了一个指定的作业提交界面，使用户开发好的程序或脚本等作业数据通过该指定的界面提交。用户在所述作业提交界面不仅需要提交其作业数据，还需要提供该作业数据对应的一些相关参数信息，例如包括：作业标识、使用的MapReduce资源信息等。

具体地，用户通过作业提交界面将MR程序或HSQL脚本等作业数据提交，并输入作业标识(例如作业名)、MapReduce资源信息(内存信息以及作业希望提交到的资源队列名称)。通过作业提交界面接收到用户的作业数据后，存储该作业数据。

步骤S106，根据所述作业资源信息对所述作业数据进行包装，建立所述作业资源信息与所述作业数据之间的对应关系。

在本发明实施例中，根据为用户的作业数据预分配的资源信息包装该作业数据，这个过程对用户来说是透明的，用户完全不用关心自己作业提交流程中的任何环节。通过本步骤，用户的标准作业已经被自动的设置了作业信息相关的参数。

步骤S108，当所述作业数据被调度时，根据所述作业资源信息设置所述作业数据的作业参数，以使根据所述作业参数在大数据平台运行所述作业数据。

根据本实施例，通过预先为每个指定用户预先分配作业资源信息，根据所述作业资源信息设置所述作业数据的作业参数，以使根据所述作业参数在大数据平台运行所述作业数据，降低了大数据平台的资源消耗，节省了平台的建设成本。

下面结合图2详细描述上述处理的细节。图2是根据本发明另一实施例的大数据平台多租户作业管理方法的流程图，如图2所示，所述方法包括：

步骤S202，确定Bdagent系统的用户信息，为每个使用Bdagent的用户的作业数据预分配资源信息，其中主要包括：用户对应的大数据平台租户、该租户在大数据平台上可以使用的资源队列、以及资源配额。

步骤S204，为用户提供了一个作业提交界面，用户按照MR或hsql标准开发完MR程序或hsql脚本，通过该界面提交。Bdagent作业提交界面提供用户输入自己的作业名、MapReduce使用的内存、以及作业希望提交到的资源队列。用户在作业开发以及作业提交过程中，完全不需关注作业管理相关的规则，也就是说，对业务开发人员来说完全是透明的，用户只需要关心自己的业务逻辑即可。

步骤S206，作业保存后会进入作业包装器(作业包装模块)，该作业包装器会根据为该用户配置的租户、作业名称、资源，队列信息包装该作业，这个过程对用户来说是透明的，用户完全不用关心自己作业提交流程中的任何环节。通过本步骤，用户的标准作业已经被自动的设置了作业信息相关的参数。

步骤S208，当作业被调度(可以是任何方式的作业调度，本申请对此不进行限制)时，作业开始真正进入提交流程。任何方式的作业调度都会被Bdagent拦截，因为Bdagent是基于hadoop的jvm开发的，Bdagent拦截作业提交过程后会进入作业选择器(或作业选择模块)。Bdagent作业选择器会根据作业中是否被设置了Bdagent作业标识来判断该作业是否是通过步骤S206中的包装器包装过的。通过本步骤，保证了用户在部署Bdagent后不但可以使用Bdagent来提交作业，而且原来的作业也不会受到影响，大大提高了兼容性。

步骤S210，当作业被作业选择器判断为Bdagent管理的作业后，就会进入Bdagent作业提交模块。该模块的代码是通过重写了Hadoop原生作业提交代码的关键方法产生的同名代码。通过在Hadoop层面进行基于jvm的代理，保证了Bdagent作业提交模块和Hadoop原生作业提交模块这两个同名代码中，Bdagent的代码的优先级更高。这样就覆盖Hadoop原生的提交作业代码，从而实现了不修改Hadoop源码的前提下覆盖用户MR和HSQL中的预定的用户参数，并设置成在步骤S206给作业包装好的作业参数。

步骤S212，作业运行时会实时的跟踪作业的运行状态，这一过程是根据步骤S206中作业包装器添加的作业信息以及作业提交时间来检索的。Bdagent提供作业整个生命周期的日志信息的查看，以及状态监控和管理。

根据本发明实施例还提供一种Hadoop大数据平台多租户作业管理系统，该系统可设置于大数据平台的客户端。

参考图3，所述大数据平台多租户作业管理系统至少包括：资源预分配模块31、作业提交界面32、作业包装模块33和作业提交模块34，下面详细描述各模块的结构和连接关系。

资源预分配模块31，用于为指定用户预分配作业资源信息；其中，所述作业资源信息包括：用户对应的大数据平台租户信息、该租户在大数据平台上使用的资源信息。

作业提交界面32，用于接收来自指定用户的作业数据及其作业参数；其中，所述作业数据的相关参数信息包括：作业标识、MapReduce资源信息。

作业包装模块33，用于根据所述作业资源信息对所述作业数据进行包装，建立所述作业资源信息与所述作业数据之间的对应关系。

作业提交模块34，用于当所述作业数据被调度时，根据所述作业资源信息设置所述作业数据的作业参数，以使根据所述作业参数在大数据平台运行所述作业数据。其中，所述作业提交模块34的优先级高于Hadoop原生作业提交模块。

所述作业提交模块34的代码是通过重写Hadoop原生作业提交代码的关键方法产生的同名代码。通过Hadoop层面的jvm代理，保证了作业提交模块34和Hadoop原生作业提交模块这两个同名代码中，作业提交模块34的代码的优先级更高。这样就覆盖Hadoop原生的提交作业代码，从而实现了不修改Hadoop源码的前提下覆盖用户MRr和HSQL中的预定的用户参数，并设置成作业包装模块33给作业包装好的作业参数。

其中，所述作业包装模块33还用于，为所述作业数据设置作业标识。

继续参考图3，所述系统还包括：作业选择模块35，其耦接在作业包装模块33和作业提交模块34之间，用于当所述作业数据信息被调度时拦截所述作业数据，判断所述作业数据信息是否设置有作业标识，若是则执行所述作业提交模块的处理。

本发明的方法的操作步骤与系统的结构特征对应，可以相互参照，不再一一赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏萌;刘国栋;刘钰;赵群;高俊
技术所有人：北京百分点信息科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。