基于映射规约模型分布式文件系统作业的运行方法与流程

文档序号:14719030发布日期:2018-06-17 00:22阅读:来源:国知局
技术特征:

1.一种基于映射规约模型分布式文件系统作业的运行方法,其特征在于,所述方法包括:

通过作业客户端将作业提交到作业追踪器上;

作业追踪器接收到作业后调用作业初始化模块对所述作业初始化得到多个任务,并通知任务调度器将所述任务分配给任务追踪器;

任务追踪器为接收到的任务准备运行环境,然后启动执行任务,并将资源使用情况和任务运行进度汇报给作业追踪器;

作业追踪器监控资源使用情况以及任务运行进度,并根据资源使用情况进行任务调度。

2.根据权利要求1所述的方法,其特征在于,所述通过作业客户端将作业提交到作业追踪器之前还包括:

获取作业标识码ID,生成分片文件以及将作业配置文件、数据分片元信息文件上传到创建的分布式文件系统目录下。

3.根据权利要求1所述的方法,其特征在于,所述通过作业客户端将作业提交到作业追踪器上的步骤,包括:

所述作业客户端通过远程过程调用RPC接口向作业追踪器提交作业。

4.根据权利要求1所述的方法,其特征在于,所述对作业初始包括:

根据输入数据量和作业配置参数将作业分解成多个安装任务、映射任务、归约任务和清理任务;

为作业创建一个作业进程对象,作业进程对象为每个任务创建一个任务进程对象用于维护对应任务的运行信息。

5.根据权利要求4所述的方法,其特征在于,所述安装任务,为作业初始化标识性任务,用于进行一些非常简单的作业初始化工作;

所述映射任务,为映射阶段处理数据的任务;

所述归约任务,为归约阶段处理数据的任务;

所述清理任务,为作业结束标志性任务,用于完成作业清理。

6.根据权利要求1所述的方法,其特征在于,所述任务追踪器为接收到的任务准备运行环境包括:

所述任务追踪器为每个任务启动一个独立的进程,并通过进程实现资源隔离。

7.根据权利要求1所述的方法,其特征在于,所述启动执行任务的步骤,包括:

映射任务执行过程:将对应的数据分片迭代解析成多个键/值对,依次调用映射函数map进行处理,将处理得到的中间结果存放到本地磁盘上;

归约任务执行过程:从远程节点上读取映射任务的中间结果,按照键对键/值对进行排序,依次读取<键,值列表>,调用归约函数处理,将最终结果存到分布式文件系统上。

8.根据权利要求1所述的方法,其特征在于,所述任务追踪器通过心跳周期性地将资源使用情况和任务运行进度汇报给作业追踪器;作业追踪器将任务列表以心跳应答的形式返回给对应的任务追踪器。

9.根据权利要求8所述的方法,其特征在于,所述作业追踪器根据资源使用情况进行任务调度的步骤,包括:

作业追踪器接收到任务追踪器上有空闲资源的心跳信息后,则调用任务调度器为该任务追踪器分配任务;

作业追踪器将新分配的任务封装成一个或多个登陆任务动作对象,将其添加到心跳应答中返回给任务追踪器;

任务追踪器收到心跳应答后,解析出登陆任务动作对象,并创建进程启动任务。

10.根据权利要求1或9所述的方法,其特征在于,所述任务调度器根据接收到任务的执行进度以及资源使用情况,选择合适的任务使用空闲的资源。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1