基于Hadoop多丛集环境的工作分派系统及方法

文档序号:6551946阅读:194来源:国知局
基于Hadoop多丛集环境的工作分派系统及方法
【专利摘要】一种基于Hadoop多丛集环境的工作分派的系统及方法,应用在多个大量数据处理的分布式计算机丛集,能够根据执行程序特征,待处理数据特性,与计算机丛集的动态行为,选择最佳的执行环境;可以降低不同运算特性的工作的排程等待时间,有效的加快运算分析的速度,并提升整体资源使用效率。该系统包括丛集监控模块、丛集特征模块、工作数据分析模块、工作程序分析模块以及执行环境选择模块。该方法通过掌握丛集特征、监控丛集运作情形、分析运算数据特性与程序运算特性等影响参数,进而运算比对找出最合适的丛集,再通过执行环境选择模块找到对应的丛集,并将用户工作,包含用户程序与输入数据派送到对应的丛集中执行。
【专利说明】基于Hadoop多丛集环境的工作分派系统及方法

【技术领域】
[0001]本发明涉及计算机丛集【技术领域】,特别涉及一种基于Hadoop多丛集环境的工作分派系统及方法。

【背景技术】
[0002]近年来因为大量的信息化,使得一般企业与政府机构面对的是爆炸性成长的数据量,无论是在数据储存、数据库或数据检索与数据探勘的领域中,都遭遇相同的问题,数据过滤与整理的庞大且耗时的工作,已无法由一台超级计算机负荷,转而导向通过大量的群组计算机同时进行运算,进而获得最大的效益。现今的信息领域采用云端服务的技术提供分布式计算来解决上述的问题,其中又以Apache Hadoop为主要的开放原始码解决方案之
O
[0003]Hadoop实做出一个分布式计算的处理框架概念称为MapReduce,通过将对数据进行的运算工作分发给网络上的每个节点处理,每个节点会周期性的把完成的工作和状态的更新报告回来,进而达成大规模的数据运算分析。在此处理框架之下,工作的排程与分派预设为FIFO(First In First Out)算法,虽然架构上简单,却因此忽略运算工作本质上需求的差异,可能造成某项工作长期占用资源的情况。此外,系统参数的调校是否能与运算工作本质上的需求相符合,也是另一项在Hadoop系统当中相当重要的因素,但是若需要满足此项条件,使用者往往需要针对不同的运算工作重新设定整体系统环境参数,以便让整体系统的效能与运作可以配合运算工作的需求。由此可见,上述传统的方法仍有诸多缺失。


【发明内容】

[0004]本发明的目的即在于提供一种装置与系统,特别是应用在多个大量数据处理的分布式计算机丛集,能够根据执行程序特征,待处理数据特性,与计算机丛集的动态行为,选择最佳的执行环境。可以降低不同运算特性的工作的排程等待时间,有效的加快运算分析的速度,并提升整体资源使用效率。
[0005]可达成上述发明目的的基于Hadoop多丛集环境的工作分派系统及方法,利用一组丛集特征与监控模块、工作数据与程序分析模块以及执行环境选择模块的结合,提供优化的Hadoop多丛集环境工作分派系统给用户执行大数据运算服务。其方法通过掌握丛集特征、监控丛集运作情形、分析运算数据特性与程序运算特性等影响参数,进而运算比对找出最合适的丛集,再通过执行环境选择模块找到对应的丛集,并将用户工作,包含用户程序与输入数据派送到对应的丛集中执行。

【专利附图】

【附图说明】
[0006]图1为本发明的基于Hadoop多丛集环境的工作分派系统架构图;
[0007]图2为本发明基于Hadoop多丛集环境的工作分派系统的运作流程图;
[0008]图3为本发明基于Hadoop多丛集环境的工作分派系统的执行环境选择流程图。
[0009]附图标记说明:
[0010]I工作分派系统
[0011]11特征数据库模块
[0012]12丛集特征模块
[0013]13丛集监控模块
[0014]14工作数据分析模块
[0015]15工作程序分析模块
[0016]16执行环境选择模块
[0017]2用户操作接口
[0018]3客户程序
[0019]4输入数据
[0020]5迷你丛集
[0021]6主机丛集

【具体实施方式】
[0022]为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本发明进行进一步详细说明:
[0023]如图1所示,为本发明基于Hadoop多丛集环境的工作分派系统的一种实施范例的架构示意图,包括:
[0024]特征数据库模块11,用以储存丛集特征模块12、丛集监控模块13、工作数据分析模块14、工作程序分析模块15的矩阵方程式;
[0025]丛集特征模块12,用以收集丛集中不会随着时间改变的静态特征,并以丛集静态特征矩阵方程式来描述其收集到的静态特征;
[0026]丛集监控模块13,用以定期收集每个丛集的动态特征,并分析动态特征曲线,以建立丛集动态特征矩阵方程式来描述丛集特征分析结果;
[0027]工作数据分析模块14,用以收集工作执行中不会随着时间改变的静态特征,并以工作静态特征矩阵方程式来描述其收集到的静态特征;
[0028]工作程序分析模块15,用以分析用户程序在执行时使用资源的情形,主要用以建立工作动态特征矩阵方程式来描述用户程序行为特征;
[0029]执行环境选择模块16,用以由工作程序分析模块15与丛集特征模块12建立的矩阵方程式中选出最适合用户工作的丛集,并将其送往对应的丛集。
[0030]本发明基于Hadoop多丛集环境的工作分派系统运作流程如图2所示,客户将其工作(包含客户程序3与输入数据4)通过用户操作接口 2送至Hadoop多丛集环境的工作分派系统1,工作分派系统I由客户工作特性与各主机丛集6特性找出最适合的丛集在将其送往此丛集执行,工作分派系统I中各个模块的说明如下。
[0031]首先,丛集监控模块13定期收集每个丛集的动态特征(例如CPU频率(GHz) ,Disk空间、Memory的使用量),并针对动态特征曲线进行分析,将分析结果转换成丛集动态特征矩阵方程式,再储存在特征数据库模块11。举例来说,定期收集N个丛集(C1-Cn)的η个动态特征,如每秒CPU频率(GHz)的使用量)、Disk空间的使用量)等,并以矩阵表示:
[0032]Ci = [CPU 使用量(% )Disk 空间使用量(% )...]nXk,I ≤ i ≤ N (I)
[0033]每个丛集各取时间间隔U1~tk),其中k为间隔总数,计算出每个时间间隔的平均使用量,并以nXk矩阵表示:

【权利要求】
1.一种基于Hadoop多丛集环境的工作分派的系统,其特征在于,包括: 特征数据库模块,用以储存丛集的静态、动态特征矩阵方程式和工作的静态、动态特征矩阵方程式; 丛集特征模块,主要负责分析各丛集的静态特征; 丛集监控模块,主要负责分析各丛集的动态特征; 工作数据分析模块,主要负责分析计算工作的静态特征; 工作程序分析模块,用以分析用户程序在执行时使用资源的情形;以及 执行环境选择模块,用以选出最适合用户工作的丛集,并将其送往对应的丛集执行。
2.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,丛集监控模块会定期收集每个丛集的动态特征,并针对动态特征曲线进行分析,将分析结果转换成丛集动态特征矩阵方程式,再储存在特征数据库模块。
3.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,该丛集特征模块主要负责分析丛集中不会随着时间改变的静态特征,并建立矩阵方程式来描述丛集的静态特征;当有新丛集加入系统时,丛集特征模块会分析其静态特征,并将数据转换成矩阵方程式储存在特征数据库模块中。
4.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,该工作数据分析模块主要负责分析计算工作执行中的数据特性与静态特征,并建立矩阵方程式来描述工作的静态特征 ;当有新工作进入工作分派系统时,数据分析模块会分析其静态特征,并将数据转换成矩阵方程式储存在特征数据库模块中。
5.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,该工作程序分析模块用于分析客户程序在处理数据时使用资源的情形与花费时间,并将收集到的数据转换成工作动态特征矩阵方程式储存在特征数据库模块。
6.根据权利要求1所述的基于Hadoop多丛集环境的工作分派的系统,其特征在于,该执行环境选择模块从特征数据库模块取得丛集监控模块、丛集特征模块、工作数据分析模块与工作程序分析模块分析的结果,并通过用户程序特征矩阵方程式将用户工作,包含用户程序与输入数据派送到对应的丛集中执行。
7.一种基于Hadoop多丛集环境的工作分派方法,其特征在于,包括以下步骤: 从特征数据库模块取得丛集监控模块、丛集特征模块、数据分析模块与工作程序分析模块的结果; 计算用户程序特征矩阵方程式与对应各丛集的丛集特征矩阵方程式; 通过用户程序特征矩阵方程式将对应各丛集的丛集特征矩阵方程式分类为最优先丛集特征矩阵方程式集合、次优先丛集特征矩阵方程式集合与不适合的丛集特征矩阵方程式集合; 若最优先丛集特征矩阵方程式集合并非空集合,则依据用户程序特征矩阵方程式从最优先丛集特征矩阵方程式集合选出最适合的丛集特征矩阵方程式; 若最优先丛集特征矩阵方程式集合为空集合,则检查次优先丛集特征矩阵方程式集合是否为空集合,若非空集合,则从中选出一个适合的丛集特征矩阵方程式; 通过选出的丛集特征矩阵方程式计算找到对应的丛集,并将用户工作,包含用户程序与输入数据派送到对应的丛集中执行;若最优先与次优先丛集特征矩阵方程式集合皆为空集合,则表示目前所有存在的丛集皆不适合执行用户工作 ,此时退回用户工作要求,并通知使用者。
【文档编号】G06F17/30GK104077398SQ201410310934
【公开日】2014年10月1日 申请日期:2014年6月30日 优先权日:2014年6月30日
【发明者】林威廷, 黄俊翔, 林修民, 黄瀞莹, 蔡庆堂 申请人:中华电信股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1