用于分布式计算的资源分配方法、计算加速方法以及装置的制造方法_2

文档序号:8319209阅读:来源:国知局
用于根据所述调整因子调整所述待执行计算作业的数据文件的长度;
[0065]计算资源分配单元,用于根据调整后的待执行计算作业的数据文件的长度,分配计算资源;
[0066]计算作业执行单元,用于利用分配的计算资源,执行所述数据文件的计算作业;
[0067]判断及数据文件恢复单元,用于判断所述调整因子是否大于I ;并在所述调整因子大于I时将执行完计算作业的数据文件恢复为原始数据文件。
[0068]本申请提供的用于分布式计算的资源分配方法,不但考虑到数据文件的长度而且在分配计算资源之时,估算数据文件涉及的计算规模,并根据计算规模大小调整数据文件的长度,然后根据调整后的数据文件的长度分配计算资源,从而实现为数据文件分配与其计算规模相匹配的计算资源的目的;本方法使得分配的计算资源不但能够满足数据文件长度方面的需求,而且能够满足数据文件计算规模方面的需求,在充分合理利用计算资源的同时,还能保证更为有效的对数据文件进行处理。
[0069]本申请提供的用于分布式计算的资源分配方法,还提供了一种优选的实施方式,在根据数据文件的计算规模计算为其分配计算资源单位的预期值时,还要兼顾考虑计算平台可提供的计算资源单位的数目,选取两者中较小的数值作为分配计算资源单位的预期值,即:在计算资源充足的情况下,为数据文件分配与其计算规模相匹配的计算资源;在计算资源不足的情况下,为数据文件分配计算平台可提供的计算资源,从而避免出现因为计算平台的计算资源不足而导致资源分配失败的情况,确保资源分配成功。
[0070]本申请提供的用于分布式计算的计算加速方法,在为待执行计算作业的数据文件分配计算资源时,首先估算数据文件涉及的计算规模,并根据计算规模大小调整数据文件的长度,然后根据调整后的数据文件的长度,为数据文件分配与其计算规模相匹配的计算资源,从而加快数据文件参与的计算作业的执行速度,缩短运算时间,避免出现因为计算资源分配不足而导致的计算作业耗时冗长的情况,从而提高整个计算作业的效率。
[0071]本申请提供的用于分布式计算的计算加速方法,还提供了一种优选的实施方式,在为待执行计算作业的数据文件分配计算资源时,不仅要考虑数据文件的计算规模,还要兼顾考虑计算平台可提供的计算资源单位的数目,即:在计算资源充足的情况下,为数据文件分配与其计算规模相匹配的计算资源;在计算资源不足的情况下,为数据文件分配计算平台可提供的计算资源,从而确保待执行计算作业的数据文件能够得以执行。
【附图说明】
[0072]图1为本申请的用于分布式计算的资源分配方法的实施例的流程图;
[0073]图2为本申请的用于分布式计算的资源分配装置的实施例的示意图;
[0074]图3为本申请的用于分布式计算的计算加速方法的实施例的流程图;
[0075]图4为本申请的用于分布式计算的计算加速装置的实施例的示意图。
【具体实施方式】
[0076]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0077]在本申请中,分别提供了一种用于分布式计算的资源分配方法和装置、以及一种用于分布式计算的计算加速方法和装置。在下面的实施例中逐一进行详细说明。
[0078]请参考图1,其为本申请的一种用于分布式计算的资源分配方法的实施例的流程示意图。所述方法包括如下步骤:
[0079]步骤101:获取待执行计算作业的数据文件的实际长度。
[0080]本实施例的方法,主要涉及分布式计算领域。所谓分布式计算,主要用于把一个需要占用巨大计算资源的作业分解成若干个子作业,然后为这些子作业分别分配分散的、处于空闲状态的计算资源并进行计算处理,最后把这些计算结果综合起来得到最终的结果。[0081 ] 在上述分布式计算中,如何分配计算资源是一个重要的环节。通常,在分布式计算平台中,计算资源的分配是一个计算资源处理的模型,而按照文件大小进行分配是该模型中的一种计算方式,本申请提供的用于分布式计算的资源分配方法,就是基于上述方式的,因此,在实施本方法时,首先要获取待执行计算作业的数据文件的实际长度。
[0082]获取数据文件的实际长度,通常可以采用下述两种方式:读取所述数据文件头中的文件长度字段获取所述数据文件的实际长度;或者,读取计算平台的元数据库中的用于记录所述数据文件长度的字段获取所述数据文件的实际长度。在其他的实施方式中,也可以采取其他方式获取待执行计算作业的数据文件的实际长度,具体采用何种方式不是本申请的核心,本申请不作限定。
[0083]在本实施例的一个具体例子中,待执行计算作业的数据文件是一个需要作大当量级运算的元数据文件,通过读取计算平台的元数据库中的用于记录所述元数据文件长度的字段,获取所述元数据文件长度为300MB。
[0084]步骤102:根据所述待执行计算作业的数据文件的计算规模以及所述数据文件的实际长度获取所述数据文件的文件长度的调整因子。
[0085]本实施例中,提供的用于分布式计算的资源分配方法,虽然与现有技术一样,都是根据数据文件的长度分配计算资源,但是本实施例中提供的方法,还要考虑数据文件自身的特性,即:数据文件涉及的计算规模的大小,并根据计算规模大小调整数据文件的长度,实现为其分配与其计算规模相匹配的计算资源的目的。因此,在调整数据文件的长度之前,要根据待执行计算作业的数据文件的计算规模以及该文件的实际长度获取调整其文件长度的调整因子,该过程通过以下6个步骤实现:
[0086]I)估算所述待执行计算作业的数据文件的计算规模。
[0087]本实施例的一个具体的例子中,待执行的计算作业是:在海量的网站登录日志数据集里,抓取所有同IP登录的会员,给这些会员两两打上同IP登录的标签。当前待执行计算作业的元数据文件中有十万个用户的登录IP都相同,给这些会员两两打上同IP登录的标签,需要执行10万XlO万=100亿次处理,生成100亿对会员同IP登录的标签数据,计算规模为100亿。
[0088]2)根据所述待执行计算作业的数据文件的计算规模估算为所述数据文件分配计算资源单位的预期值。
[0089]根据上述步骤中获取的计算规模,以及在分布式计算平台中每个计算资源单位可以处理的计算规模,计算二者的比值,即为:为所述数据文件分配计算资源单位的预期值。所述每个计算资源单位可以处理的计算规模,可以采用固定的经验值,也可以根据系统的计算资源配置状况、以及待执行计算作业的数据文件所涉及的计算复杂程度的不同,在为待执行计算作业的数据文件分配计算资源之前进行动态调整,具体采用何种方式,不是本申请的核心,本申请不作限定。
[0090]在本实施例的一个具体例子中,步骤I)中估算的待执行计算作业的元数据文件的计算规模为:100亿次计算处理,而每个计算资源单位可以处理I亿次的计算量,因此,需要为待执行计算作业的数据文件分配计算资源单位的预期值就是:100亿/I亿=100个。
[0091]3)获取计算平台可提供的计算资源单位的数目。
[0092]在计算复杂度理论中,计算资源是指,在特定计算模型下,解决特定问题所要消耗的资源,最基本的计算资源是计算时间和计算空间(即:占用的计算内存)。在分布式计算平台中,计算资源的概念是指广义的电脑可用的配备,具体包括软件资源和硬件资源,其中硬件资源包括:计算机资源、处理器资源、存储资源、带宽资源等。这些计算资源被具体地量化,每个可分配的最小计算资源就称为一个计算资源单位,分布式计算平台根据每个计算作业的需求,为每个计算作业分配所需数目的空闲的计算资源单位。如上所述,在不同的实施方式中,计算资源的概念可能会有不同的限定,本申请对此不作限定。
[0093]计算平台可提供的计算资源单位的数目,可以存储在元数据库中的相应字段中,也可以存储在用来管理计算资源的特定设备上,并根据计算资源的分配情况进行实时更新。该信息的具体存储方式和维护方式不是本申请的核心,本申请不作限定。
[0094]在本实施例的一个具体的例子中,获取的计算平台可提供的计算资源单位的数目是 1000。
[0095]4)判断所述计算平台可提供的计算资源单位的数目与所述计算资源单位的预期值的大小;如果所述计算平台可提供的计算资源单位的数目小于所述计算资源单位的预期值,则采用所述计算平台可提供的计算资源单位的数目作为所述计算资源单位的预期值。
[0096]本申请提供的用于分布式计算的资源分配方法,其核心在于,根据待执行计算作业的数据文件的计算规模,调整所述数据文件的长度,并根据调整后的长度为所述数据文件分配计算资源。因此,在步骤2)中根据所述数据文件的计算规模获取了为所述数据文件分配计算资源单位的预期值后,就可以直接进行后续的计算调整因子、调整数据文件长度等步骤。之所以要在步骤3)中获取计算平台可提供的计算资源单位的数目,并且在本步骤4)中判断所述计算平台可提供的计算资源单位的数目与所述计算资源单位的预期值的大小,是为了获取更优的实施效果。
[0097]在分布式计算平台中,计算资源是一种有限的资源,随着计算作业的展开,计算资源单位会被逐渐消耗,可利用的计算资源单位会越来越少,可能会出现这样的情况:可用的空闲的计算资源单位的数目,少于待执行计算作业的数据文件所需的计算资源单位的数目;在这种情况下,无法根据待执行计算作业的数据文件的需求为其分配计算资源,自然就无法启动针对所述数据文件的计算作业。
[0098]为了避免出现上述情况,为了使待执行计算作业的数据文件能够顺利地分配到资源,从而开始后续的计算作业,本申请提供的方法提供了一种优选的实施方式,即在根据所述数据文件的计算规模估算计算资源单位的预期值之后,还要兼顾考虑分布式计算平台可提供的计算资源单位的数目,如果所述计算平台可提供
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1