一种多集群管理方法与设备与流程

文档序号:11843174阅读:215来源:国知局
一种多集群管理方法与设备与流程

本申请涉及计算机领域,尤其涉及一种多集群管理技术。



背景技术:

在现有技术中,对于集群资源的管理,一方面,仅仅局限于对单个集群内部的资源进行相应的资源调度和资源配额,但对于多集群环境中业务单元之间基于资源依赖进行频繁地资源调度而带来的资源平衡问题并没有很好解决;另一方面,虽然可以通过集群协作的方式进行了跨集群数据访问对象的复制,但是此类方法仅仅在业务需要访问数据时,才进行集群间数据选择和协作复制,由于缺乏对多集群中相关历史任务的数据分析和预测,往往无法满足日常生产性任务在运行时间上的要求,并且此类方法也没有解决多集群间资源整体分布和使用对应的资源平衡问题。



技术实现要素:

本申请的目的是提供一种多集群管理方法与设备。

根据本申请的一个方面,提供了一种多集群管理方法,包括:

获取多个集群的历史运行数据;

基于所述历史运行数据确定所述多个集群的未来需求信息;

基于所述未来需求信息确定所述多个集群的集群配置信息。

根据本申请的另一方面,还提供了一种多集群管理设备,包括:

第一装置,用于获取多个集群的历史运行数据;

第二装置,用于基于所述历史运行数据确定所述多个集群的未来需求信息;

第三装置,用于基于所述未来需求信息确定所述多个集群的集群配置信息。

与现有技术相比,本申请通过对获取的多个集群的历史运行数据进行处理和分析获得多个集群的未来需求信息,基于所述未来需求信息确定多个集群的集群配置信息。基于所述的集群配置信息,本申请可以在跨地域的多集群、大规模的数据处理环境中,实现多集群资源的合理分布和配置,达到全局资源的平衡优化,还可以在集群间资源条件允许的情况下,最大限度地高效实现跨集群的数据访问。进一步,在多集群环境中,通过确定所述多个集群中待调整业务单元,并进行相应的调整,使得在满足单个集群内部的资源配额的同时,降低集群间的数据访问量,从而在整体上节约了集群资源,形成了资源均衡的集群布局。更进一步,基于所获得的多个集群中的业务分布信息,再为跨集群数据访问进行数据复制配置,从而在集群内部和集群间资源条件允许的情况下,可以高效地实现跨集群数据访问。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出根据本申请一个方面的一种多集群管理设备的设备示意图;

图2示出根据本申请一个优选实施例的多集群管理设备的设备示意图;

图3示出根据本申请另一个优选实施例的多集群管理设备的设备示意图;

图4示出根据本申请另一个方面的一种多集群管理方法的流程图;

图5示出根据本申请一个优选实施例的一种多集群管理方法的流程图;

图6示出根据本申请另一个优选实施例的一种多集群管理方法的流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

图1示出根据本申请一个方面的一种多集群管理设备的设备示意图。所述多集群管理设备1包括第一装置11、第二装置12和第三装置13。

其中,第一装置11获取多个集群的历史运行数据;第二装置12基于所述历史运行数据确定所述多个集群的未来需求信息;第三装置13基于所述未来需求信息确定所述多个集群的集群配置信息。

具体地,所述第一装置11获取多个集群的历史运行数据。一般情况下,一个相对独立的业务对应的数据处理可以由一个业务单元独立完成;或是进一步,一个完整业务的处理需要基于一个集群中各个业务单元之间的数据依赖关系,通过集群内多个业务单元之间的数据共享和数据交换来完成,此时数据处理任务消耗着集群的数据资源,如集群的存储、计算等资源;或是更进一步,在跨地域的多集群环境中,进行更复杂的业务处理,此时集群之间的网络连通还会消耗集群间的的网络带宽等资源。在此,所 述历史运行数据包括一段时间内,在所述多个集群中完成各种数据处理任务对应的运行数据。在此,进行所述数据处理任务的数据单位可以包括集群、业务单元、数据项、数据项分区等不同维度。在本申请中,所述数据项包括一个数据的存储集合,如数据库中的表;所述数据项分区包括将所述数据项按一定的规则进行划分,目的是为了方便对数据进行分片处理,从而降低数据处理量;在所述业务单元中,各种数据按照一定的范式进行分层,各个业务单元之间可以基于具体的层级中的数据项展开数据访问。与此相应的,所述历史运行数据包括但不限于:业务单元、数据项、数据项分区的元数据;业务单元、数据项、数据项分区的存储占用量;数据处理任务的运行日志;集群间网络带宽使用量;集群、业务单元的存储、计算配额数据;集群间可用带宽配额数据,等等。其中,在本申请中,所述元数据包括业务单元、数据项、数据项分区的属性、特征等基本描述性数据;所述数据处理任务的运行日志主要包含的信息有所述数据处理任务对应的业务单元、任务启动结束时间、输入输出的数据项及相应的数据项分区、输入输出的数据量、占用的计算单位等,通过所述运行日志可以获知所述业务单元、数据项、数据项分区的计算占用量;所述各类配额数据,如上述存储、计算、带宽等对应的配额数据,可能在一段时间内保持不变,也可能基于实际需要有所变化调整。对于所述历史运行数据,特别是变化频率较高的数据信息,如所述业务单元、数据项、数据项分区的存储占用量、所述集群间网络带宽使用量和所述数据处理任务的运行日志等可以周期性地进行数据采样。

在此,所述多个集群的历史运行数据可以间接的通过第三方存储设备或数据库进行获取。优选地,也可以基于一定的数据处理平台直接进行所述历史运行数据的采集。本申请中,所述数据处理平台包括使用分布式存储和分布式计算等技术,提供大规模数据处理的计算机系统平台。例如,所述数据处理平台中各个模块中包含着运行日志采集功能,并由统一的日志管理系统将日志汇总到一起统一存储;又如,数据处理平台采用定时快照的方式将所述元数据汇总存储。

接着,所述第二装置12基于所述历史运行数据确定所述多个集群的 未来需求信息。

具体地,基于所获取的已有的历史运行数据,对所述多个集群中各个集群的内部以及集群间的数据处理情况进行分析,可以确定所述多个集群中各个数据项、各个业务单元、甚至是各个集群对应的各类资源的实际占用情况,基于所得到的实际资源占用信息,还可以进一步确定各个数据项之间、各个业务单元之间、甚至是各个集群之间的数据相互调用情况和相互依赖关系。基于对所述历史运行数据进行增长预测,可以预测所述多个集群在未来一段时间的资源需求信息。在此,优选地,所述的未来需求信息就是后续确定所述多个集群的集群配置信息,从而对多集群进行优化管理的数据基础。

优选地,所述多集群管理设备1的第二装置12包括第三单元(未示出)和第四单元(未示出)。其中,所述第三单元对所述历史运行数据进行数据处理;所述第四单元基于所述数据处理的结果,确定所述多个集群的未来需求信息。

具体地,通过所述第三单元对所述历史运行数据进行数据处理。如,可以对所述获取的所述历史运行数据进行转换、组合、连接等方式的加工处理。在此,以数据处理任务所占用的计算资源的加工处理为例,若是要计算多个集群中各个集群上计算资源的占用情况,以t分钟为采样周期,通过统计在一天中各个采样时刻多个集群中每个集群中所有数据处理任务占用的计算单位总和,得到各个集群中计算资源的占用情况。此时,所述转换即包括:将所述一天分成1440/t个采样点,遍历所获取的数据处理任务,若是某个数据处理任务覆盖了某个时刻的采样点,则把该数据处理任务添加到该时刻的采样点对应的数据处理任务集合中。所述连接即包括:以所述业务单元为条件,所述数据处理任务与哪个业务单元进行数据连接,则该数据处理任务就运行在所述业务单元所对应的集群中。所述组合即包括:在各个采样时刻,将运行在同一个集群中的各个所述数据处理任务占用的计算单位进行累加,即得到各个采样时刻,该集群的计算资源占用量。

在此,对于不同类型的历史运行数据,对应的加工处理方式可以有所 不同,即使是同一类型的历史运行数据,也可以根据需要进行不同方式的数据加工处理。

在此,本领域技术人员应能理解所述转换、组合、连接等方式的加工处理仅为举例,其他现有的或今后可能出现的其他对所述历史运行数据的加工处理方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

接着,所述第四单元基于所述数据处理的结果,确定所述多个集群的未来需求信息。在此,所述数据处理的结果包括多个维度上的资源指标数据,本方案中,所述多个维度包括数据项、业务单元、集群或时间等维度,其中所述时间维度与所述数据项、业务单元、集群等维度正交。所述资源指标数据包括存储资源占用量、计算资源占用量、相互间的数据依赖量、集群间的复制数据量、集群间直接访问数据量等。在此,对于每个维度会分别对应若干个资源指标数据,其中,各个维度可能使用相同的资源指标数据,如均统计所述存储资源占用量、计算资源占用量和相互间的数据依赖量。此外,各个维度对应的资源指标数据类型也可能各不相同,特别是,有些类型的资源指标数据只能够在特定维度予以考虑,例如集群间的复制数据量、集群间直接访问数据量等。在此,所述数据处理的结果还包括集群资源配额指标数据,例如,集群间数据访问权重,基于集群间可用带宽配额数据,为各个集群之间的数据访问设置权重,如两个集群间可用带宽越大,对应的数据访问权重越大。此时,基于所述历史运行数据中获取的、例如所述集群、业务单元的存储、计算配额数据、所述集群间可用带宽配额数据等数据信息,通过一定的处理,加工为相应的集群资源配额指标数据,进而可以体现现有的集群内部,以及多个集群之间各种资源的限制和差异,并为后续操作提供基础数据。在此,基于所述数据处理结果,进一步为所述多个集群的未来资源使用情况进行预测。

在此,本领域技术人员应能理解所述数多个维度上的指标数据和集群资源配额指标数据仅为举例,其他现有的或今后可能出现的其他数据处理的结果如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

更优选地,所述第四单元通过所述数据处理获得所述多个集群对应的资源指标数据;基于所述资源指标数据,通过指标预测确定所述多个集群的未来需求信息。

具体地,在此,优选地,通过指标预测确定所述多个集群的未来需求信息。通过对所述历史运行数据的加工处理,可以获得多个维度的所述资源指标数据,基于具体的资源指标数据,可以对未来一段时间内不同维度上资源需求进行预测,例如,预测出某个集群在未来一个月内的存储资源占用量、每日每个时间区间的计算资源占用量等。具体的指标预测方法包括:首先,基于所述加工后得到的资源指标数据,并结合一定的数据挖掘方法,建立一定的数据计算模型,在此,所述数据发掘方法包括但不限于线性回归、基于时间序列的季节性回归预测等方法;进而,基于所述数据计算模型,结合相应的参数数值,得到相应的资源指标对应的未来需求信息。在此,以预测业务单元的未来的存储资源占用量为例,基于所述数据处理平台每天采集到的存储资源占用信息,经过加工处理,可以得到过去一段时间,如T个月,每天的存储资源占用量,若以天数为变量x,以存储资源占用量为变量y,进行线性回归建模,则得到y=f(x)函数,进而基于所述数据计算模型们可以预测出N天后的所述业务单元的存储资源占用量。

在此,本领域技术人员应能理解所述基于所述资源指标数据,通过指标预测确定所述多个集群的未来需求信息仅为举例,其他现有的或今后可能出现的其他确定所述多个集群的未来需求信息的方法如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

接着,所述多集群管理设备1的第三装置13基于所述未来需求信息确定所述多个集群的集群配置信息。所述集群配置信息包括所述多个集群中的业务分布信息,或是所述多个集群间的数据复制配置信息。在此,所述多个集群中的业务分布信息包括每个集群中各种业务单元、数据项的部署信息;所述多个集群中的业务分布信息还包括各种集群资源的设置信息。在此,可以基于所述未来需求信息对所述多个集群中的业务分布信息进行安排,一般来说,目的是要使得所述多个集群对资源的未来需求在所 确定的业务分布信息的安排中得到满足。此外,跨集群访问数据时,若是直接远程读取数据,则可能会受到网络带宽、延时、抖动等因素的较大影响,特别是两个集群若是相跨较远时,这种不利影响就越加明显,所以优选地,通过将需要被跨集群访问的数据事先复制到所述发出访问请求的集群,在此,基于所述未来需求信息,可以预先确定需要备份什么数据,如何备份数据,从而能够确定一个更为合理的多集群件的数据复制配置信息。

在此,所述集群配置信息可以只包括所述多种集群配置信息中的任意一种,也可以同时包括所述多种集群配置信息中的多种,进一步,优选地,在后续的多集群管理中,可以同时结合多种集群配置信息进行相应的管理。例如,基于所述未来需求信息确定所述多个集群的业务分布信息,进而基于所述未来需求信息,并结合所述多个集群的业务分布信息进一步确定所述多个集群间的数据复制配置信息。

在此,本申请通过对获取的多个集群的历史运行数据进行处理和分析获得多个集群的未来需求信息,基于所述未来需求信息确定多个集群的集群配置信息。基于所述的集群配置信息,本申请可以在跨地域的多集群、大规模的数据处理环境中,实现多集群资源的合理分布和配置,达到全局资源的平衡优化,还可以在集群间资源条件允许的情况下,最大限度地高效实现跨集群的数据访问。

优选地,所述多集群管理设备1还包括第四装置(未示出),所述第四装置根据所述集群配置信息管理所述多个集群。

具体地,基于确定的所述多个集群的集群配置信息,可以对是多个集群进行相应的管理。例如,基于确定的新的所述多个集群中的业务分布信息,对所述多个集群中的业务分布进行调整;又如,基于所述多个集群间的数据复制配置信息,为未来可能的跨集群数据访问预先备份待访问数据。在此,优选地,通过调用所述数据处理平台上对应的接口输出所确定的各类集群配置信息,如所述多个集群中的业务分布信息、所述多个集群间的数据复制配置信息等,进而,调整所述多个集群上的资源、业务分布和跨集群的数据复制配置等。

优选地,所述集群配置信息包括以下至少任一项:一是所述多个集群中的业务分布信息;二是所述多个集群间的数据复制配置信息。

具体地,所述多个集群中的业务分布信息包括每个集群中各种业务单元、数据项的部署信息,如哪些业务单元从属于哪些集群,某个业务单元中包括哪些具体数据项等;所述多个集群中的业务分布信息还包括各种集群资源的设置信息,例如各个集群、业务单元的存储、计算等资源的配额信息,或是各个集群之间的带宽配额信息等等。所述多个集群间的数据复制配置信息实际上是预先将需要访问的其他集群的数据信息备份到将发出访问的集群中。在跨集群访问数据时,若是直接远程读取数据,则可能会受到网络带宽、延时、抖动等因素的较大影响,特别是两个集群若是相跨较远时,这种不利影响就越加明显,所以优选地,通过将需要被跨集群访问的数据事先复制到所述发出访问请求的集群。

图2示出根据本申请一个优选实施例的多集群管理设备的设备示意图。在所述优选实施例中,所述多集群管理设备1包括第一装置11’、第二装置12’、第五装置14’和第三装置13’,其中,优选地,所述第三装置13’还包括第一单元131’和第二单元132’。其中,第一装置11’获取多个集群的历史运行数据;第二装置12’基于所述历史运行数据确定所述多个集群的未来需求信息;第五装置14’基于所述未来需求信息,检测所述多个集群的当前资源分布是否满足所述未来需求信息;第三装置13’用于若所述当前资源分布未满足所述未来需求信息,基于所述未来需求信息确定所述多个集群中的业务分布信息。其中,第一单元131’用于所述当前资源分布未满足所述未来需求信息,确定所述多个集群中待调整业务单元;第二单元132’用于确定所述待调整业务单元在所述多个集群中的对应目的集群。在此,所述第一装置11’、第二装置12’与图1所示出的第一装置11、第二装置12对应相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。

在所述优选实施例中,所述集群配置信息包括所述多个集群中的业务分布信息,其中,所述第五装置14’基于所述未来需求信息,检测所述多个集群的当前资源分布是否满足所述未来需求信息。具体地,所述未来需 求信息包括未来一段时间里,所述多个集群在若干个维度上数据处理任务占用集群各类资源的需求信息,当前资源分布可以包括当前所述多个集群在若干个维度各类资源配额相关信息,如所述存储、计算和带宽等资源配额信息。在此,在当前资源分布的基础上,评估各个维度的存储、计算和带宽资源是否满足所述未来需求信息,即未来一段时间里各维度资源使用或占有的预测。为了保证整个集群的数据处理任务可以顺利进行,一般要求所述多个集群当前的资源分布要满足所述未来需求信息,即要求各个维度的资源配额要相对富余。若通过所述检测操作,所述多个集群的当前资源分布满足所述未来需求信息,则可以默认当前多个集群的资源分布和业务配置是较为合理的,能够顺利进行各个数据处理任务,此时,优选地,并不需要对当前的业务分布情况进行变动。若是所述当前资源分布未满足所述未来需求信息,则所述第三装置13’将基于所述未来需求信息确定所述多个集群中的业务分布信息。在此,所述多个集群中的业务分布信息的确定包括对各个集群内部的具体业务的重新部署,如对所述业务单元、甚至是对具体数据项的重新布局,例如,调整集群中的业务单元布局,及时调出不适宜所述集群的业务单元到其他集群中。

在此,优选地,所述第三装置13’包括第一单元131’和第二单元132’。具体地,所述当前资源分布未满足所述未来需求信息时,所述第一单元131’将确定所述多个集群中待调整业务单元。在本申请中,所述各个维度的各个数据对象之间都存在一定的数据依赖关系,如数据项之间、业务单元之间、集群之间,以所述数据项之间的数据依赖关系为例,某个数据处理任务读取某个数据项A,进行加工处理之后,输出了数据项B,此时,所述数据项B是由所述数据项A处理得到的,即所述数据项B即依赖于所述数据项A,该依赖关系即为本申请中所述数据项之间的数据依赖关系。此外,在实际应用中,所述数据项还会划分各个数据项分区,例如按照日期分区,例如,上述数据项A化为分区A1、A2、A3……,此时,所述数据项B依赖的是A的各个具体分区。进一步,所述两个业务单元(或集群)之间的数据依赖关系,就是其中一个业务单元有多少数据项是依赖另一个业务单元(或集群)中的数据项。在此,当一个集群中各个业务单元之间 的数据依赖关系紧密时,如该集群内某一业务单元的数据的访问大部分在本集群内部完成,则一般跨集群的资源访问的比例就相应较少,集群内部数据传输比跨集群数据访问会更加高效和节省资源;反之,若是一个集群中各个业务单元之间的数据依赖关系松散,则该集群中的业务单元对应的数据传输和交换就会占用更多的资源,对此,就会有进一步优化的可能。所以,在此,若是所述当前资源分布未满足所述未来需求信息时,则可以通过比较从相应集群中确定与其他业务单元的数据依赖关系松散的业务单元为待调整的业务单元,通过将松散待调整业务单元的调出,来优化相应集群的资源分布。进而,通过所述第二单元132’,为所述待调整业务单元寻找适合的集群,例如与其数据依赖关系更为紧密的其他集群,作为调整对应的目的集群。

更优选地,所述第一单元131’用于基于所述多个集群中各个业务单元的未来需求信息,分别计算每个业务单元与其他在相同集群中的各个业务单元之间的第一数据依赖量值之和;确定所述第一数据依赖量值之和最小的业务单元为相应集群中的所述待调整业务单元。

具体地,在此,所述第一数据依赖量值的确定方式,优选地,以被依赖数据项的大小为量化基础,例如,数据项D1依赖数据项C1,相应的数据依赖量值的的大小就是数据项C1的大小V1,进而,若所述某集群中有业务单元1与业务单元2,若业务单元1中的数据项D1依赖业务单元2中的数据项C1,对应一个数据依赖量值V1,业务单元1中的数据项D2依赖业务单元2中的数据项C2,对应一个数据依赖量值V2,…业务单元1中的数据项Dn依赖业务单元2中的数据项Cn,对应一个数据依赖量值Vn,以此规律,则业务单元1依赖业务单元2的所述第一数据依赖量值即为V1+V2+……Vn,以此类推,将所述业务单元1与对应集群内部其他各个业务单元的各个第一数据依赖量值相加,就得到了所述的第一数据依赖量值之和。进而,相比较之下,所述第一数据依赖量值之和最小的业务单元,其与集群中其他各个业务单元的数据依赖关系,最为松散,说明集群间便捷访问的优势,该业务单元获益最少,此时,优选地,将该业务单元确定为相应集群中的所述待调整业务单元。

在本方案中,所述多个集群中当前资源分布未满足所述未来需求信息的各个集群中,都可能各自对应一个或多个待调整业务单元。

在此,本领域技术人员应能理解,所述第一数据依赖量值、以及对所述第一数据依赖量值的优选的确定方式仅为举例,其他现有的或今后可能出现的其他数据信息、或与所述其他数据信息对应的确定方式、或所述第一数据依赖量值的其他确定方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

更优选地,所述第二单元132’用于计算所述多个集群中待调整业务单元与每个候选目的集群上的各个业务单元之间的第二数据依赖量值之和,并按照所述第二数据依赖量值之和由大到小的顺序,对若干个候选目的集群进行排序;基于所述排序的顺序,将最先满足所述待调整业务单元的未来需求信息的目的集群作为所述待调整业务单元的对应目的集群。

具体地,对于所述相应集群中的所述待调整业务单元,为其选择一个调入的目的集群,在此,优选地,基于所述第二数据依赖量值之和,在所述多个集群中为所述待选择一个最优的目的集群。在此,所述第二数据依赖量值之和的确定方式可以与所述第一数据依赖量值之和的确定方式形似,在此,不在赘述,并通过引用的方式包含于此。此时,将所述待调整的业务单元与每个候选的集群上的各个业务单元分别进行第二数据依赖量值求和,例如,计算得到所述待调整业务单元3与候选目的集群L1上各个业务单元之间的第二数据依赖量值之和是W1,与候选目的集群L2上各个业务单元之间的第二数据依赖量值之和是W2,……与候选目的集群Zm上各个业务单元之间的第二数据依赖量值之和是Wm,进而对所述各个第二数据依赖量值之和由大到小进行排序,在此,假设所述由大到小的顺序是W1、W2、……Wn。第二数据依赖量值越大的候选目的集群,所述待候选业务单元与其之内的各个业务单元联系越密切,对应的数据依赖关系越紧密,进一步,基于所述排序的顺序,检测所述待候选目的集群当前的业务分布情况,例如,各类资源的相应配额,数据项的相应部署等等,是否能够满足所述待调整业务单元的未来需求信息,若是当所述待调整业务单元加入所述待候选目的集群,致使所述待候选目的集群的资源分 布不能满足待调整业务单元的所述未来需求信息,或是不能够满足调整后整个候选目的集群的未来需求信息,及时,此时所述待候选业务单元与该候选目的集群数据依赖关系较紧密,却仍然判断该待候选目的集群不适合作为最终所述目的集群。基于上述判断方法,按照所述排序的顺序,将可以确定出与所述待调整业务单元关系最密切的、同时又能够满足所述待调整业务单元的未来需求信息的最佳待候选目的集群为所述目的集群。

优选地,若所述当前资源分布未满足所述未来需求信息,所述第三装置13’基于所述未来需求信息确定所述多个集群中的业务分布信息,直至所述业务分布信息满足所述未来需求信息。

具体地,对于所述当前资源分布未满足所述未来需求信息的集群,当确定了一次所述多个集群中的业务分布信息后,会基于确定的所述多个集群中的业务分布信息可能的调整情况进行再次评估,检测若是基于所述调整后的业务分布信息进行集群管理,所述调整后的多个集群的业务分布信息依然无法满足对应的未来需求信息,则说明一次的业务分布信息的调整,例如,一次的业务单元的调整仍然无法到达优化集群资源的目的,此时,可以再次确定所述多个集群中的业务分布信息,例如再次寻找、并调整出与所述多个集群中与其他业务单元的数据依赖关系较为松散的业务单元,以此类推,直到通过所述评估,确定所述业务分布信息满足所述未来需求信息,则可以确定达到优选结果。在此,所述业务分布的调整可能需要通过多次渐进循环而最终达到较为理想的优化状态。

图3示出根据本申请另一个优选实施例的多集群管理设备的设备示意图。在所述另一个优选实施例中,所述多集群管理设备1包括第一装置11”、第二装置12”和第三装置13”,其中,优选地,所述第三装置13”还包括第五单元135”和第六单元136”。其中,第一装置11”获取多个集群的历史运行数据;第二装置12”基于所述历史运行数据确定所述多个集群的未来需求信息;第五单元135”基于所述未来需求信息,确定所述多个集群中集群间数据访问信息;第六单元136”基于所述集群间数据访问信息,确定所述多个集群间的数据复制配置信息。在此,所述第一装置11”、第二装置12”与图1所示出的第一装置11、第二装置12对应相同或基本 相同,故此处不再赘述,并通过引用的方式包含于此。

在此优选实施例中,所述集群配置信息包括所述多个集群间的数据复制配置信息,其中所述第五单元135”基于所述未来需求信息,确定所述多个集群中集群间数据访问信息。具体地,在跨集群访问数据时,若是直接远程读取数据,则可能会受到网络带宽、延时、抖动等因素的较大影响,特别是两个集群若是相跨较远时,这种不利影响就越加明显,此时,可以通过将需要被跨集群访问的数据预先复制到所述发出访问请求的集群,来提高跨集群访问的效率。所述具体的数据复制配置信息可以对应于不同的维度,例如数据项、业务单元等不同范围进行部署。其中,具体复制数据的选择、具体的配置集群的选择等因素,对于集群间数据访问的最终效果会有直接的影响。基于此,优选地,本方案基于所述未来需求信息,确定所述多个集群中集群间数据访问信息。以所述数据复制配置信息对应的配置对象是数据项为例,所述集群间数据访问信息包括一段时间内,预测的所述数据项被访问的次数和数据量等。进而基于所述集群间数据访问信息,可以确定所述多个集群间的数据复制配置信息。例如,访问次数较多、访问数据量较大的数据项将被优选配置,进一步,结合集群间的资源限制,如带宽配额等,决定配置的数据项的具体数量,确定合理的数据复制配置信息,更进一步,在具体应用过程中,还可以对一些长期不再使用到的数据项进行定期的清理,优化复制数据的存储空间。在此,优选地,所述数据复制配置信息能够满足使跨集群复制的数据占用存储尽量小,同时又能够保证所述数据处理任务的完成效率在一个可以接收的等待范围内。

优选地,在所述多集群管理设备1中,所述集群配置信息不仅包括所述多个集群间的数据复制配置信息,还包括述多个集群中的业务分布信息;其中,所述第五单元135”基于所述未来需求信息,确定所述多个集群中集群间数据访问信息。

具体地,基于所述未来需求信息,可以分别确定所述多个集群中的业务分布信息或所述多个集群间的数据复制配置信息等集群配置信息,进而,基于各类集群配置信息,分别对所述多个集群进行优化管理。更进一步,还可以将多种集群配置信息的综合考虑,可以得到一个更优化的叠加 效果。例如,首先通过所述未来需求信息确定的所述多个集群中的业务分布信息,若是基于所述未来需求信息,可以得到优化的多个集群中的业务分布信息,相比于直接基于优选前的业务分布信息进行的数据复制配置信息的确定,在所述优化的业务分布信息的基础上再进行集群间数据访问信息的确定,并最终得到的数据复制配置信息,会更加优化所述多个集群间数据访问效率。

图4示出根据本申请另一个方面的一种多集群管理方法的流程图。

其中,在步骤S41中,所述多集群管理设备1获取多个集群的历史运行数据;在步骤S42中,所述多集群管理设备1基于所述历史运行数据确定所述多个集群的未来需求信息;在步骤S43中,所述多集群管理设备1基于所述未来需求信息确定所述多个集群的集群配置信息。

具体地,在步骤S41中,所述多集群管理设备1获取多个集群的历史运行数据。一般情况下,一个相对独立的业务对应的数据处理可以由一个业务单元独立完成;或是进一步,一个完整业务的处理需要基于一个集群中各个业务单元之间的数据依赖关系,通过集群内多个业务单元之间的数据共享和数据交换来完成,此时数据处理任务消耗着集群的数据资源,如集群的存储、计算等资源;或是更进一步,在跨地域的多集群环境中,进行更复杂的业务处理,此时集群之间的网络连通还会消耗集群间的的网络带宽等资源。在此,所述历史运行数据包括一段时间内,在所述多个集群中完成各种数据处理任务对应的运行数据。在此,进行所述数据处理任务的数据单位可以包括集群、业务单元、数据项、数据项分区等不同维度。在本申请中,所述数据项包括一个数据的存储集合,如数据库中的表;所述数据项分区包括将所述数据项按一定的规则进行划分,目的是为了方便对数据进行分片处理,从而降低数据处理量;在所述业务单元中,各种数据按照一定的范式进行分层,各个业务单元之间可以基于具体的层级中的数据项展开数据访问。与此相应的,所述历史运行数据包括但不限于:业务单元、数据项、数据项分区的元数据;业务单元、数据项、数据项分区的存储占用量;数据处理任务的运行日志;集群间网络带宽使用量;集群、业务单元的存储、计算配额数据;集群间可用带宽配额数据,等等。其中, 在本申请中,所述元数据包括业务单元、数据项、数据项分区的属性、特征等基本描述性数据;所述数据处理任务的运行日志主要包含的信息有所述数据处理任务对应的业务单元、任务启动结束时间、输入输出的数据项及相应的数据项分区、输入输出的数据量、占用的计算单位等,通过所述运行日志可以获知所述业务单元、数据项、数据项分区的计算占用量;所述各类配额数据,如上述存储、计算、带宽等对应的配额数据,可能在一段时间内保持不变,也可能基于实际需要有所变化调整。对于所述历史运行数据,特别是变化频率较高的数据信息,如所述业务单元、数据项、数据项分区的存储占用量、所述集群间网络带宽使用量和所述数据处理任务的运行日志等可以周期性地进行数据采样。

在此,所述多个集群的历史运行数据可以间接的通过第三方存储设备或数据库进行获取。优选地,也可以基于一定的数据处理平台直接进行所述历史运行数据的采集。本申请中,所述数据处理平台包括使用分布式存储和分布式计算等技术,提供大规模数据处理的计算机系统平台。例如,所述数据处理平台中各个模块中包含着运行日志采集功能,并由统一的日志管理系统将日志汇总到一起统一存储;又如,数据处理平台采用定时快照的方式将所述元数据汇总存储。

接着,在步骤S42中,所述多集群管理设备1基于所述历史运行数据确定所述多个集群的未来需求信息。

具体地,基于所获取的已有的历史运行数据,对所述多个集群中各个集群的内部以及集群间的数据处理情况进行分析,可以确定所述多个集群中各个数据项、各个业务单元、甚至是各个集群对应的各类资源的实际占用情况,基于所得到的实际资源占用信息,还可以进一步确定各个数据项之间、各个业务单元之间、甚至是各个集群之间的数据相互调用情况和相互依赖关系。基于对所述历史运行数据进行增长预测,可以预测所述多个集群在未来一段时间的资源需求信息。在此,优选地,所述的未来需求信息就是后续确定所述多个集群的集群配置信息,从而对多集群进行优化管理的数据基础。

优选地,在步骤S42中,所述多集群管理方法包括子步骤S421(未 示出)和子步骤S422(未示出)。其中,在子步骤S421中,所述多集群管理设备1对所述历史运行数据进行数据处理;在子步骤S422中,所述多集群管理设备1基于所述数据处理的结果,确定所述多个集群的未来需求信息。

具体地,在子步骤S421中,所述多集群管理设备1对所述历史运行数据进行数据处理。如,可以对所述获取的所述历史运行数据进行转换、组合、连接等方式的加工处理。在此,以数据处理任务所占用的计算资源的加工处理为例,若是要计算多个集群中各个集群上计算资源的占用情况,以t分钟为采样周期,通过统计在一天中各个采样时刻多个集群中每个集群中所有数据处理任务占用的计算单位总和,得到各个集群中计算资源的占用情况。此时,所述转换即包括:将所述一天分成1440/t个采样点,遍历所获取的数据处理任务,若是某个数据处理任务覆盖了某个时刻的采样点,则把该数据处理任务添加到该时刻的采样点对应的数据处理任务集合中。所述连接即包括:以所述业务单元为条件,所述数据处理任务与哪个业务单元进行数据连接,则该数据处理任务就运行在所述业务单元所对应的集群中。所述组合即包括:在各个采样时刻,将运行在同一个集群中的各个所述数据处理任务占用的计算单位进行累加,即得到各个采样时刻,该集群的计算资源占用量。

在此,对于不同类型的历史运行数据,对应的加工处理方式可以有所不同,即使是同一类型的历史运行数据,也可以根据需要进行不同方式的数据加工处理。

在此,本领域技术人员应能理解所述转换、组合、连接等方式的加工处理仅为举例,其他现有的或今后可能出现的其他对所述历史运行数据的加工处理方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

接着,在子步骤S422中,所述多集群管理设备1基于所述数据处理的结果,确定所述多个集群的未来需求信息。在此,所述数据处理的结果包括多个维度上的资源指标数据,本方案中,所述多个维度包括数据项、业务单元、集群或时间等维度,其中所述时间维度与所述数据项、业务单 元、集群等维度正交。所述资源指标数据包括存储资源占用量、计算资源占用量、相互间的数据依赖量、集群间的复制数据量、集群间直接访问数据量等。在此,对于每个维度会分别对应若干个资源指标数据,其中,各个维度可能使用相同的资源指标数据,如均统计所述存储资源占用量、计算资源占用量和相互间的数据依赖量。此外,各个维度对应的资源指标数据类型也可能各不相同,特别是,有些类型的资源指标数据只能够在特定维度予以考虑,例如集群间的复制数据量、集群间直接访问数据量等。在此,所述数据处理的结果还包括集群资源配额指标数据,例如,集群间数据访问权重,基于集群间可用带宽配额数据,为各个集群之间的数据访问设置权重,如两个集群间可用带宽越大,对应的数据访问权重越大。此时,基于所述历史运行数据中获取的、例如所述集群、业务单元的存储、计算配额数据、所述集群间可用带宽配额数据等数据信息,通过一定的处理,加工为相应的集群资源配额指标数据,进而可以体现现有的集群内部,以及多个集群之间各种资源的限制和差异,并为后续操作提供基础数据。在此,基于所述数据处理结果,进一步为所述多个集群的未来资源使用情况进行预测。

在此,本领域技术人员应能理解所述数多个维度上的指标数据和集群资源配额指标数据仅为举例,其他现有的或今后可能出现的其他数据处理的结果如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

更优选地,所述基于所述数据处理的结果,确定所述多个集群的未来需求信息包括:通过所述数据处理获得所述多个集群对应的资源指标数据;基于所述资源指标数据,通过指标预测确定所述多个集群的未来需求信息。

具体地,在此,优选地,通过指标预测确定所述多个集群的未来需求信息。通过对所述历史运行数据的加工处理,可以获得多个维度的所述资源指标数据,基于具体的资源指标数据,可以对未来一段时间内不同维度上资源需求进行预测,例如,预测出某个集群在未来一个月内的存储资源占用量、每日每个时间区间的计算资源占用量等。具体的指标预测方法包 括:首先,基于所述加工后得到的资源指标数据,并结合一定的数据挖掘方法,建立一定的数据计算模型,在此,所述数据发掘方法包括但不限于线性回归、基于时间序列的季节性回归预测等方法;进而,基于所述数据计算模型,结合相应的参数数值,得到相应的资源指标对应的未来需求信息。在此,以预测业务单元的未来的存储资源占用量为例,基于所述数据处理平台每天采集到的存储资源占用信息,经过加工处理,可以得到过去一段时间,如T个月,每天的存储资源占用量,若以天数为变量x,以存储资源占用量为变量y,进行线性回归建模,则得到y=f(x)函数,进而基于所述数据计算模型们可以预测出N天后的所述业务单元的存储资源占用量。

在此,本领域技术人员应能理解所述基于所述资源指标数据,通过指标预测确定所述多个集群的未来需求信息仅为举例,其他现有的或今后可能出现的其他确定所述多个集群的未来需求信息的方法如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

接着,在步骤S43中,所述多集群管理设备1基于所述未来需求信息确定所述多个集群的集群配置信息。所述集群配置信息包括所述多个集群中的业务分布信息,或是所述多个集群间的数据复制配置信息。在此,所述多个集群中的业务分布信息包括每个集群中各种业务单元、数据项的部署信息;所述多个集群中的业务分布信息还包括各种集群资源的设置信息。在此,可以基于所述未来需求信息对所述多个集群中的业务分布信息进行安排,一般来说,目的是要使得所述多个集群对资源的未来需求在所确定的业务分布信息的安排中得到满足。此外,跨集群访问数据时,若是直接远程读取数据,则可能会受到网络带宽、延时、抖动等因素的较大影响,特别是两个集群若是相跨较远时,这种不利影响就越加明显,所以优选地,通过将需要被跨集群访问的数据事先复制到所述发出访问请求的集群,在此,基于所述未来需求信息,可以预先确定需要备份什么数据,如何备份数据,从而能够确定一个更为合理的多集群件的数据复制配置信息。

在此,所述集群配置信息可以只包括所述多种集群配置信息中的任意 一种,也可以同时包括所述多种集群配置信息中的多种,进一步,优选地,在后续的多集群管理中,可以同时结合多种集群配置信息进行相应的管理。例如,基于所述未来需求信息确定所述多个集群的业务分布信息,进而基于所述未来需求信息,并结合所述多个集群的业务分布信息进一步确定所述多个集群间的数据复制配置信息。

在此,本申请通过对获取的多个集群的历史运行数据进行处理和分析获得多个集群的未来需求信息,基于所述未来需求信息确定多个集群的集群配置信息。基于所述的集群配置信息,本申请可以在跨地域的多集群、大规模的数据处理环境中,实现多集群资源的合理分布和配置,达到全局资源的平衡优化,还可以在集群间资源条件允许的情况下,最大限度地高效实现跨集群的数据访问。

优选地,所述多集群管理方法还包括步骤S44(未示出),在步骤S44中,所述多集群管理设备1根据所述集群配置信息管理所述多个集群。

具体地,基于确定的所述多个集群的集群配置信息,可以对是多个集群进行相应的管理。例如,基于确定的新的所述多个集群中的业务分布信息,对所述多个集群中的业务分布进行调整;又如,基于所述多个集群间的数据复制配置信息,为未来可能的跨集群数据访问预先备份待访问数据。在此,优选地,通过调用所述数据处理平台上对应的接口输出所确定的各类集群配置信息,如所述多个集群中的业务分布信息、所述多个集群间的数据复制配置信息等,进而,调整所述多个集群上的资源、业务分布和跨集群的数据复制配置等。

优选地,所述集群配置信息包括以下至少任一项:一是所述多个集群中的业务分布信息;二是所述多个集群间的数据复制配置信息。

具体地,所述多个集群中的业务分布信息包括每个集群中各种业务单元、数据项的部署信息,如哪些业务单元从属于哪些集群,某个业务单元中包括哪些具体数据项等;所述多个集群中的业务分布信息还包括各种集群资源的设置信息,例如各个集群、业务单元的存储、计算等资源的配额信息,或是各个集群之间的带宽配额信息等等。所述多个集群间的数据复制配置信息实际上是预先将需要访问的其他集群的数据信息备份到将发 出访问的集群中。在跨集群访问数据时,若是直接远程读取数据,则可能会受到网络带宽、延时、抖动等因素的较大影响,特别是两个集群若是相跨较远时,这种不利影响就越加明显,所以优选地,通过将需要被跨集群访问的数据事先复制到所述发出访问请求的集群。

图5示出根据本申请一个优选实施例的一种多集群管理方法的流程图。在所述优选实施例中,所述多集群管理方法包括步骤S41’、步骤S42’、步骤S44’和步骤S43’,其中,优选地,所述步骤S43’还包括子步骤S431’和子步骤S432’。其中,在步骤S41’中,所述多集群管理设备1获取多个集群的历史运行数据;在步骤S42’中,所述多集群管理设备1基于所述历史运行数据确定所述多个集群的未来需求信息;在步骤S44’中,所述多集群管理设备1基于所述未来需求信息,检测所述多个集群的当前资源分布是否满足所述未来需求信息;在步骤S43’中,所述多集群管理设备1用于若所述当前资源分布未满足所述未来需求信息,基于所述未来需求信息确定所述多个集群中的业务分布信息。其中,在子步骤S431’中,所述多集群管理设备1用于所述当前资源分布未满足所述未来需求信息,确定所述多个集群中待调整业务单元;其中,在子步骤S432’中,所述多集群管理设备1用于确定所述待调整业务单元在所述多个集群中的对应目的集群。在此,所述步骤S41’、步骤S42’与图4所示出的步骤S41、步骤S42对应相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。

在所述优选实施例中,所述集群配置信息包括所述多个集群中的业务分布信息,其中,在步骤S44’中,所述多集群管理设备1基于所述未来需求信息,检测所述多个集群的当前资源分布是否满足所述未来需求信息。具体地,所述未来需求信息包括未来一段时间里,所述多个集群在若干个维度上数据处理任务占用集群各类资源的需求信息,当前资源分布可以包括当前所述多个集群在若干个维度各类资源配额相关信息,如所述存储、计算和带宽等资源配额信息。在此,在当前资源分布的基础上,评估各个维度的存储、计算和带宽资源是否满足所述未来需求信息,即未来一段时间里各维度资源使用或占有的预测。为了保证整个集群的数据处理任务可以顺利进行,一般要求所述多个集群当前的资源分布要满足所述未来 需求信息,即要求各个维度的资源配额要相对富余。若通过所述检测操作,所述多个集群的当前资源分布满足所述未来需求信息,则可以默认当前多个集群的资源分布和业务配置是较为合理的,能够顺利进行各个数据处理任务,此时,优选地,并不需要对当前的业务分布情况进行变动。若是所述当前资源分布未满足所述未来需求信息,则在步骤S43’中,所述多集群管理设备1将基于所述未来需求信息确定所述多个集群中的业务分布信息。在此,所述多个集群中的业务分布信息的确定包括对各个集群内部的具体业务的重新部署,如对所述业务单元、甚至是对具体数据项的重新布局,例如,调整集群中的业务单元布局,及时调出不适宜所述集群的业务单元到其他集群中。

在此,优选地,所述步骤S43’还包括子步骤S431’和子步骤S432’。具体地,在子步骤S431’中,所述当前资源分布未满足所述未来需求信息时,所述多集群管理设备1将确定所述多个集群中待调整业务单元。在本申请中,所述各个维度的各个数据对象之间都存在一定的数据依赖关系,如数据项之间、业务单元之间、集群之间,以所述数据项之间的数据依赖关系为例,某个数据处理任务读取某个数据项A,进行加工处理之后,输出了数据项B,此时,所述数据项B是由所述数据项A处理得到的,即所述数据项B即依赖于所述数据项A,该依赖关系即为本申请中所述数据项之间的数据依赖关系。此外,在实际应用中,所述数据项还会划分各个数据项分区,例如按照日期分区,例如,上述数据项A化为分区A1、A2、A3……,此时,所述数据项B依赖的是A的各个具体分区。进一步,所述两个业务单元(或集群)之间的数据依赖关系,就是其中一个业务单元有多少数据项是依赖另一个业务单元(或集群)中的数据项。在此,当一个集群中各个业务单元之间的数据依赖关系紧密时,如该集群内某一业务单元的数据的访问大部分在本集群内部完成,则一般跨集群的资源访问的比例就相应较少,集群内部数据传输比跨集群数据访问会更加高效和节省资源;反之,若是一个集群中各个业务单元之间的数据依赖关系松散,则该集群中的业务单元对应的数据传输和交换就会占用更多的资源,对此,就会有进一步优化的可能。所以,在此,若是所述当前资源分布未满足所 述未来需求信息时,则可以通过比较从相应集群中确定与其他业务单元的数据依赖关系松散的业务单元为待调整的业务单元,通过将松散待调整业务单元的调出,来优化相应集群的资源分布。进而,在子步骤S432’中,为所述待调整业务单元寻找适合的集群,例如与其数据依赖关系更为紧密的其他集群,作为调整对应的目的集群。

更优选地,在子步骤S431’中,基于所述多个集群中各个业务单元的未来需求信息,分别计算每个业务单元与其他在相同集群中的各个业务单元之间的第一数据依赖量值之和;确定所述第一数据依赖量值之和最小的业务单元为相应集群中的所述待调整业务单元。

具体地,在此,所述第一数据依赖量值的确定方式,优选地,以被依赖数据项的大小为量化基础,例如,数据项D1依赖数据项C1,相应的数据依赖量值的的大小就是数据项C1的大小V1,进而,若所述某集群中有业务单元1与业务单元2,若业务单元1中的数据项D1依赖业务单元2中的数据项C1,对应一个数据依赖量值V1,业务单元1中的数据项D2依赖业务单元2中的数据项C2,对应一个数据依赖量值V2,…业务单元1中的数据项Dn依赖业务单元2中的数据项Cn,对应一个数据依赖量值Vn,以此规律,则业务单元1依赖业务单元2的所述第一数据依赖量值即为V1+V2+……Vn,以此类推,将所述业务单元1与对应集群内部其他各个业务单元的各个第一数据依赖量值相加,就得到了所述的第一数据依赖量值之和。进而,相比较之下,所述第一数据依赖量值之和最小的业务单元,其与集群中其他各个业务单元的数据依赖关系,最为松散,说明集群间便捷访问的优势,该业务单元获益最少,此时,优选地,将该业务单元确定为相应集群中的所述待调整业务单元。

在本方案中,所述多个集群中当前资源分布未满足所述未来需求信息的各个集群中,都可能各自对应一个或多个待调整业务单元。

在此,本领域技术人员应能理解,所述第一数据依赖量值、以及对所述第一数据依赖量值的优选的确定方式仅为举例,其他现有的或今后可能出现的其他数据信息、或与所述其他数据信息对应的确定方式、或所述第一数据依赖量值的其他确定方式如可适用于本发明,也应包含在本发明保 护范围以内,并在此以引用方式包含于此。

更优选地,在子步骤S432’中,计算所述多个集群中待调整业务单元与每个候选目的集群上的各个业务单元之间的第二数据依赖量值之和,并按照所述第二数据依赖量值之和由大到小的顺序,对若干个候选目的集群进行排序;基于所述排序的顺序,将最先满足所述待调整业务单元的未来需求信息的目的集群作为所述待调整业务单元的对应目的集群。

具体地,对于所述相应集群中的所述待调整业务单元,为其选择一个调入的目的集群,在此,优选地,基于所述第二数据依赖量值之和,在所述多个集群中为所述待选择一个最优的目的集群。在此,所述第二数据依赖量值之和的确定方式可以与所述第一数据依赖量值之和的确定方式形似,在此,不在赘述,并通过引用的方式包含于此。此时,将所述待调整的业务单元与每个候选的集群上的各个业务单元分别进行第二数据依赖量值求和,例如,计算得到所述待调整业务单元3与候选目的集群L1上各个业务单元之间的第二数据依赖量值之和是W1,与候选目的集群L2上各个业务单元之间的第二数据依赖量值之和是W2,……与候选目的集群Zm上各个业务单元之间的第二数据依赖量值之和是Wm,进而对所述各个第二数据依赖量值之和由大到小进行排序,在此,假设所述由大到小的顺序是W1、W2、……Wn。第二数据依赖量值越大的候选目的集群,所述待候选业务单元与其之内的各个业务单元联系越密切,对应的数据依赖关系越紧密,进一步,基于所述排序的顺序,检测所述待候选目的集群当前的业务分布情况,例如,各类资源的相应配额,数据项的相应部署等等,是否能够满足所述待调整业务单元的未来需求信息,若是当所述待调整业务单元加入所述待候选目的集群,致使所述待候选目的集群的资源分布不能满足待调整业务单元的所述未来需求信息,或是不能够满足调整后整个候选目的集群的未来需求信息,及时,此时所述待候选业务单元与该候选目的集群数据依赖关系较紧密,却仍然判断该待候选目的集群不适合作为最终所述目的集群。基于上述判断方法,按照所述排序的顺序,将可以确定出与所述待调整业务单元关系最密切的、同时又能够满足所述待调整业务单元的未来需求信息的最佳待候选目的集群为所述目的集群。

优选地,在步骤S43’中,若所述当前资源分布未满足所述未来需求信息,所述多集群管理设备1基于所述未来需求信息确定所述多个集群中的业务分布信息,直至所述业务分布信息满足所述未来需求信息。

具体地,对于所述当前资源分布未满足所述未来需求信息的集群,当确定了一次所述多个集群中的业务分布信息后,会基于确定的所述多个集群中的业务分布信息可能的调整情况进行再次评估,检测若是基于所述调整后的业务分布信息进行集群管理,所述调整后的多个集群的业务分布信息依然无法满足对应的未来需求信息,则说明一次的业务分布信息的调整,例如,一次的业务单元的调整仍然无法到达优化集群资源的目的,此时,可以再次确定所述多个集群中的业务分布信息,例如再次寻找、并调整出与所述多个集群中与其他业务单元的数据依赖关系较为松散的业务单元,以此类推,直到通过所述评估,确定所述业务分布信息满足所述未来需求信息,则可以确定达到优选结果。在此,所述业务分布的调整可能需要通过多次渐进循环而最终达到较为理想的优化状态。

图6示出根据本申请另一个优选实施例的一种多集群管理方法的流程图。在所述另一个优选实施例中,所述多集群管理方法包括步骤S41”、步骤S42”和步骤S43”,其中,优选地,所述步骤S43”还包括子步骤S435”和子步骤S436”。其中,在步骤S41”中,所述多集群管理设备1获取多个集群的历史运行数据;在步骤S42”中,所述多集群管理设备1基于所述历史运行数据确定所述多个集群的未来需求信息;在子步骤S435”中,所述多集群管理设备1基于所述未来需求信息,确定所述多个集群中集群间数据访问信息;在子步骤S436”中,所述多集群管理设备1基于所述集群间数据访问信息,确定所述多个集群间的数据复制配置信息。在此,所述步骤S41”、步骤S42”与图4所示出的步骤S41、步骤S42对应相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。

在此优选实施例中,所述集群配置信息包括所述多个集群间的数据复制配置信息,其中,在子步骤S435”中,所述多集群管理设备1基于所述未来需求信息,确定所述多个集群中集群间数据访问信息。具体地,在跨集群访问数据时,若是直接远程读取数据,则可能会受到网络带宽、延时、 抖动等因素的较大影响,特别是两个集群若是相跨较远时,这种不利影响就越加明显,此时,可以通过将需要被跨集群访问的数据预先复制到所述发出访问请求的集群,来提高跨集群访问的效率。所述具体的数据复制配置信息可以对应于不同的维度,例如数据项、业务单元等不同范围进行部署。其中,具体复制数据的选择、具体的配置集群的选择等因素,对于集群间数据访问的最终效果会有直接的影响。基于此,优选地,本方案基于所述未来需求信息,确定所述多个集群中集群间数据访问信息。以所述数据复制配置信息对应的配置对象是数据项为例,所述集群间数据访问信息包括一段时间内,预测的所述数据项被访问的次数和数据量等。进而,在子步骤S436”中,所述多集群管理设备1基于所述集群间数据访问信息,可以确定所述多个集群间的数据复制配置信息。例如,访问次数较多、访问数据量较大的数据项将被优选配置,进一步,结合集群间的资源限制,如带宽配额等,决定配置的数据项的具体数量,确定合理的数据复制配置信息,更进一步,在具体应用过程中,还可以对一些长期不再使用到的数据项进行定期的清理,优化复制数据的存储空间。在此,优选地,所述数据复制配置信息能够满足使跨集群复制的数据占用存储尽量小,同时又能够保证所述数据处理任务的完成效率在一个可以接收的等待范围内。

优选地,在所述多集群管理设备方法中,所述集群配置信息不仅包括所述多个集群间的数据复制配置信息,还包括述多个集群中的业务分布信息;其中,在子步骤S435”中,所述多集群管理设备1基于所述未来需求信息,确定所述多个集群中集群间数据访问信息。

具体地,基于所述未来需求信息,可以分别确定所述多个集群中的业务分布信息或所述多个集群间的数据复制配置信息等集群配置信息,进而,基于各类集群配置信息,分别对所述多个集群进行优化管理。更进一步,还可以将多种集群配置信息的综合考虑,可以得到一个更优化的叠加效果。例如,首先通过所述未来需求信息确定的所述多个集群中的业务分布信息,若是基于所述未来需求信息,可以得到优化的多个集群中的业务分布信息,相比于直接基于优选前的业务分布信息进行的数据复制配置信息的确定,在所述优化的业务分布信息的基础上再进行集群间数据访问信 息的确定,并最终得到的数据复制配置信息,会更加优化所述多个集群间数据访问效率。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1