一种人工智能云平台的资源碎片整理方法及电子设备与流程

文档序号:14656765发布日期:2018-06-12 05:33阅读:178来源:国知局

本申请涉及数据处理技术领域,特别涉及一种人工智能云平台的资源碎片整理方法及电子设备。



背景技术:

随着网络的发展,支撑大数据计算的人工智能云平台的使用越来越广泛,例如,人工智能云平台可以为多个作业同时提供运行资源,如图形处理器GPU(Graphics Processing Unit)计算资源等。

而在实际应用中,随着多作业对云平台中资源的申请与释放,会造成资源碎片的产生,从而导致资源分配的性能下降或者无法分配,造成作业无法正常运行,使得云平台的资源使用率下降。



技术实现要素:

本申请的目的是提供一种人工智能云平台的资源碎片整理方法及电子设备,用以解决现有技术中资源碎片产生使得云平台资源使用率下降的技术问题。

本申请提供了一种人工智能云平台的资源碎片整理方法,所述云平台中部署有多个资源节点,每个资源节点上部署有计算资源,所述方法包括:

获得所述云平台中资源节点的资源运行状态;

基于所述资源运行状态,生成碎片整理指令;

响应于所述碎片整理指令,基于所述资源运行状态,利用预先训练的碎片识别模型,识别出所述云平台中存在资源碎片的资源节点;

确定碎片迁移的源节点和目标节点以及所述源节点中待迁移的目标碎片;

将所述源节点中的目标碎片迁移到所述目标节点中。

上述方法,优选地,所述碎片识别模型可以通过以下方式获取:

获取历史碎片信息,所述历史碎片信息包括:所述云平台中标记的碎片记录信息;

对所述标记的碎片记录信息进行深度学习,得到所述云平台的碎片识别模型。

上述方法,优选地,基于所述资源运行状态,生成碎片整理指令,包括:

利用预先通过所述平台中的历史资源信息经过深度学习获得的整理预测模型,对所述资源运行状态进行判断是否进行碎片整理,得到判断结果;

基于所述判断结果,生成碎片整理指令。

上述方法,优选地,所述方法还包括:

获得碎片整理记录信息;

利用所述碎片整理记录信息对所述整理预测模型进行优化。

上述方法,优选地,在将所述源节点中的目标碎片迁移到所述目标节点中之前,所述方法还包括:

对所述目标碎片进行快照;

在将所述目标碎片迁移到所述目标节点之后,所述方法还包括:

恢复所述目标碎片上的作业运行。

上述方法,优选地,确定碎片迁移的源节点和目标节点以及所述源节点中待迁移的目标碎片,包括:

获得所述存在资源碎片的资源节点中的碎片状态信息;

基于所述碎片状态信息,确定碎片迁移的源节点和目标节点以及所述源节点中待迁移的目标碎片。

上述方法,优选地,所述目标碎片为所述资源碎片中最小的碎片或所述目标碎片为所述资源碎片中承载的作业启动时间最晚的碎片。

上述方法,优选地,所述目标碎片填满或者接近填满所述目标节点。

上述方法,优选地,所述目标节点为空闲地址最前的节点。

本申请还提供了一种电子设备,部署在人工智能云平台上,所述云平台中部署有多个资源节点,每个资源节点上部署有计算资源,所述电子设备包括:

存储器,用于存储应用程序及所述应用程序运行所产生的数据;

处理器,用于执行所述应用程序,以实现以下功能:获得所述云平台中资源节点的资源运行状态,基于所述资源运行状态,生成碎片整理指令;响应于所述碎片整理指令,利用预先训练的碎片识别模型,识别出所述云平台中存在资源碎片的资源节点;确定碎片迁移的源节点和目标节点以及所述源节点中待迁移的目标碎片;将所述源节点中的目标碎片迁移到所述目标节点中。

由上述方案可知,本申请提供的一种人工智能云平台的资源碎片整理方法及电子设备,通过预先训练碎片识别模型,从而在云平台中资源节点的资源运行状态表明需要进行碎片整理时,再利用碎片识别模型识别出云平台中存在资源碎片的资源节点,从而在确定出碎片迁移的源节点、目标节点及源节点中待迁移的目标碎片,就可以将源节点中的目标碎片迁移到目标节点中,从而实现碎片整理。本申请中利用预先训练的碎片识别模型对云平台中的资源碎片进行识别,再进行碎片迁移,从而实现碎片整理,使得整理后的碎片能够在云平台中继续为用户提供服务,从而提高云平台资源的使用率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种人工智能云平台的资源碎片整理方法的流程图;

图2为本申请实施例的应用示例图;

图3为本申请实施例一的部分流程图;

图4为本申请实施例的另一应用示例图;

图5为本申请实施例一的另一部分流程图;

图6为本申请实施例的又一应用示例图;

图7及图8分别为本申请实施例一的又一流程图;

图9为本申请实施例一的又一部分流程图;

图10~图14分别为本申请实施例的应用示例图;

图15为本申请实施例二提供的一种电子设备的结构示意图;

图16为本申请实施例的另一应用示例图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

参考图1,为本申请实施例一提供的一种人工智能云平台的资源碎片整理方法的流程图,适用于部署有多个资源节点的云平台,在云平台的每个资源节点上均部署有计算资源,如GPU等图像处理资源及中央处理器CPU(Central Processing Unit)等数据计算资源等。

在本实施例中,该方法可以包括有以下步骤:

步骤101:获得云平台资源节点的资源运行状态。

其中,云平台资源节点的资源运行状态可以包含有:云平台中每个资源节点中任务或作业所占用的资源状态,如哪些资源被占用,哪些资源空置,资源是否满载等等。

步骤102:基于资源运行状态,生成碎片整理指令。

其中,本实施例中基于资源运行状态来生成能够表明当前是否需要进行资源碎片整理的指令,用于触发对资源节点中的碎片的整理操作。

步骤103:响应于碎片整理指令,基于资源运行状态,利用预先训练的碎片识别模型,识别出云平台中存在资源碎片的资源节点。

其中,预先训练的碎片识别模型可以基于云平台中各个资源节点上曾经出现碎片的历史信息来生成,进而本实施例中基于碎片识别模型,识别出云平台中可能存在资源碎片的资源节点。进一步的,本实施例中可以结合当前资源运行状态和碎片识别模型来识别出存在资源碎片的资源节点。

步骤104:确定碎片迁移的源节点和目标节点以及源节点中待迁移的目标碎片。

其中,本实施例中可以基于当前云平台中存在资源碎片的资源节点的状态来确定待迁移(移动)的目标碎片及其所在的源节点以及即将迁移到达的目标节点。

步骤105:将源节点中的目标碎片迁移到目标节点中。

如图2中所示,将源节点X中的目标碎片z迁移到目标节点Y中。

由上述方案可知,本申请实施例一提供的一种人工智能云平台的资源碎片整理方法中,通过预先训练碎片识别模型,从而在云平台中资源节点的资源运行状态表明需要进行碎片整理时,再利用碎片识别模型识别出云平台中存在资源碎片的资源节点,从而在确定出碎片迁移的源节点、目标节点及源节点中待迁移的目标碎片,就可以将源节点中的目标碎片迁移到目标节点中,从而实现碎片整理。本实施例中利用预先训练的碎片识别模型对云平台中的资源碎片进行识别,再进行碎片迁移,从而实现碎片整理,使得整理后的碎片能够在云平台中继续为用户提供服务,从而提高云平台资源的使用率。

在一种实现方式中,碎片识别模型可以预先通过以下方式获取,如图3中所示:

步骤301:获取历史碎片信息。

其中,历史碎片信息中包括云平台中标记的碎片记录信息,如哪些任务在哪些资源节点上运行产生了哪些资源碎片,这些被标记的碎片记录存储到云平台相应的存储器中。

步骤302:对标记的碎片记录信息进行深度学习,得到云平台的碎片识别模型。

其中,本实施例在对碎片记录信息进行深度学习时,可以从预先设置的训练维度上进行深度学习,从而建立相应的碎片识别模型。例如,本实施例中从云平台上资源节点所运行的任务的任务类型、任务数据及任务提交用户等维度上对碎片记录信息利用预设的神经网络算法进行深度学习,从而建立云平台的碎片识别模型。

例如,碎片记录信息:任务T在云平台中占用两个资源节点Y1和Y2中的5个资源块,在Y2中出现1个资源碎片,如图4中所示,本实施例中基于这些碎片记录信息进行任务类型T、任务数据占用5个资源块及任务提交用户等维度来建立模型,生成碎片识别模型。

在一种实现方式中,本实施例中可以通过对碎片整理的时机进行预测及判断,来生成相应的碎片整理指令,具体可以如图5中所示:

步骤501:利用预先通过所述平台中的历史资源信息经过深度学习获得的整理预测模型,对所述资源运行状态进行判断是否进行碎片整理,得到判断结果。

其中,历史资源信息中可以包含有最近N天或者N个小时内的碎片记录信息或碎片整理信息,如最近一个月内,云平台的资源节点集群中运行到每天的某个时间段如14:30到15:30为集群最繁忙的时间段,此时运行中的任务或作业最多,如图6中所示,并且产生的碎片也相应增加到一定阈值,而空闲的资源即将不足,此时需要进行碎片整理;或者,例如,云平台的资源节点集群中所运行的任务类型记录导致产生的碎片到达一定的阈值,空闲资源即将不足,此时需要进行碎片整理,等等。

需要说明的是,本实施例中可以对云平台的历史资源信息利用神经网络算法进行深度学习,从而获得能够预测是否需要进行碎片整理的整理预测模型,再结合云平台的当前资源运行状态进行判断,得到表明当前是否进行碎片整理的判断结果。

步骤502:基于所述判断结果,生成碎片整理指令。

其中,本实施例中所生成的碎片整理指令可以用于对整个云平台中的所有资源节点的资源进行整理,或者,本实施例中所生成的碎片整理指令可以用于对资源运行状态中某个任务或作业所占用的相应个数的资源节点的碎片进行整理,并不对所有碎片进行全量整理。

另外,在本实施例中完成对资源碎片的迁移之后,还可以包括以下方法,如图7中所示:

步骤106:获取碎片整理记录信息。

其中,该碎片整理记录信息即为:将目标碎片从源节点迁移到目标节点的记录信息。

步骤107:利用碎片整理记录信息对整理预测模型进行优化。

也就是说,本实施例可以在每次完成碎片整理之后,都将碎片整理记录信息加入到整理预测模型中对模型进行优化,从而提高利用模型所生成的碎片整理指令对碎片整理的准确性。

在一种实现方式中,本实施例在确定源节点、目标节点及目标碎片之后,还可以包括以下步骤,如图8中所示:

步骤108:对目标碎片进行快照。

其中,本实施例中通过对目标碎片进行快照,来获取到目标碎片中运行任务或作业的当前运行状态及相应运行数据。

相应的,在步骤105将目标碎片迁移到目标节点之后,本实施例中还可以包括以下步骤:

步骤109:恢复所述目标碎片上的作业运行。

其中,本实施例中可以基于目标碎片的快照数据对目标碎片上的作业进行运行恢复操作。

在一种实现方式中,本实施例中在确定碎片迁移的源节点和目标节点以及所述源节点中待迁移的目标碎片时,可以通过以下方式实现,如图9中所示:

步骤901:获得存在资源碎片的资源节点中的碎片状态信息。

例如,在已经识别出的存在资源碎片的资源节点中,找出这些资源碎片的碎片状态信息,如每个资源节点中有几个碎片,每个资源节点中资源碎片所在的位置等。

步骤902:基于碎片状态信息,确定所迁移的源节点、目标节点及源节点中待迁移的目标碎片。

其中,本实施例中可以基于预设的迁移原则来确定源节点、目标节点和目标碎片,例如:优先迁移最小的资源碎片的原则、优先迁移被占用时间即作业启动时间最晚的碎片的原则、优先将分散的任务的资源碎片整理到同一个节点中的原则、优先将碎片整理到空闲地址最前的节点的原则,等等。

例如,如图10中所示,在云平台中4个资源节点A、B、C和D的满载状态,此时没有资源碎片,而在节点B中出现碎片时,本实施例中基于上述迁移原则,确定节点B为目标节点,节点D为源节点,且节点D中启动时间最晚的碎片Q和S为目标碎片,在迁移后如图11中所示,尽量将分散的任务整理到同一个节点中,如迁移后Q碎片均处于节点B中。

再如,如图12中所示,在云平台中4个资源节点A、B、C和D,本实施例中尽量迁移启动较晚的任务资源碎片,并且尽量将分散的任务整理到同一个节点中,尽量将资源碎片迁移到空闲地址最前的节点中,如图13中所示,将节点A确定为目标节点,将节点D确定为源节点,将节点D中的资源块P确定为目标碎片,完成碎片迁移。而在在有新的作业申请资源H时,将新的作业在最后空闲的节点D中,如图14中所示。

参考图15,为本申请实施例二提供的一种电子设备的结构示意图,该电子设备可以部署在人工智能云平台上,如图16中所示,该云平台上中部署有多个资源节点,每个资源节点上部署有计算资源,本实施例中的电子设备用于对云平台中资源节点中的资源碎片进行整理,电子设备与资源节点之间通过云通信实现数据连接。

具体的,本实施例中,该电子设备可以包括以下结构:

存储器1501,用于存储应用程序及所述应用程序运行所产生的数据。

其中,存储器1501可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

处理器1502,用于执行存储器1501中的应用程序,以实现以下功能:获得所述云平台中资源节点的资源运行状态,基于所述资源运行状态,生成碎片整理指令;响应于所述碎片整理指令,利用预先训练的碎片识别模型,识别出所述云平台中存在资源碎片的资源节点;确定碎片迁移的源节点和目标节点以及所述源节点中待迁移的目标碎片;将所述源节点中的目标碎片迁移到所述目标节点中。

在一种实现方式中,处理器1502可以通过获取历史碎片信息,如云平台中标记的碎片记录信息等,对碎片记录信息进行深度学习来得到云平台的碎片识别模型。

而在处理器1502可以利用预先通过所述平台中的历史资源信息经过深度学习获得的整理预测模型,对所述资源运行状态进行判断是否进行碎片整理,得到判断结果,再基于所述判断结果,生成碎片整理指令。而在完成碎片整理后,处理器1502通过获得碎片整理记录信息来对整理预测模型进行优化,从而提高碎片整理指令生成时机的准确性。

另外,处理器1502可以首先对目标碎片进行快照处理,从而在完成对目标碎片的迁移之后,再根据快照信息来恢复目标碎片上的作业运行,保证用户作业的正常运行。

而处理器1502具体在进行碎片迁移中可以通过以下方式来确定源节点、目标节点及目标碎片:首先,获得所述存在资源碎片的资源节点中的碎片状态信息,再基于所述碎片状态信息,根据预设的迁移原则来确定碎片迁移的源节点和目标节点以及所述源节点中待迁移的目标碎片。例如,所述目标碎片为所述资源碎片中最小的碎片;所述目标碎片为所述资源碎片中承载的作业启动时间最晚的碎片;所述目标碎片填满或者接近填满所述目标节点;所述目标节点为空闲地址最前的节点,等等。

以图16中所示为例,处理器1502通过接口服务中的整理预测模型触发并生成碎片整理指令,而处理器1502通过碎片管理器响应碎片生成指令,开始整理碎片,并在完成后存储碎片整理记录信息到数据库,用以对整理预测模型进行优化,提高碎片整理指令生成时机的准确性。

在具体实现中,处理器1502的具体实现方案及细节可以参考前文中图1~14中的相关内容,此处不再详述。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种人工智能云品台的资源碎片整理方法及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1