本发明涉及计算机,尤其涉及一种异构智能计算平台虚拟化管理系统和方法。
背景技术:
1、随着计算平台的复杂度和动态能力的要求不断提高,需要对端侧平台的计算资源及网络存储等进行高效的管理。传统的虚拟化技术在实践中可能会遇到以下问题:一是异构平台虚拟化需要支持多种不同的操作系统和硬件架构,每种架构都有其独特的技术要求和挑战。这需要虚拟化技术具备高度的适应性和灵活性,能够应对各种不同的工作负载和环境;二是虚拟化技术会引入额外的开销,包括虚拟机管理器的运行、资源分配和任务调度等。这些开销可能会影响系统的性能和效率,特别是在资源有限的情况下;三是不同的虚拟机可能需要不同的配置和管理策略,这需要管理员具备高度的技术知识和经验。此外,虚拟机的部署、管理和维护也需要大量的时间和资源。目前传统虚拟化技术在国产化异构平台上运行效率低下,无法满足实时应用需求。
技术实现思路
1、本发明目的在于针对现有技术的不足,提供一种异构智能计算平台虚拟化管理系统和方法,解决异构平台虚拟化系统资源分配的问题。
2、本发明的目的是通过以下技术方案来实现的:一种异构智能计算平台虚拟化管理系统,包括:
3、芯片虚拟化模块,用于cpu、gpu、fpga的虚拟化;
4、计算虚拟化模块,用于监控和管理计算资源的状态信息和可用性信息,并将信息提供给动态调度管理模块;
5、网络虚拟化模块,用于采用虚拟软件定义网络技术使得不同用户共享同一个物理网路的网络资源,根据需求将物理网络资源切分形成逻辑独立的虚拟流分发网络vsdn给用户使用;
6、动态调度管理模块,用于判断主机负载状态,然后基于最小迁移数量策略选择满足迁移条件的虚拟机,实现虚拟机与主机的映射关系不变的静态放置或与主机的映射关系可变的动态放置;在完成虚拟机选择后,将能耗增加最少的主机作为虚拟机迁移的目标主机。
7、进一步地,cpu虚拟化允许将物理单个cpu虚拟成多个vcpu,即虚拟cpu,每个虚拟机的用户操作系统使用一个或者多个并行vcpu,每个vcpu之间相互独立运行,同时支持cpu的分时复用,即通过实时调度策略,实现任务的cpu共享。
8、进一步地,gpu虚拟化采用基于sr-iov的硬件辅助虚拟化技术,实现对pcie设备的虚拟化,通过在gpu上启用sr-iov功能,划分出多个虚拟gpu,每个虚拟gpu均有自己的标识和资源,虚拟机或容器直接访问虚拟gpu,实现对gpu资源的隔离和共享。
9、进一步地,fpga虚拟化将单片fpga划分为具有多块细粒度的部分可重构的vfpga,即虚拟fpga,每个vfpga均有单独的控制器进行管理,其通过axi总线与外界相连,一方面用于访问内存,另一方面用于与动态调度管理模块进行数据交互。
10、进一步地,所述计算虚拟化模块定期更新资源的负载情况、性能指标和可用性信息,并将这些信息提供给动态调度管理模块,根据任务或应用的需求,通过任务调度器和决策引擎对任务进行调度和分配资源。
11、进一步地,网络虚拟化模块中的虚拟网络控制器同时接受用户请求,根据需求将物理网络资源切分形成逻辑独立的vsdn给用户使用,建立vsdn主要包含两方面:网络管理程序nvh和虚拟网络映射vne;nvh位于用户sdn控制器与物理网络中间,通过网络通信协议openflow的网络虚构化平台flowvisor实现;vne将网络资源分配给各个虚拟网络,分为两大部分:节点映射和链路映射;对于节点映射保证物理资源节点不超过容量限制,而链路映射使一条虚拟链路映射对应一条物理路径;在每次用户状态改变时,基于vsdn重配置,将虚拟节点和链路映射到新的物理节点和物理链路。
12、进一步地,所述主机状态监测用于判断主机状态处于过载或者欠载状态,采用自适应动态阈值法进行判断;使用机器学习的方法学习动态的、自适应的资源利用率阈值,同时在学习过程中通过与动态环境的交互与试错来强化学习结果,以适应变化的环境,采用过载和欠载双阈值的方法,在过载和欠载时触发虚拟机调度。
13、进一步地,基于最小迁移数量策略选择满足迁移条件的虚拟机具体过程为:首先根据虚拟机的资源需求进行降序排列,然后选择满足条件的虚拟机,在最后完成虚拟机迁移后,主机上剩余虚拟机的资源需求小于主机的最大容量,选择其中对于资源需求最小的虚拟机。
14、另一方面,本发明提供了一种异构智能计算平台虚拟化管理方法,包括:
15、基于人机交互端用户需求,获取对应的cpu、gpu和fpga计算资源;
16、监控和管理计算资源的状态信息和可用性信息,并根据所需计算资源生成虚拟机资源分配指令;
17、将资源分配指令发送给各个芯片模组,用于虚拟化计算资源,然后将虚拟后的资源挂载至目标虚拟机中;
18、采用虚拟软件定义网络技术使得不同用户共享同一个物理网路的网络资源,根据需求将物理网络资源切分形成逻辑独立的虚拟流分发网络vsdn给用户使用;
19、基于最小迁移数量策略选择满足迁移条件的虚拟机,实现虚拟机与主机的映射关系不变的静态放置或与主机的映射关系可变的动态放置;在完成虚拟机选择后,将能耗增加最少的主机作为虚拟机迁移的目标主机。
20、进一步地,收集和分析计算资源的负载情况、性能指标和可用性信息;这些信息用于评估资源的利用率、瓶颈和性能瓶颈,并用于决策引擎进行调度决策和优化;通过不断监控和内存、网络及存储优化,提高资源利用率,降低任务执行时间和成本。
21、本发明的有益效果:
22、(1)突破异构硬件集群算力管理与调度瓶颈,实现异构算力一体化调度,提高硬件资源利用效率
23、(2)针对深度学习模型训练,异构算力虚拟化可以有助于实现分布式训练,大幅提升训练效率
24、(3)针对多任务并发场景,异构算力虚拟化可以实现多任务并行,且任务间互不干扰,保证任务安全可靠运行。
1.一种异构智能计算平台虚拟化管理系统,其特征在于,包括:
2.根据权利要求1所述的一种异构智能计算平台虚拟化管理系统,其特征在于,cpu虚拟化允许将物理单个cpu虚拟成多个vcpu,即虚拟cpu,每个虚拟机的用户操作系统使用一个或者多个并行vcpu,每个vcpu之间相互独立运行,同时支持cpu的分时复用,即通过实时调度策略,实现任务的cpu共享。
3.根据权利要求1所述的一种异构智能计算平台虚拟化管理系统,其特征在于,gpu虚拟化采用基于sr-iov的硬件辅助虚拟化技术,实现对pcie设备的虚拟化,通过在gpu上启用sr-iov功能,划分出多个虚拟gpu,每个虚拟gpu均有自己的标识和资源,虚拟机或容器直接访问虚拟gpu,实现对gpu资源的隔离和共享。
4.根据权利要求1所述的一种异构智能计算平台虚拟化管理系统,其特征在于,fpga虚拟化将单片fpga划分为具有多块细粒度的部分可重构的vfpga,即虚拟fpga,每个vfpga均有单独的控制器进行管理,其通过axi总线与外界相连,一方面用于访问内存,另一方面用于与动态调度管理模块进行数据交互。
5.根据权利要求1所述的一种异构智能计算平台虚拟化管理系统,其特征在于,所述计算虚拟化模块定期更新资源的负载情况、性能指标和可用性信息,并将这些信息提供给动态调度管理模块,根据任务或应用的需求,通过任务调度器和决策引擎对任务进行调度和分配资源。
6.根据权利要求1所述的一种异构智能计算平台虚拟化管理系统,其特征在于,网络虚拟化模块中的虚拟网络控制器同时接受用户请求,根据需求将物理网络资源切分形成逻辑独立的vsdn给用户使用,建立vsdn主要包含两方面:网络管理程序nvh和虚拟网络映射vne;nvh位于用户sdn控制器与物理网络中间,通过网络通信协议openflow的网络虚构化平台flowvisor实现;vne将网络资源分配给各个虚拟网络,分为两大部分:节点映射和链路映射;对于节点映射保证物理资源节点不超过容量限制,而链路映射使一条虚拟链路映射对应一条物理路径;在每次用户状态改变时,基于vsdn重配置,将虚拟节点和链路映射到新的物理节点和物理链路。
7.根据权利要求1所述的一种异构智能计算平台虚拟化管理系统,其特征在于,所述主机状态监测用于判断主机状态处于过载或者欠载状态,采用自适应动态阈值法进行判断;使用机器学习的方法学习动态的、自适应的资源利用率阈值,同时在学习过程中通过与动态环境的交互与试错来强化学习结果,以适应变化的环境,采用过载和欠载双阈值的方法,在过载和欠载时触发虚拟机调度。
8.根据权利要求1所述的一种异构智能计算平台虚拟化管理系统,其特征在于,基于最小迁移数量策略选择满足迁移条件的虚拟机具体过程为:首先根据虚拟机的资源需求进行降序排列,然后选择满足条件的虚拟机,在最后完成虚拟机迁移后,主机上剩余虚拟机的资源需求小于主机的最大容量,选择其中对于资源需求最小的虚拟机。
9.一种异构智能计算平台虚拟化管理方法,其特征在于,包括:
10.根据权利要求9所述的一种异构智能计算平台虚拟化管理方法,其特征在于,收集和分析计算资源的负载情况、性能指标和可用性信息;这些信息用于评估资源的利用率及性能瓶颈,并用于决策引擎进行调度决策和优化;通过不断监控和内存、网络及存储优化,提高资源利用率,降低任务执行时间和成本。