高性能计算与云计算混合计算系统及其资源管理方法

文档序号:9432376阅读:823来源:国知局
高性能计算与云计算混合计算系统及其资源管理方法
【技术领域】
[0001]本发明涉及计算技术,更具体地说,涉及一种高性能计算与云计算混合计算系统及其资源管理方法。
【背景技术】
[0002]高性能计算(high performance computing,缩写HPC)在工程计算、科学研究、遗传基因以及金融风险分析中已经取得了巨大的成就。高性能计算历经几十年的发展,如今不仅是作为实验和理论以外的第三大科学研究手段,而且可以被当作是一个国家综合国力的主要评价标准。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
[0003]目前的中国对于云计算和高性能计算的支持力度非常大,建立了不少超级计算中心,组成大规模的计算集群。云计算采用的关键技术是虚拟化,这样可以使资源按需调度,但也势必导致一部分的性能损失,而高性能计算以计算速度为第一追求,因而在性能方面与云计算会有一定的冲突。各个超级计算中心一般都会根据业务、服务的不同将计算集群分为云计算分区和高性能计算分区,云计算分区运行云操作系统,应用于云计算服务,而高性能计算分区则运行高性能作业调度系统,应用于高性能计算服务。当高性能计算业务不忙而云计算业务比较紧张的时候,如果按照以往计算中心常规的分区划分方式,那么将会出现高性能计算资源闲置的情况,因此需要找到一个更好的合理分配使用超级计算中心计算资源的技术。

【发明内容】

[0004]本发明要解决的技术问题在于,针对传统的计算中心资源分配存在的上述不足之处,提供一种高性能计算与云计算混合计算系统及其资源管理方法。
[0005]本发明在第一方面为解决其技术问题所采用的技术方案是:提出一种高性能计算与云计算混合计算系统,包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度系统和由其管理的多个计算节点,所述云计算资源池包括云计算管理系统和由其管理的多个计算节点,所述高性能计算资源池中的计算节点均设有云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接;
[0006]所述云计算管理系统在监控到资源不足时向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池,以及在监控到资源冗余时释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点;
[0007]所述高性能计算调度系统基于云计算管理系统发送的节点资源申请调度空闲的计算节点并通知给云计算管理系统,以及根据所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
[0008]根据本发明第一方面的一个实施例中,所述高性能计算调度系统基于云计算管理系统发送的节点资源申请调度空闲的计算节点并通知给云计算管理系统,进一步包括:将所述节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理系统。
[0009]根据本发明第一方面的一个实施例中,所述云计算代理服务模块基于所述第一清理命令清理空闲的计算节点包括:
[0010]结束所有的高性能计算作业进程;
[0011]卸载高性能计算作业使用的分布式文件系统;
[0012]设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
[0013]将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
[0014]从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;
[0015]创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。
[0016]根据本发明第一方面的一个实施例中,所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点包括:
[0017]卸载云计算使用的分布式文件系统或存储资源;
[0018]将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;
[0019]挂载高性能计算需要的分布式文件系统;
[0020]设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
[0021]返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。
[0022]本发明在第二方面为解决其技术问题所采用的技术方案是:提出一种高性能计算与云计算混合计算系统的资源管理方法,其中所述系统包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度系统和由其管理的多个计算节点,所述云计算资源池包括云计算管理系统和由其管理的多个计算节点,所述方法包括如下步骤:
[0023]S1、在所述高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接;
[0024]S2、在云计算管理系统监控到云计算资源池的资源不足时,由所述云计算管理系统向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池;
[0025]S3、在云计算管理系统监控到云计算资源池的资源冗余时,由所述云计算管理系统释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所述高性能计算调度系统根据所述云计算代理服务模块清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
[0026]根据本发明第二方面的一个实施例中,所述步骤S2进一步包括:
[0027]由所述高性能计算调度系统将所述云计算管理系统发送的节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理系统。
[0028]根据本发明第二方面的一个实施例中,所述步骤S2中由所述云计算代理服务模块清理该空闲的计算节点进一步包括:
[0029]结束所有的高性能计算作业进程;
[0030]卸载高性能计算作业使用的分布式文件系统;
[0031]设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
[0032]将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
[0033]从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;
[0034]创建虚拟交换机,并将该虚拟交换机信息返回给
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1