一种基于高性能计算集群的进程管理方法及其系统的制作方法

文档序号:9631431阅读:580来源:国知局
一种基于高性能计算集群的进程管理方法及其系统的制作方法
【技术领域】
[0001]本发明涉及高性能计算集群,尤其涉及一种基于高性能计算集群的进程管理方法及其系统。
【背景技术】
[0002]集群(cluster)是一组计算机,它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点(node)。一个理想的集群是,用户从来不会意识到集群系统底层的节点,在他们看来,集群是一个系统,而非多个计算机系统。进程是程序的一个具体实现,是执行程序的过程,一个程序可以执行多次,每次都可以在内存中开辟独立的空间来装载,从而产生多个进程。
[0003]高性能计算(High Perfermance Computing)集群,简称HPC集群,是由很多计算机通过网络组成的一个系统,主要用于并行计算,所有的计算机上安装Linux操作系统。会由于用户使用的不当,计算机的异常而产生大量的垃圾进程,系统管理员往往需要花大量的时间对高性能集群里的进程进行分析、判断和清除这些垃圾进程,解决因这些垃圾进程而使得系统使用效率不高的问题。

【发明内容】

[0004]本发明的特征和优点在下文的描述中部分地陈述,或者可从该描述显而易见,或者可通过实践本发明而学习。
[0005]为克服现有技术的问题,本发明提供一种基于高性能计算集群的进程管理方法及其系统,采用自动对比方法或查找筛选方法判断该进程是否为垃圾进程,从而对进程进行有效的管理,提高集群节点利用率。
[0006]本发明解决上述技术问题所采用的技术方案如下:
[0007]根据本发明的一个方面,提供一种基于高性能计算集群的进程管理方法,其特征在于,包括:S1、采集高性能计算集群中所有节点的进程以及相应的进程信息;S2、采用自动对比方法或查找筛选方法判断该进程是否为垃圾进程;S3、结束该垃圾进程;在该步骤S2中,当采用该自动对比方法判断该进程是否为垃圾进程时,首先根据该进程信息获取该进程的驻机时间和CPU占用时间,然后计算该进程的驻机时间和CPU占用时间的差值,并将该差值与预设值作比较,若该差值大于该预设值,则判定该进程为垃圾进程。
[0008]优选地,在该步骤S2中,该预设值根据该进程的类型不同而设置不同的值。
[0009]优选地,该步骤S1、S2、S3通过在shell脚本中输入指令实现。
[0010]优选地,在该步骤S2中采用自动对比方法或查找筛选方法进行判断的进程为用户进程。
[0011]优选地,在该步骤S2中,当采用该查找筛选方法判断该进程是否为垃圾进程时,先在所有该用户进程中查找出存在异常中断情形的用户进程,再在其中筛选出还在占用该节点资源的该存在异常中断情形的用户进程,将其判断为垃圾进程。
[0012]优选地,在该步骤S2中,当采用该查找筛选方法判断该进程是否为垃圾进程时,根据该进程的使用者信息、驻机时间、占用该节点的CPU的大小以及占用该节点的内存大小中的任意一项或多项信息结合该进程是否正在进行中的信息判断该进程是否为垃圾进程。
[0013]根据本发明的另一个方面,提供一种基于高性能计算集群的进程管理系统,其特征在于,包括:采集单元,用于采集高性能计算集群中所有节点的进程以及相应的进程信息;判断单元,与该采集单元相连,包括自动对比模块和查找筛选模块,用于判断该进程是否为垃圾进程;结束单元,用于结束该垃圾进程;在该判断单元中,该自动对比模块包括:计算子模块,用于根据该进程信息计算该进程的驻机时间和CPU占用时间的差值;对比子模块,用于将该差值与预设值作比较,若该差值大于该预设值,则该进程为垃圾进程。
[0014]优选地,该预设值根据该进程的类型不同而具有不同的值。
[0015]优选地,该查找筛选模块用于在所有该进程中查找出存在异常中断情形的进程;还用于在所有该存在异常中断情形的进程中筛选出还在占用该节点资源的进程,将其判断为垃圾进程。
[0016]优选地,该查找筛选模块用于根据该进程的使用者信息、驻机时间、占用该节点的CPU的大小以及占用该节点的内存大小中的任意一项或多项信息结合该进程是否正在进行中的信息判断该进程是否为垃圾进程。
[0017]本发明提供一种基于高性能计算集群的进程管理方法及其系统,通过计算进程占用CPU的总时间与预设值的对比,根据对比结果自动结束垃圾进程,也可以通过查找筛选方法结束垃圾进程,从而给予系统管理员一定的操作空间,确认并清除用户的垃圾进程,释放计算资源。
[0018]通过阅读说明书,本领域普通技术人员将更好地了解这些技术方案的特征和内容。
【附图说明】
[0019]下面通过参考附图并结合实例具体地描述本发明,本发明的优点和实现方式将会更加明显,其中附图所示内容仅用于对本发明的解释说明,而不构成对本发明的任何意义上的限制,在附图中:
[0020]图1为本发明实施例的基于高性能计算集群的进程管理方法的流程示意图。
[0021]图2为本发明实施例的通过shell脚本实现进程管理的示意图。
[0022]图3为本发明实施例的基于高性能计算集群的进程管理系统的结构示意图。
【具体实施方式】
[0023]如图1所示,本发明提供一种基于高性能计算集群的进程管理方法,包括:S1、采集高性能计算集群中所有节点的进程以及相应的进程信息;S2、采用自动对比方法或查找筛选方法判断该进程是否为垃圾进程;S3、结束该垃圾进程;在该步骤S2中,当采用自动对比方法判断进程是否为垃圾进程时,首先根据该进程信息获取进程的驻机时间和CPU占用时间,然后计算进程的驻机时间和CPU占用时间的差值,并将该差值与预设值作比较,若差值大于预设值,则判定该进程为垃圾进程。其中驻机时间为进程在系统中存在的时间,系统为操作系统,也就是进程在操作系统中从产生到现在的时长。
[0024]该预设值可以根据进程的类型不同而设置不同的值,在本实施例中中,设置的值为7天。
[0025]自动对比方法实现了根据系统提供的算法将进程进行自动优化作业,而无需系统管理员进行干涉管理。需要说明的是,进程能粗略地分为系统进程与用户进程,而在步骤S2中采用自动对比方法或查找筛选方法进行判断的进程为用户进程,也就是说,垃圾进程一定是用户进程,而不可能会是系统进程。所以在实施自动对比方法前,要在所有进程中自动或手动筛选出用户进程,当然在步骤S1中也可设定直接采集高性能计算集群中所有节点的用户进程以及相应的用户进程信息。
[0026]在步骤S2中,当采用该查找筛选方法判断该进程是否为垃圾进程时,先在所有用户进程中查找出存在异常中断情形的用户进程,再在其中筛选出还在占用所述节点资源的该存在异常中断情形的用户进程,将其判断为垃圾进程,进而在步骤S3中结束它。上述存在异常中断情形的用户进程是指该用户进程对应的程序存在异常中断的情形。
[0027]当采用该查找筛选方法判断该进程是否为垃圾进程时,还可以根据该进程的使用者信息、驻机时间、占用节点的CPU的大小以及占用节点的内存大小中的任意一项或多项信息结合该进程是否正在进行中的信息判断该进程是否为垃圾进程。例如可以根据使用者信息查看其作业是否存在错发的情形,当用户错发的作业产生的进程还在进行中时,可以断定该进程即为垃圾进程;还可以先选择占用节点的CPU
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1