一种基于LSF平台的集群管理系统查错方法及装置与流程

文档序号:12596720阅读:686来源:国知局
本发明涉及高性能计算
技术领域
:,尤其涉及一种基于LSF平台的集群管理系统查错方法及装置。
背景技术
::集群系统是一组通过高速网络互联的、相互独立的计算机,并且以单一系统的模式加以管理。集群系统正式通过充分利用集群中每一台计算机的资源,才使得复杂运算的并行处理得以实现。和传统高性能计算机技术相比,集群技术利用服务器作为节点,因此其造价低;在系统造价低廉的同时,又没有牺牲运算速度,能够完成大运算量的计算。除此之外,集群系统也具有较高的响应能力,能够满足当今日趋增加的信息服务的需求。随着并行计算技术的发展,集群系统的应用越来越广泛,集群系统在完成大规模的计算任务方面的优势越来越突出。集群是一种造价低廉、易于构筑,并具有较好可扩放性的体系结构,因此具有良好的应用前景。为了提高集群的利用率,各种集群管理系统相继产生。目前集群作业管理系统中作业调度常用的组织模式有3种,分别是集中式、分布式、层次式。目前被人们大量使用的集群管理系统有LSF(LoadSharingFacility)、PBS(便携式批处理系统,PortableBatchSystem)、SGE(Sun网格引擎,SunGrid)等。PBS、SGE、LSF是当今颇具代表性和影响力的几种集群作业管理系统。其中PBS、SGE是研究产品,LSF是商业软件。LSF是独立于平台,最终用户通过一组实用程序命令使用LSF的功能。LSF还提供一个API(ApplicationProgrammingInterface),该API是一个叫作负载共享库LSLIB(负载共享库,LoadSharingFacility)的运行时库,使用LSLIB明确要求用户修改应用程序代码,而使用实用程序命令则不必。在集群中的每一个服务器节点上必须启动两个LSFdaemon守护进程,一个是负载信息管理器LIMs,它定期收集和交换负载信息,另一个是远程执行服务器RES(远程执行服务器,RemoteExecutionServer),它为任何任务提供透明的远程执行。LSF管理系统实现了系统资源的整合、多用户的管理、用户权限的管理。其核心关键是对系统资源的整合,具体来说是针对资源组织管理与作业的调度,也是集群作业管理系统的关键技术。LSF相较于其他管理系统,有以下优势:(1)在作业调度的组织模式上,LSF支持层次式组织模式。(2)LSF的作业调度模式提供了可扩展的作业选取策略框架,支持多种作业选取策略,并允许用户自行确定策略,并提供了抢占式调度和关键资源保障,保证紧急作业的调度。LSF在资源分配上提供公平共享和独占式策略。(3)LSF支持核心级、用户级及应用程序级的进程迁移和检查点操作。但是,现有技术中,由于集群用户的使用都是独立的,用户使用集群没有和软件使用进行对接统一,故不同用户在集群进行高性能计算时,总会遇到各种出错,往往会遇到很多类似的错误。尤其使用同种软件的用户在做相关计算时,总有诸多类似的问题,致使用户为了解决同类问题时耗费大量的精力与时间。技术实现要素:本发明要解决的技术问题在于,针对上述现有技术中在集群进行高性能计算时会遇到各种出错而导致为了解决同类问题时耗费大量的精力与时间的问题,提供一种基于LSF平台的集群管理系统查错方法及装置。本发明解决其技术问题所采用的技术方案是:一方面,构造一种基于LSF平台的集群管理系统查错方法,包括:获取计算任务管理主机中的计算任务;从所述计算任务中实时查找错误提示信息;藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;藉由所述RSLIB系统修改并反馈所述错误内容。在本发明所述的集群管理系统查错方法中,所述获取计算任务管理主机中的计算任务的步骤包括以下子步骤:收集所述计算任务管理主机所分解的计算任务;收集所述计算任务管理主机向多个计算节点所分发的计算任务。在本发明所述的集群管理系统查错方法中,所述从所述计算任务中实时查找错误提示信息的步骤包括以下子步骤:监测所述计算任务管理主机中的用户进程;若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。在本发明所述的集群管理系统查错方法中,所述藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置的步骤包括以下子步骤:藉由所述RSLIB系统分解所述错误提示信息;于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;查找所述错误提示信息中相应的命令段。在本发明所述的集群管理系统查错方法中,所述藉由所述RSLIB系统修改并反馈所述错误内容的步骤包括以下子步骤:对所述命令段进行修改并重新提交对应的计算任务;收集所述计算任务的运行结果;分类记录所述运行结果并将所述运行结果反馈至预设的供应端;其中,所述运行结果包括:所述计算任务运行成功;或者所述计算任务运行失败,经一至多次修改之后运行成功;或者所述计算任务运行失败,经多次修改之后仍运行失败。另一方面,提供一种基于LSF平台的集群管理系统查错装置,包括:任务获取模块,用于获取计算任务管理主机中的计算任务;错误查找模块,用于从所述计算任务中实时查找错误提示信息;位置查找模块,用于藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;修改反馈模块,用于藉由所述RSLIB系统修改并反馈所述错误内容。在本发明所述的集群管理系统查错装置中,所述任务获取模块包括:计算任务收集子模块,用户收集所述计算任务管理主机从用户端所接收的计算任务;分发任务收集子模块,用于收集所述计算任务管理主机向多个计算节点所分发的计算任务。在本发明所述的集群管理系统查错装置中,所述错误查找模块包括:进程检测子模块,用于监测所述计算任务管理主机中的用户进程;错误反馈子模块,用于若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。在本发明所述的集群管理系统查错装置中,所述位置查找模块包括:信息分解子模块,用于藉由所述RSLIB系统分解所述错误提示信息;相似度匹配子模块,用于于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;结果处理子模块,用于将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;命令段查找子模块,用于查找所述错误提示信息中相应的命令段。在本发明所述的集群管理系统查错装置中,所述修改反馈模块包括:任务修改子模块,用于对所述命令段进行修改并重新提交对应的计算任务;结果收集子模块,用于收集所述计算任务的运行结果;结果反馈子模块,用于分类记录所述运行结果并将所述运行结果反馈至预设的供应端;其中,所述运行结果包括:所述计算任务运行成功;或者所述计算任务运行失败,经一至多次修改之后运行成功;或者所述计算任务运行失败,经多次修改之后仍运行失败。上述公开的一种基于LSF平台的集群管理系统查错方法及装置具有以下有益效果:可与现有负载均衡软件LSF进行兼容,使集群计算与商用软件对接,实现用户在实际应用时的实时快速反馈,并具有可以对用户的计算情况实现快速反馈的优点,能够解决用户使用时的错误修正问题,提高集群用户的使用效率;通过分类处理计算任务提高了同类问题的处理效率。附图说明图1为本发明提供的一种基于LSF平台的集群管理系统查错方法流程图;图2为本发明提供的集群管理系统的逻辑框图;图3为本发明提供的一种基于LSF平台的集群管理系统查错装置框图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。本发明提供了一种基于LSF(LoadSharingFacility)平台的集群管理系统200查错方法及装置,其目的在于,可与现有负载均衡软件LSF进行兼容,使集群计算与商用软件对接,实现用户在实际应用时的实时快速反馈,并具有可以对用户的计算情况实现快速反馈的优点,能够解决用户使用时的错误修正问题,提高集群用户的使用效率。通过本发明提供的方法及装置,实现了集群系统的使用功能的拓展,本发明是在现有集群基础上增加RSLIB(ResponseSharingLibrary)系统,是对集群功能的拓展;实现了集群用户错误的快速反馈,快速修正。本发明实现集群用户在集群和软件使用上的对接,通过管理程序、匹配程序、共享库三个部分实现对集群用户出错的快速反馈和款式修正。其中RSLIB系统101包括管理程序、匹配程序及共享库。其中,RSLIB为反馈共享库,即提供快速反馈快速修正之意;负载共享设施LSF是分布资源管理的工具,用来调度、监视、分析联网计算机的负载。本发明是基于LSF的集群管理系统200的RSLIB系统101的功能设计方法,在集群系统中进行计算,主要是协调好管理调度的三多问题:节点多、任务多、用户多,同时尽可能地实现快速高效的计算。具体来说,就是主要实现以下的三个功能:系统资源的整合、多用户的管理、用户权限的管理。由于LSF相较于其他管理系统具有的以下三个优势:(1)在作业调度的组织模式上,LSF支持层次式组织模式。(2)LSF的作业调度模式提供了可扩展的作业选取策略框架,支持多种作业选取策略,并允许用户自行确定策略,并提供了抢占式调度和关键资源保障,保证紧急作业的调度。LSF在资源分配上提供公平共享和独占式策略。(3)LSF支持核心级、用户级及应用程序级的进程迁移和检查点操作。故本发明是基于LSF的集群管理系统200实现计算出错的反馈与修正的功能,使集群计算与软件使用对接,能够解决用户使用时的错误修正问题,提高集群用户的使用效率。参见图1,图1为一种基于LSF平台的集群管理系统200查错方法,该包括步骤S1-S4:S1、获取计算任务管理主机102中的计算任务;该步骤S1包括子步骤S11-S12:S11、收集所述计算任务管理主机102所分解的计算任务;参见图2,图2为本发明提供的集群管理系统200的逻辑框图,集群管理系统200包括计算任务管理主机102、RSLIB系统101、计算节点103、用户端105以及多个计算任务执行主机104。计算任务管理主机102包括计算任务分解单元、计算任务派发单元、计算结果汇总处理单元以及计算结果收集单元。一般的,计算任务分解单元对用户端105的计算任务进行分解。本步骤对这些分解的计算任务进行收集。S12、收集所述计算任务管理主机102向多个计算节点103所分发的计算任务。参见图2,计算机任务管理主机102的主要功能是对计算任务进行管理,包括对任务的分解、调度执行安排和结果收集;计算节点103是统一由计算机任务管理主机调度和分发任务。计算任务派发单元主要功能是对多个计算节点103进行分发计算任务。该步骤对分发的计算任务进行收集。S2、从所述计算任务中实时查找错误提示信息;该步骤S2包括子步骤S21-S22:S21、监测所述计算任务管理主机102中的用户进程;对计算任务中的错误提示信息时,一般通过对用户进程进行检查。S22、若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统101反馈。如图2中,RSLIB系统101与计算结果汇总处理单元对接,当计算结果汇总处理单元出现计算任务错误的提示,会马上反馈给RSLIB系统101。一般的,如果用户进程结束且出现任务计算失败的情况,将同时给RSLIB系统101进行反馈。即用户在集群中提交计算任务,计算任务结束时,计算任务管理主机102会对计算结果进行收集和汇总,并反馈用户。此时,对用户进程进行检查,如果用户进程结束且出现任务计算失败的情况,将同时给RSLIB系统101的管理程序进行反馈。S3、藉由RSLIB系统101并依据所述错误提示信息查找错误内容的位置;该步骤S3包括子步骤S31-S34:S31、藉由所述RSLIB系统101分解所述错误提示信息;即在个人用户使用集群系统中,新增加一个模块RSLIB共享库,该模块与现有LSF管理系统中的负载信息管理器LIMs(负载信息管理器,LoadInformationManager)类似,均为层次式结构中的独立模块。S32、于所述RSLIB系统101中预设的共享库中对所分解的错误提示信息进行相似度匹配;一般的,RSLIB系统101的管理程序对错误信息进行分解,在反馈共享库中进行相似度匹配,将结果按照匹配结果进行排序后反馈给用户,经用户确认是或可能是,则对相应错误段进行更改,然后重新提交作业。S33、将相似度匹配的结果按照预设的优先级排序并反馈至用户端105并接收所述用户端105的确认信息以确认所述错误提示信息需更改;具体的,通过用户提供的反馈选定可能引起错误的命令段,通过在RSLIB中进行检索,将匹配结果进行优先级排序,并及时反馈给用户进行选择、使用,如果用户收到反馈后确认不是错误,则按照优先级往后确认,或由用户选择错误的命令段之后进行再匹配;此外,还可以由系统自动判断错误内容,并给出修改意见以供用户选用。S34、查找所述错误提示信息中相应的命令段。通过用户提供的反馈选定可能引起错误的命令段或是由系统自动判断错误内容,通过在RSLIB中进行检索,将匹配结果进行优先级排序,并及时反馈给用户进行选择、使用,减少用户使用耗时,提高集群用户的效率。S4、藉由所述RSLIB系统101修改并反馈所述错误内容。该步骤S4包括子步骤S41-S43:S41、对所述命令段进行修改并重新提交对应的计算任务;即计算任务的错误成功解决则修改成功并记录,若不成功则再次更改错误的命令段,一般的,反复三次更改错误的命令段仍错误的,则退出该模式。例如,用户再提交作业,运行成功,进行结果收集。运行失败,则按优先级排序再修改提交,直到任务成功或多次之后自动退出,同时,进行结果收集。S42、收集所述计算任务的运行结果;通过S41的处理方法,收集并存储运行结果。S43、分类记录所述运行结果并将所述运行结果反馈至预设的供应端;供应端一般为软件供应商,可以通过上传至网络,再传送至相应的软件供应商处,也可以由软件供应商直接从系统中获取。其中,所述运行结果包括以下三种:1、所述计算任务运行成功。2、所述计算任务运行失败,经一至多次修改之后运行成功。3、所述计算任务运行失败,经多次修改之后仍运行失败。即经多次匹配失败的情况一并进行分类记录,当累计达到一定数量之后,给软件供应商进行反馈。依据以上三种运行结果分类存储,以便尽快地提高用户使用效率并尽早地解决问题。在问题得到解决后,对出错前后文件进行对比并保存至数据库,以供后续用户选用。综上,本
发明内容中可通过LSF平台实现,理由如下:1、LSF支持层式组织模式在LSF系统中增加一个RSLIB模块,不会影响系统的整体运行。2、LSF支持用户进程检查操作,RSLIB模块可以对接上用户进程的生命周期,同时输出错误的情况,直接对计算错误的情况进行反馈,实现错误的快速修正,减少用户计算任务时解决各种错误的时间,提高用户的使用效率。参见图3,该基于LSF平台的集群管理系统200查错装置100通过在相应的集群管理系统200以及其中RSLIB系统101中设置相应的程序实现,该基于LSF平台的集群管理系统200查错装置100包括任务获取模块1、错误查找模块2、位置查找模块3以及修改反馈模块4。任务获取模块1用于获取计算任务管理主机102中的计算任务;错误查找模块2用于从所述计算任务中实时查找错误提示信息;位置查找模块3用于藉由RSLIB系统101并依据所述错误提示信息查找错误内容的位置;修改反馈模块4用于藉由所述RSLIB系统101修改并反馈所述错误内容。优选的,所述任务获取模块1包括:计算任务收集子模块,用户收集所述计算任务管理主机102从用户端105所接收的计算任务;分发任务收集子模块,用于收集所述计算任务管理主机102向多个计算节点103所分发的计算任务。优选的,所述错误查找模块2包括:进程检测子模块,用于监测所述计算任务管理主机102中的用户进程;错误反馈子模块,用于若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统101反馈。优选的,所述位置查找模块3包括:信息分解子模块,用于藉由所述RSLIB系统101分解所述错误提示信息;相似度匹配子模块,用于于所述RSLIB系统101中预设的共享库中对所分解的错误提示信息进行相似度匹配;结果处理子模块,用于将相似度匹配的结果按照预设的优先级排序并反馈至用户端105并接收所述用户端105的确认信息以确认所述错误提示信息需更改;命令段查找子模块,用于查找所述错误提示信息中相应的命令段。优选的,所述修改反馈模块4包括:任务修改子模块,用于对所述命令段进行修改并重新提交对应的计算任务;结果收集子模块,用于收集所述计算任务的运行结果;结果反馈子模块,用于分类记录所述运行结果并将所述运行结果反馈至预设的供应端;其中,所述运行结果包括:所述计算任务运行成功;或者所述计算任务运行失败,经一至多次修改之后运行成功;或者所述计算任务运行失败,经多次修改之后仍运行失败。本文提供了实施例的各种操作。在一个实施例中,所述的一个或操作可以构成一个或计算机可读介质上存储的计算机可读指令,其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且,应当理解,不是所有操作必需在本文所提供的每个实施例中存在。而且,本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1