1.一种基于LSF平台的集群管理系统查错方法,其特征在于,包括:
获取计算任务管理主机中的计算任务;
从所述计算任务中实时查找错误提示信息;
藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;
藉由所述RSLIB系统修改并反馈所述错误内容。
2.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述获取计算任务管理主机中的计算任务的步骤包括以下子步骤:
收集所述计算任务管理主机所分解的计算任务;
收集所述计算任务管理主机向多个计算节点所分发的计算任务。
3.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述从所述计算任务中实时查找错误提示信息的步骤包括以下子步骤:
监测所述计算任务管理主机中的用户进程;
若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。
4.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置的步骤包括以下子步骤:
藉由所述RSLIB系统分解所述错误提示信息;
于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;
将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;
查找所述错误提示信息中相应的命令段。
5.根据权利要求4所述的集群管理系统查错方法,其特征在于,所述藉由所述RSLIB系统修改并反馈所述错误内容的步骤包括以下子步骤:
对所述命令段进行修改并重新提交对应的计算任务;
收集所述计算任务的运行结果;
分类记录所述运行结果并将所述运行结果反馈至预设的供应端;
其中,所述运行结果包括:
所述计算任务运行成功;或者
所述计算任务运行失败,经一至多次修改之后运行成功;或者
所述计算任务运行失败,经多次修改之后仍运行失败。
6.一种基于LSF平台的集群管理系统查错装置,其特征在于,包括:
任务获取模块,用于获取计算任务管理主机中的计算任务;
错误查找模块,用于从所述计算任务中实时查找错误提示信息;
位置查找模块,用于藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;
修改反馈模块,用于藉由所述RSLIB系统修改并反馈所述错误内容。
7.根据权利要求6所述的集群管理系统查错装置,其特征在于,所述任务获取模块包括:
计算任务收集子模块,用户收集所述计算任务管理主机从用户端所接收的计算任务;
分解任务收集子模块,用于收集所述计算任务管理主机所分解的计算任务;
分发任务收集子模块,用于收集所述计算任务管理主机向多个计算节点所分发的计算任务。
8.根据权利要求6所述的集群管理系统查错装置,其特征在于,所述错误查找模块包括:
进程检测子模块,用于监测所述计算任务管理主机中的用户进程;
错误反馈子模块,用于若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。
9.根据权利要求6所述的集群管理系统查错装置,其特征在于,所述位置查找模块包括:
信息分解子模块,用于藉由所述RSLIB系统分解所述错误提示信息;
相似度匹配子模块,用于于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;
结果处理子模块,用于将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;
命令段查找子模块,用于查找所述错误提示信息中相应的命令段。
10.根据权利要求9所述的集群管理系统查错装置,其特征在于,所述修改反馈模块包括:
任务修改子模块,用于对所述命令段进行修改并重新提交对应的计算任务;
结果收集子模块,用于收集所述计算任务的运行结果;
结果反馈子模块,用于分类记录所述运行结果并将所述运行结果反馈至预设的供应端;
其中,所述运行结果包括:
所述计算任务运行成功;或者
所述计算任务运行失败,经一至多次修改之后运行成功;或者
所述计算任务运行失败,经多次修改之后仍运行失败。