1.一种处理集群故障的方法,其特征在于,包括:
S1:预先在集群的管理节点上部署用于作业调度的主服务,在所述集群的每个计算节点上部署与所述主服务相匹配的子服务;
S2:所述管理节点利用所述主服务检测当前计算节点的子服务是否发生故障,如果是,则执行步骤S3;
S3:所述管理节点重启当前计算节点的子服务;
S4:所述管理节点利用所述主服务检测当前计算节点的故障是否已修复,如果否,则执行步骤S5;
S5:所述管理节点重启当前计算节点。
2.根据权利要求1所述的方法,其特征在于,
所述S3,包括:
所述管理节点登录当前计算节点,重启当前计算节点的子服务。
3.根据权利要求1所述的方法,其特征在于,
所述S3,包括:所述管理节点通过系统层向当前计算节点发送重启子服务的第一重启命令,利用所述第一重启命令重启当前计算节点的子服务。
4.根据权利要求1所述的方法,其特征在于,
还包括:
预先在所述管理节点和每个计算节点上部署智能平台管理接口IPMI,建立所述管理节点的IPMI与每个计算节点的IPMI的连接;
所述S5包括:
所述管理节点通过IPMI向当前计算节点的IPMI发送第二重启命令,利用所述第二重启命令重启当前计算节点。
5.根据权利要求1-4中任一所述的方法,其特征在于,
所述S2中的所述管理节点利用所述主服务检测当前计算节点的子服务是否发生故障,包括:
所述管理节点利用所述主服务确定当前计算节点的子服务的状态,在当前计算节点的子服务的状态为down状态或offline状态时,确定当前计算节点的子服务发生故障。
6.一种管理节点,其特征在于,包括:
第一主服务模块、子服务重启模块、第二主服务模块、节点重启模块;
所述第一主服务模块,用于利用部署在所述管理节点上的用于作业调度的主服务检测当前计算节点的与所述主服务相匹配的子服务是否发生故障,如果是,则触发所述子服务重启模块;
所述子服务重启模块,用于重启当前计算节点的子服务,触发所述第二主服务模块;
所述第二主服务模块,用于利用所述主服务检测当前计算节点的故障是否已修复,如果否,则触发所述节点重启模块;
所述节点重启模块,用于重启当前计算节点。
7.根据权利要求6所述的管理节点,其特征在于,
所述子服务重启模块,用于登录当前计算节点,重启当前计算节点的子服务。
8.根据权利要求6所述的管理节点,其特征在于,
所述子服务重启模块,用于通过系统层向当前计算节点发送重启子服务的第一重启命令,利用所述第一重启命令重启当前计算节点的子服务。
9.根据权利要求6所述的管理节点,其特征在于,
所述节点重启模块,用于通过部署在管理节点上的智能平台管理接口IPMI向当前计算节点的IPMI发送第二重启命令,利用所述第二重启命令重启当前计算节点,其中,所述管理节点的IPMI与当前计算节点的IPMI的连接。
10.根据权利要求6-9中任一所述的管理节点,其特征在于,
所述第一主服务模块,用于利用所述主服务确定当前计算节点的子服务的状态,在当前计算节点的子服务的状态为down状态或offline状态时,确定当前计算节点的子服务发生故障。