集群系统,服务器设备,集群系统管理方法和计算机可读记录介质的制作方法

文档序号:10494374阅读:284来源:国知局
集群系统,服务器设备,集群系统管理方法和计算机可读记录介质的制作方法
【专利摘要】一种集群系统包括通过通信路径相连的服务器装置(10,20)。每个服务器装置包括:经由通信路径(30?50)向其他服务器装置发送指示自身存在的信号的信号发送单元(11);确定通信路径(30?50)是否可靠的可靠性确定单元(12);以及处理管理单元(13),当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明通信路径未被确定为可靠时,停止正在执行的处理。
【专利说明】
集群系统,服务器设备,集群系统管理方法和计算机可读记录介质
技术领域
[0001]本发明涉及包括多个服务器装置的集群系统、其中使用的服务器装置、管理集群系统的方法以及存储用于实现它们的程序的计算机可读记录介质。
【背景技术】
[0002]公司等使用集群系统以允许在系统故障事件中继续执行操作。在集群系统中,多个服务器装置相互连接,并且这些服务器装置对用户整体表现为单个服务器装置。
[0003]此外,在集群系统中,通过服务器装置之间的心跳通信来检测故障,以阻止操作的停止(例如,参见专利文献I和2)。在心跳通信中,服务器装置以设定间隔向相互发送指示自身存在的信号(以下称为“心跳”)。
[0004]具体地,在专利文献I和2公开的系统中,每个服务器装置先确定与每个通信路径有关的心跳通信中是否出现超时。当出现超时时,确定出现某种故障。当确定出现故障时,每个服务器确定在设定超时时段内是否有接收分组通过网络到达。如果接收分组未到达(超时),确定出现通信故障。如果接收分组到达,确定伙伴服务器中出现异常。
[0005]在专利文献I和2公开的系统中,一旦检测到出现故障,无故障服务器装置将接管故障服务器装置的操作。这阻止了操作的停止。
[0006]现有技术文献列表
[0007][专利文献]
[0008]专利文献1:JP2003-173299A
[0009]专利文献2:JP2008-172592A

【发明内容】

[0010]发明要解决的技术问题
[0011]然而,在专利文献I和2公开的系统中,故障出现的检测基于是否接收到心跳以及从网络接收的分组的接收状态。这便带来出现所谓脑裂(sp I i t-brain)症状的可能性。
[0012]例如,假设专利文献I和2公开的系统中的一个服务器装置的通信接口(网卡)出现故障。在该情形中,上文提到的一个服务器装置无法从网络接收心跳或分组,因而确定出现通信故障。另一方面,另一个服务器装置无法接收心跳,但可以从网络接收分组,因而确定上文提到的一个服务器装置因故障出现而停机。如果上文提到的一个服务器装置正在执行操作处理,另一个服务器装置也开始操作处理。因此,两个服务器装置执行相同的操作处理。
[0013]在该情形中,如果操作处理是例如只提供信息的静态网站的呈现,则不会有问题出现。但是,如果操作处理是数据的更新,则将存在处理的内容的冲突;这就是脑裂症状。
[0014]本发明的一个示例性目的在于提供一种集群系统、服务器装置、管理集群系统的方法和计算机可读记录介质,其可以解决上述问题并阻止集群系统中的处理的内容的冲关ο
[0015]解决问题的途径
[0016]为实现上述目的,在本发明的一个方面中,一种集群系统包括通过通信路径相连的多个服务器装置,所述多个服务器装置中的每一个包括:信号发送单元,经由所述通信路径向另一个服务器装置发送指示自身存在的信号;可靠性确定单元,确定所述通信路径是否可靠;以及处理管理单元,当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。
[0017]为实现上述目的,在本发明的另一方面中,一种服务器装置通过通信路径连接到另一个服务器装置,并且包括:信号发送单元,经由所述通信路径向其他服务器装置发送指示自身存在的信号;可靠性确定单元,确定所述通信路径是否可靠;以及处理管理单元,当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。
[0018]为实现上述目的,在本发明的再一个方面中,一种管理集群系统的方法使用通过通信路径相连的多个服务器装置,并且包括由多个服务器装置中的每一个执行的以下步骤:步骤(a),经由所述通信路径向另一个服务器装置发送指示自身存在的信号;步骤(b),确定所述通信路径是否可靠;以及步骤(c),当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。
[0019]为实现上述目的,在本发明的再一个方面中,一种计算机可读记录介质存储包括指令的程序,所述指令使计算机执行以下步骤,所述计算机通过通信路径连接到另一个计算机:步骤(a),经由所述通信路径向其他计算机发送指示自身存在的信号;步骤(b),确定所述通信路径是否可靠;以及步骤(C),当处于无法从其他计算机接收信号的状态时,检查到其他计算机的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。
[0020]本发明的有益效果
[0021 ]如上所述,本发明可以阻止集群系统中的处理的内容的冲突。
【附图说明】
[0022]图1是示出根据本发明实施例的集群系统的配置的示意图。
[0023]图2是示出根据本发明实施例的集群系统和服务器装置的配置的框图。
[0024]图3是示出根据本发明实施例的组成集群系统的服务器装置的行为的流程图。
[0025]图4示出了根据本发明实施例的由组成集群系统的服务器装置做出的可靠性确定的结果。
[0026]图5是示出根据本发明实施例的实现服务器装置的计算机的示例的框图。
【具体实施方式】
[0027](实施例)
[0028]以下参考图1至5描述根据本发明实施例的集群系统、服务器装置、管理服务器装置的方法和程序。
[0029][系统配置]
[0030]首先,使用图1来描述根据本发明实施例的集群系统和服务器装置的配置。图1是示出根据本发明实施例的集群系统的配置的示意图。
[0031]如图1所示,根据本实施例的集群系统100包括通过通信路径30至50相连的服务器装置10和20。在集群系统100中,当一个服务器装置中出现故障时,其他服务器装置接管故障服务器装置正在执行的处理。这阻止了操作的停止。
[0032]服务器装置10和20中的每一个经由通信路径30至50,向其他服务器装置发送指示自身存在的信号(即心跳),并且还能够确定通信路径30至50是否可靠。
[0033]当服务器装置10和20中的每一个都处于无法从其他服务器装置接收心跳的状态时,其检查到其他服务器装置的通信路径30至50是否已被确定为可靠。如果检查结果表明通信路径30至50未被确定为可靠,则每个服务器装置可以停止正在执行的处理。
[0034]因此,在本实施例中,服务器装置10和20做出关于通信路径30至50对心跳通信的可靠性的确定,并且可以根据确定结果来停止处理,即使实际上没有装置停机。这样阻止了处理的内容的冲突,即,所谓脑裂症状的出现。
[0035]以下使用图2详细描述根据本实施例的集群系统和服务器装置的配置。图2是示出根据本发明实施例的集群系统和服务器装置的配置的框图。
[0036]如图2所示,在本实施例中,通信路径30是用作经过网络31的通信路径的公共局域网(LAN)。通信路径40是用作直接连接在服务器装置之间的通信路径的互连LAN。通信路径50经过存储装置51。
[0037]服务器装置10、20和存储装置51通过使用小型计算机系统接口(SCSI)或光纤信道(FC)的通信路径50相连。通信路径50可以通过使用诸如互联网而非专用线路的网络来构建。
[0038]在本实施例中,如图2所示,服务器装置10包括信号发送单元11、可靠性确定单元
12、处理管理单元13、信号接收单元14、自动停止单元15、对应于通信路径的通信接口 16至
18、以及操作处理执行单元19。其中,通信接口 16至18由例如网络接口卡(NIC)构成。
[0039]信号发送单元11经由通信路径30至50向其他服务器装置发送心跳。除了通信路径30至50,信号发送单元11还在经由通信路径进行发送的同时向自动停止单元15发送心跳。注意,可以周期性地发送心跳,或根据设定条件发送心跳。
[0040]信号接收单元14经由通信接口16至18从其他服务器装置接收心跳。信号接收单元
14还确定是否处于无法从其他服务器装置接收心跳的状态,具体地,心跳是否已超时。
[0041]可靠性确定单元12确定通信路径30至50是否可靠。具体地,对于通信路径40,可靠性确定单元12向网络31中的设备(路由器)32发送请求(ICMP回声请求),并且当从设备32返回对该请求的响应(ICMP回声答复)时,确定通信路径40可靠。
[0042]当对用作通信接口17的NIC施加电力时,可靠性确定单元12确定通信路径40可靠。具体地,对于通信路径50,可靠性确定单元12向存储装置51发送SCSI或FC规定的命令,并且当从存储装置51返回对该命令的响应时,确定通信路径50可靠。
[0043]操作处理执行单元19执行对集群系统100执行的操作的处理(操作处理)。具体地,操作处理执行单元19通过用于操作处理的应用程序来构建。操作处理执行单元19基于逐步操作来构建。
[0044]当信号接收单元14确定处于无法从其他服务器装置接收心跳的状态时,处理管理单元13检查可靠性确定单元12是否已确定通信路径30至50可靠。
[0045]如果检查结果表明通信路径30至50未被确定为可靠,则处理管理单元13使得操作处理执行单元19停止正在执行的处理。另一方面,如果检查结果表明一个或多个通信路径已被确定为可靠,则处理管理单元13确定其他服务器装置中出现异常。在该情形中,如果操作处理执行单元19已在执行操作处理,则处理管理单元13使得操作处理执行单元19继续执行该处理。另一方面,如果操作处理执行单元19不在执行操作处理,则处理管理单元13使得操作处理执行单元19替代其他服务器装置去执行其他服务器装置正在执行的操作处理。
[0046]当来自信号发送单元11的心跳的发送已停止时,自动停止单元15使服务器装置10停止。具体地,自动停止单元15通过事先构建在服务器装置10中的看门狗定时器来实现。由此提供自动停止单元15,当例如服务器装置10简单挂起时,服务器装置10也停止。采取该动作的理由如下。在服务器装置10挂起后,服务器装置20确定服务器装置10中出现故障并接管服务器装置10的处理。然后,如果服务器装置10从挂起状态中恢复,则将出现脑裂症状。
[0047]服务器装置20包括信号发送单元21、可靠性确定单元22、处理管理单元23、信号接收单元24、自动停止单元25、对应于通信路径的通信接口 16至18、以及操作处理执行单元29。由于服务器装置10和20以相同方式配置且具有相同功能,省略对服务器装置20的组件的描述。尽管在图1和2的示例中仅有两个服务器装置组成集群系统100,本实施例中服务器装置的数量没有特定限制。
[0048][系统行为]
[0049]现在使用图3来描述根据本发明实施例的集群系统100的行为。图3是示出根据本发明实施例的组成集群系统的服务器装置的行为的流程图。
[0050]集中在服务器装置10并在需要时参考图2,提供以下描述。在本实施例中,通过使集群系统100操作来实现管理集群系统的方法。因此,以下对集群系统的行为的描述适用于根据本实施例的管理集群系统的方法。
[0051]其前提是,在服务器装置10中,信号发送单元11以设定间隔经由通信接口16至18向服务器装置20发送心跳。此外,在服务器装置10中,与心跳的发送或接收时刻同步,可靠性确定单元12确定通信路径30至50是否可靠。
[0052]类似地,在服务器装置20中,信号发送单元21以设定间隔经由通信接口 26至28向服务器装置10发送心跳。此外,同样在服务器装置20中,与心跳的发送或接收时刻同步,可靠性确定单元22确定通信路径30至50是否可靠。
[0053]如图3所示,在服务器装置10中,信号接收单元14确定来自服务器装置20的心跳的接收是否已超时(步骤Al)。
[0054]如果步骤Al的确定结果表明心跳的接收未超时,则信号接收单元14在设定时间段结束后再次执行步骤Al。另一方面,如果步骤Al的确定结果表明心跳的接收已超时,则信号接收单元14向处理管理单元13通知超时。
[0055]一旦被通知超时,处理管理单元13确定通信路径30至50中的一个或多个是否可靠(步骤A2)。如果步骤A2的确定结果表明通信路径中的一个或多个可靠,则处理管理单元13确定操作处理执行单元19是否正在执行操作处理(步骤A3)。
[0056]如果步骤A3的确定结果表明操作处理执行单元19正在执行操作处理,则处理管理单元13使得操作处理执行单元19继续操作处理(步骤A4)。相反,如果步骤A3的确定结果表明操作处理执行单元19不在执行操作处理,则处理管理单元13使得操作处理执行单元19接管服务器装置20正在执行的处理(步骤A5)。
[0057]如果步骤A2的确定结果表明没有通信路径可靠,类似地,处理管理单元13确定操作处理执行单元19是否正在执行操作处理(步骤A6)。
[0058]如果步骤A6中的确定结果表明操作处理执行单元19不在执行操作处理,则结束服务器装置10的处理。另一方面,如果步骤A6的确定结果表明操作处理执行单元19正在执行操作处理,则处理管理单元13使得操作处理执行单元19停止操作处理(步骤A7)。
[0059]服务器装置10重复执行上述步骤Al至A7。同样,服务器装置20重复执行与步骤Al至A7类似的步骤。
[0060][具体示例]
[0061]现在将使用图4来描述具体示例。图4示出了根据本发明实施例的由组成集群系统的服务器装置做出的可靠性确定的结果。
[0062]例如,假设图2中示出的服务器装置10和20无法经由任何通信路径接收心跳。在该情形中,在服务器装置10中,可靠性确定单元12确定通信路径30至50当前是否可靠。
[0063]如图4所示,如果确定结果表明在服务器装置10中通信路径30和40被确定为可靠,则服务器装置10确定在服务器装置20中出现故障。理由是,即使服务器装置10已确定一个或多个通信路径可靠,当服务器装置20无法发送心跳时,认为服务器装置20是问题来源。
[0064]现在假设服务器装置20中实际上没有出现故障,并且由于服务器装置20附近的通信路径30至50的问题而无法发送/接收心跳。在该情形中,如图4所示,服务器装置20确定通信路径30至50中没有一个是可靠的;因此,如果服务器装置20正在执行操作处理,则即使其中没有出现故障也停止操作处理。由此,阻止了脑裂症状的出现。
[0065]另一方面,当由于服务器装置20中出现故障而无法送心跳时,服务器装置20不执行上述步骤Al至A7的处理,但其中已停止操作处理。因此,不出现脑裂症状。
[0066]当服务器装置20仅因服务器装置20的挂起而无法向服务器装置10发送心跳时,月艮务器装置10也确定服务器装置20中出现故障。这种简单挂起将允许服务器装置20稍后从挂起状态中恢复。这便带来出现脑裂症状的可能性。因此,在本实施例中,服务器装置10和20都配备有自动停止单元15,稍后将描述。其阻止脑裂症状的出现。
[0067][程序]
[0068]根据本实施例的程序足以使得计算机执行图3中示出的步骤Al至A7。根据本实施例的集群系统、服务器装置和管理集群系统的方法可以通过在计算机中安装该程序并执行安装后的程序来实现。在该情形中,用作服务器装置10的计算机的中央处理单元(CPU)起到信号发送单元11、可靠性确定单元12、处理管理单元13、信号接收单元14和自动停止单元15的作用,并执行处理。用作服务器装置20的计算机的中央处理单元(CPU)起到信号发送单元
21、可靠性确定单元22、处理管理单元23、信号接收单元24和自动停止单元25的作用,并执行处理。
[0069][修改示例]
[0070]在上述示例中,每个服务器装置中的可靠性确定单元做出与所有通信路径的可靠性有关的确定。然而,本实施例不限于该模式。本实施例可以涉及可靠性确定单元做出仅与一部分通信路径的可靠性有关的确定的模式。
[0071 ] 此外,在上述示例中,通信路径基于公共LAN、互连LAN和SCSI/FC。然而,在本实施例中,连接在服务器装置之间的通信路径的数量和类型没有具体限制。其他通信路径的示例包括用于控制基板管理控制器(BMC)的LAN、使用RS-232-C端口的通信路径、使用无线LAN的通信路径以及使用USB终端的通信路径。
[0072][物理配置]
[0073]现在使用图5,描述通过执行根据本实施例的程序来实现服务器装置的计算机。图5是示出根据本发明实施例的实现服务器装置的计算机的示例的框图。
[0074]如图5所示,计算机110包括CPU 111、主存储器112、存储装置113、输入接口 114、显示控制器115、数据读取器/写入器116和通信接口 117。这些组件以使得其可以经由总线121相互执行数据通信的方式相互连接。
[0075]通过将存储在存储装置113中的根据本实施例的程序(代码)部署到主存储器112中,并以预定顺序执行部署后的程序,CPU 111执行各种类型的计算。主存储器112通常是易失性存储装置,例如动态随机存取存储器(DRAM)。提供根据本实施例的程序,该程序存储在计算机可读记录介质120中。注意,可以经由通信接口 117在互联网上分发根据本实施例的程序。
[0076]存储装置113的具体示例包括硬盘和半导体存储装置,例如闪存。输入接口114传递CPU 111与诸如键盘和鼠标之类的输入装置118之间的数据传输。显示控制器115与显示装置119相连并控制显示装置119上的显示。
[0077]数据读取器/写入器116传递CPU111与记录介质120之间的数据传输。数据读取器/写入器116从记录介质120读取程序,并将计算机110的处理结果写入记录介质120。通信接口 117传递CPU 111和其他计算机之间的数据传输。
[0078]记录介质120的具体示例包括:通用半导体存储装置,例如压缩闪存(CF,注册商标)和安全数字(SD);磁存储介质,例如柔性盘;以及光存储介质,例如压缩盘只读存储器(CD-ROM)0
[0079]上述实施例的一部分或全部可以被描述为但不限于以下附记I至24。
[0080]〈附记1>
[0081]—种集群系统,包括通过通信路径相连的多个服务器装置,所述多个服务器装置中的每一个包括:信号发送单元,经由所述通信路径向另一个服务器装置发送指示自身存在的信号;可靠性确定单元,确定所述通信路径是否可靠;以及处理管理单元,当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。
[0082]〈附记2>
[0083]根据附记I所述的集群系统,其中,当检查结果表明通信路径被确定为可靠时,所述处理管理单元确定在所述其他服务器装置中出现异常,并使其服务器装置继续执行正在执行的处理,或替代所述其他服务器装置执行所述其他服务器装置正在执行的处理。
[0084]〈附记3>
[0085]根据附记2所述的集群系统,其中,所述多个服务器装置通过两个或更多个通信路径相互连接,以及当所述通信路径中的一个或多个被确定为可靠时,每个服务器装置的处理管理单元确定在所述其他服务器装置中出现异常。
[0086]〈附记4>
[0087]根据附记3所述的集群系统,其中,所述多个服务器装置通过直接连接在所述服务器装置之间的通信路径、经过网络的通信路径以及经过存储装置的通信路径而相互连接。
[0088]〈附记5>
[0089]根据附记4所述的集群系统,其中所述可靠性确定单元:当对通信接口施加电力时,确定直接连接在所述服务器装置之间的通信路径可靠;对于经过所述网络的通信路径,向所述网络中的设备发送请求,并且当从所述设备返回对所述请求的响应时,确定经过所述网络的通信路径可靠;以及对于经过所述存储装置的通信路径,向所述存储装置发送命令,并且当从所述存储装置返回对所述命令的响应时,确定经过所述存储装置的通信路径可靠。
[0090]〈附记6>
[0091]根据附记I所述的集群系统,其中,所述多个服务器装置中的每一个还包括自动停止单元,当来自所述信号发送单元的信号的传输停止时,所述自动停止单元使其服务器装置停止。
[0092]〈附记7>
[0093]—种服务器装置,通过通信路径连接到另一个服务器装置,所述服务器装置包括:信号发送单元,经由所述通信路径向其他服务器装置发送指示自身存在的信号;可靠性确定单元,确定所述通信路径是否可靠;以及处理管理单元,当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。
[0094]〈附记8>
[0095]根据附记7所述的服务器装置,其中,当检查结果表明通信路径被确定为可靠时,所述处理管理单元确定在所述其他服务器装置中出现异常,并使所述服务器装置继续执行正在执行的处理,或替代所述其他服务器装置执行所述其他服务器装置正在执行的处理。
[0096]〈附记9>
[0097]根据附记8所述的服务器装置,其中,所述服务器装置通过两个或更多个通信路径连接到所述其他服务器装置,以及当所述通信路径中的一个或多个被确定为可靠时,所述处理管理单元确定在所述其他服务器装置中出现异常。
[0098]〈附记10>
[0099]根据附记9所述的服务器装置,所述服务器装置通过直接连接在所述服务器装置之间的通信路径、经过网络的通信路径以及经过存储装置的通信路径而连接到所述其他服务器装置。
[0100]〈附记11>
[0101]根据附记10所述的服务器装置,其中所述可靠性确定单元:当对通信接口施加电力时,确定直接连接在所述服务器装置之间的通信路径可靠;对于经过所述网络的通信路径,向所述网络中的设备发送请求,并且当从所述设备返回对所述请求的响应时,确定经过所述网络的通信路径可靠;以及对于经过所述存储装置的通信路径,向所述存储装置发送命令,并且当从所述存储装置返回对所述命令的响应时,确定经过所述存储装置的通信路径可靠。
[0102]〈附记12>
[0103]根据附记7所述的服务器装置,还包括自动停止单元,当来自所述信号发送单元的信号的传输停止时,所述自动停止单元使所述服务器装置停止。
[0104]〈附记13>
[0105]—种管理集群系统的方法,所述集群系统使用通过通信路径相连的多个服务器装置,所述方法包括由所述多个服务器装置中的每一个执行的以下步骤:步骤(a),经由所述通信路径向另一个服务器装置发送指示自身存在的信号;步骤(b),确定所述通信路径是否可靠;以及步骤(C),当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。
[0106]〈附记14>
[0107]根据附记13所述的管理集群系统的方法,其中在步骤(C)中,当检查结果表明通信路径被确定为可靠时,确定在所述其他服务器装置中出现异常,并且所述服务器装置继续执行正在执行的处理,或替代所述其他服务器装置执行所述其他服务器装置正在执行的处理。
[0108]〈附记15>
[0109]根据附记14所述的管理集群系统的方法,其中,所述多个服务器装置通过两个或更多个通信路径相互连接,以及在步骤(C)中,当所述通信路径中的一个或多个被确定为可靠时,确定在所述其他服务器装置中出现异常。
[0110]〈附记16>
[0111]根据附记15所述的管理集群系统的方法,其中,所述多个服务器装置通过直接连接在所述服务器装置之间的通信路径、经过网络的通信路径以及经过存储装置的通信路径而相互连接。
[0112]〈附记17>
[0113]根据附记16所述的管理集群系统的方法,其中,在步骤(b)中,当对通信接口施加电力时,确定直接连接在服务器装置之间的通信路径可靠;对于经过所述网络的通信路径,向所述网络中的设备发送请求,并且当从所述设备返回对所述请求的响应时,确定经过所述网络的通信路径可靠;以及对于经过所述存储装置的通信路径,向所述存储装置发送命令,并且当从所述存储装置返回对所述命令的响应时,确定经过所述存储装置的通信路径可靠。
[0114]〈附记18>
[0115]根据附记13所述的管理集群系统的方法,还包括由所述多个服务器装置中的每一个执行的以下步骤:步骤(d),当步骤(a)中的信号的传输停止时,使所述服务器装置停止。
[0116]〈附记19>
[0117]—种存储包括指令的程序的计算机可读记录介质,所述指令使计算机执行以下步骤,所述计算机通过通信路径连接到另一个计算机:步骤(a),经由所述通信路径向其他计算机发送指示自身存在的信号;步骤(b),确定所述通信路径是否可靠;以及步骤(C),当处于无法从其他计算机接收信号的状态时,检查到其他计算机的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。
[0118]〈附记20>
[0119]根据附记19所述的计算机可读记录介质,其中在步骤(C)中,当检查结果表明通信路径被确定为可靠时,确定在所述其他计算机中出现异常,并且所述计算机继续执行正在执行的处理,或替代所述其他计算机执行所述其他计算机正在执行的处理。
[0120]〈附记21>
[0121]根据附记20所述的计算机可读记录介质,其中,所述计算机通过两个或更多个通信路径连接到所述其他计算机,以及在步骤(C)中,当所述通信路径中的一个或多个被确定为可靠时,确定在所述其他计算机中出现异常。
[0122]〈附记22>
[0123]根据附记21所述的计算机可读记录介质,其中,所述计算机通过直接连接在所述计算机之间的通信路径、经过网络的通信路径以及经过存储装置的通信路径而连接到所述其他计算机。
[0124]〈附记23>
[0125]根据附记22所述的计算机可读记录介质,其中,在步骤(b)中,当对通信接口施加电力时,确定直接连接在所述计算机之间的通信路径可靠;对于经过所述网络的通信路径,向所述网络中的设备发送请求,并且当从所述设备返回对所述请求的响应时,确定经过所述网络的通信路径可靠;以及对于经过所述存储装置的通信路径,向所述存储装置发送命令,并且当从所述存储装置返回对所述命令的响应时,确定经过所述存储装置的通信路径可靠。
[0126]〈附记24>
[0127]根据附记19所述的记录介质,其中所述程序还包括使所述计算机执行步骤(d)的指令,步骤(d):当步骤(a)中的信号的传输停止时使所述计算机停止。
[0128]虽然以上已经基于实施例描述了本申请的发明,本申请的发明不限于上述实施例。可以用本领域技术人员可以理解的、落入本申请的范围内的各种变化来修改本申请的发明的配置和细节。
[0129]本申请要求2013年12月25日提交的日本专利申请N0.2013-267038的优先权,该日本专利申请的公开内容通过引用的方式完整地并入本文。
[0130][工业适用性]
[0131]如上所述,本发明可以阻止集群系统中的处理的内容的冲突。本发明用于集群系统的管理。
[0132]参考符号列表
[0133]10:服务器装置
[0134]11:信号发送单元
[0135]12:可靠性确定单元
[0136]13:处理管理单元
[0137]14:信号接收单元
[0138]15:自动停止单元
[0139]16、17、18:通信接口
[0140]19:操作处理执行单元
[0141]20:服务器装置
[0142]21:信号发送单元
[0143]22:可靠性确定单元
[0144]23:处理管理单元
[0145]24:信号接收单元
[0146]25:自动停止单元
[0147]26、27、28:通信接口
[0148]29:操作处理执行单元
[0149]30:通信路径
[0150]31:网络
[0151]32:路由器
[0152]40:通信路径
[0153]50:通信路径
[0154]51:存储装置
[0155]100:集群系统
[0156]110:计算机
[0157]IlliCPU
[0158]112:主存储器
[0159]113:存储装置
[0160]114:输入接口
[0161]115:显示控制器
[0162]116:数据读取器/写入器
[0163]117:通信接口
[0164]118:输入装置
[0165]119:显示装置
[0166]120:记录介质
[0167]121:总线
【主权项】
1.一种集群系统,包括通过通信路径相连的多个服务器装置,所述多个服务器装置中的每一个包括: 信号发送单元,经由所述通信路径向另一个服务器装置发送指示自身存在的信号; 可靠性确定单元,确定所述通信路径是否可靠;以及 处理管理单元,当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。2.根据权利要求1所述的集群系统, 其中,当检查结果表明通信路径被确定为可靠时,所述处理管理单元确定在所述其他服务器装置中出现异常,并使其服务器装置继续执行正在执行的处理,或替代所述其他服务器装置执行所述其他服务器装置正在执行的处理。3.根据权利要求2所述的集群系统, 其中,所述多个服务器装置通过两个或更多个通信路径相互连接,以及 当所述通信路径中的一个或多个被确定为可靠时,每个服务器装置的所述处理管理单元确定在所述其他服务器装置中出现异常。4.根据权利要求3所述的集群系统, 其中,所述多个服务器装置通过直接连接在所述服务器装置之间的通信路径、经过网络的通信路径以及经过存储装置的通信路径而相互连接。5.根据权利要求4所述的集群系统, 其中所述可靠性确定单元: 当对通信接口施加电力时,确定直接连接在所述服务器装置之间的通信路径可靠; 对于经过所述网络的通信路径,向所述网络中的设备发送请求,并且当从所述设备返回对所述请求的响应时,确定经过所述网络的通信路径可靠;以及 对于经过所述存储装置的通信路径,向所述存储装置发送命令,并且当从所述存储装置返回对所述命令的响应时,确定经过所述存储装置的通信路径可靠。6.根据权利要求1至5中任一项所述的集群系统, 其中,所述多个服务器装置中的每一个还包括自动停止单元,当来自所述信号发送单元的信号的传输停止时,所述自动停止单元使其服务器装置停止。7.一种服务器装置,通过通信路径连接到另一个服务器装置,所述服务器装置包括: 信号发送单元,经由所述通信路径向其他服务器装置发送指示自身存在的信号; 可靠性确定单元,确定所述通信路径是否可靠;以及 处理管理单元,当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。8.根据权利要求7所述的服务器装置, 其中,当检查结果表明通信路径被确定为可靠时,所述处理管理单元确定在所述其他服务器装置中出现异常,并使所述服务器装置继续执行正在执行的处理,或替代所述其他服务器装置执行所述其他服务器装置正在执行的处理。9.根据权利要求8所述的服务器装置, 其中,所述服务器装置通过两个或更多个通信路径连接到所述其他服务器装置,以及当所述通信路径中的一个或多个被确定为可靠时,所述处理管理单元确定在所述其他服务器装置中出现异常。10.根据权利要求9所述的服务器装置, 其中,所述服务器装置通过直接连接在所述服务器装置之间的通信路径、经过网络的通信路径以及经过存储装置的通信路径而连接到所述其他服务器装置。11.根据权利要求10所述的服务器装置, 其中所述可靠性确定单元: 当对通信接口施加电力时,确定直接连接在所述服务器装置之间的通信路径可靠; 对于经过所述网络的通信路径,向所述网络中的设备发送请求,并且当从所述设备返回对所述请求的响应时,确定经过所述网络的通信路径可靠;以及 对于经过所述存储装置的通信路径,向所述存储装置发送命令,并且当从所述存储装置返回对所述命令的响应时,确定经过所述存储装置的通信路径可靠。12.根据权利要求7至11中任一项所述的服务器装置,还包括自动停止单元,当来自所述信号发送单元的信号的传输停止时,所述自动停止单元使所述服务器装置停止。13.—种管理集群系统的方法,所述集群系统使用通过通信路径相连的多个服务器装置,所述方法包括由所述多个服务器装置中的每一个执行的以下步骤: 步骤(a),经由所述通信路径向另一个服务器装置发送指示自身存在的信号; 步骤(b),确定所述通信路径是否可靠;以及 步骤(c),当处于无法从其他服务器装置接收信号的状态时,检查到其他服务器装置的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。14.根据权利要求13所述的管理集群系统的方法, 其中在步骤(c)中,当检查结果表明通信路径被确定为可靠时,确定在所述其他服务器装置中出现异常,并且所述服务器装置继续执行正在执行的处理,或替代所述其他服务器装置执行所述其他服务器装置正在执行的处理。15.根据权利要求14所述的管理集群系统的方法, 其中,所述多个服务器装置通过两个或更多个通信路径相互连接,以及在步骤(c)中,当所述通信路径中的一个或多个被确定为可靠时,确定在所述其他服务器装置中出现异常。16.根据权利要求15所述的管理集群系统的方法, 其中,所述多个服务器装置通过直接连接在所述服务器装置之间的通信路径、经过网络的通信路径以及经过存储装置的通信路径而相互连接。17.根据权利要求16所述的管理集群系统的方法, 其中在步骤(b)中, 当对通信接口施加电力时,确定直接连接在服务器装置之间的通信路径可靠; 对于经过所述网络的通信路径,向所述网络中的设备发送请求,并且当从所述设备返回对所述请求的响应时,确定经过所述网络的通信路径可靠;以及 对于经过所述存储装置的通信路径,向所述存储装置发送命令,并且当从所述存储装置返回对所述命令的响应时,确定经过所述存储装置的通信路径可靠。18.根据权利要求13至17中任一项所述的管理集群系统的方法,还包括由所述多个服务器装置中的每一个执行的以下步骤:步骤(d),当步骤(a)中的信号的传输停止时,使所述服务器装置停止。19.一种存储包括指令的程序的计算机可读记录介质,所述指令使计算机执行以下步骤,所述计算机通过通信路径连接到另一个计算机: 步骤(a),经由所述通信路径向其他计算机发送指示自身存在的信号; 步骤(b),确定所述通信路径是否可靠;以及 步骤(C),当处于无法从其他计算机接收信号的状态时,检查到其他计算机的通信路径是否已被确定为可靠,并且当检查结果表明所述通信路径未被确定为可靠时,停止正在执行的处理。20.根据权利要求19所述的计算机可读记录介质, 其中在步骤(c)中,当检查结果表明通信路径被确定为可靠时,确定在所述其他计算机中出现异常,并且所述计算机继续执行正在执行的处理,或替代所述其他计算机执行所述其他计算机正在执行的处理。21.根据权利要求20所述的计算机可读记录介质, 其中,所述计算机通过两个或更多个通信路径连接到所述其他计算机,以及 在步骤(C)中,当所述通信路径中的一个或多个被确定为可靠时,确定在所述其他计算机中出现异常。22.根据权利要求21所述的计算机可读记录介质, 其中,所述计算机通过直接连接在所述计算机之间的通信路径、经过网络的通信路径以及经过存储装置的通信路径而连接到所述其他计算机。23.根据权利要求22所述的计算机可读记录介质, 其中在步骤(b)中, 当对通信接口施加电力时,确定直接连接在所述计算机之间的通信路径可靠, 对于经过所述网络的通信路径,向所述网络中的设备发送请求,并且当从所述设备返回对所述请求的响应时,确定经过所述网络的通信路径可靠,以及 对于经过所述存储装置的通信路径,向所述存储装置发送命令,并且当从所述存储装置返回对所述命令的响应时,确定经过所述存储装置的通信路径可靠。24.根据权利要求19至23中任一项所述的计算机可读记录介质, 其中所述程序还包括使所述计算机执行步骤(d)的指令,步骤(d):当步骤(a)中的信号的传输停止时使所述计算机停止。
【文档编号】G06F11/30GK105849702SQ201480070639
【公开日】2016年8月10日
【申请日】2014年12月15日
【发明人】下问胜司
【申请人】日本电气方案创新株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1