网络系统、节点装置及管理服务器的制作方法

文档序号:7662185阅读:148来源:国知局
专利名称:网络系统、节点装置及管理服务器的制作方法
技术领域
本发明是涉及网络系统、节点装置及管理服务器,特别是涉及监 视节点装置间通信故障的故障检测协议,还涉及用于防止故障误检测 而进行校正故障检测时间的网络系统、节点装置及管理服务器。
背景技术
在节点装置之间,作为用于检测下一跳(next hop)间的通信故 障的、独立于路由协议的协议,由IETF (Internet Engineering Task Force:互联网工程任务组)正在进行BFD (Bidirectional Forwarding Detection:双向转发检测)的标准化。BFD使用UDP (User Datagram Protocol:用户数据报协议),在系统间进行定期的数据包发送接收, 当一定时间未接收到数据包时,就视为发生了通信线路的故障(路径 故障)。上述一定时间可预先确定,以下称作故障检测时间。例如非 专利文献l中规定了,故障检测时间由发送数据包的间隔、和该数据 包几个连续损失时视为故障的故障检测乘数来算出,该式由"发送间 隔X故障检测乘数"求出。(非专禾U文献)Bidirectional Forwarding Detection draft-ieft画 bfd-base-05, June, 2006作为BFD数据包的通信延迟对策,故障检测用协议——即BFD 协议规定,在进行数据包发送时,采用使协商决定的发送间隔减少特 定倍率的值。例如使实际发送间隔是所决定的数据包发送间隔的 75% 100%。该减少的量相当于延迟的容许量。根据规定,例如当发 送间隔为50毫秒、故障检测乘数为1时,则对延迟的容许值为5~12.5 毫秒,当发生容许值以上的通信延迟时,由于数据包在接收端的等待 时间内没有到达,则存在对通信故障误检测的问题。在BFD中,由 于延迟的容许值与远程系统的数据包发送间隔成比例,所以发送间隔越短,因延迟而误检测出故障的可能性越高。例如,当检测通信故障时,协议控制功能有时会进行路径的切换。由于OSPF (Open Shortest Path First:开放最短路径优先)及IS-IS (Intermediate System-Intermediate System:中间系统至!j中间系统)中 的路径切换是高负荷的,所以当因故障的误检测而频繁发生切换时, 系统的性能将恶化,因此存在如何尽可能抑制因延迟产生的故障误检 测的课题。发明内容本发明鉴于以上情况,其目的在于提供一种网络系统、节点装置 及管理服务器,即使从对端装置发来的数据包发送间隔很短时,只要 是在作为延迟容许的基准值一即所需宽限时间之前的延迟,就可避 免将其误检测为通信故障。另外,本发明的目的在于抑制发生向不必 要的迂回路径切换,进行稳定的网络运行。另外,本发明的另一目的在于,只在校正前的故障检测时间比所 需故障检测时间(远程发送时间+所需宽限时间)短时进行校正,以 便抑制因校正了故障检测时间而产生检测的延迟。(解决问题的方法)本发明,例如通过故障检测时间校正装置,将从远程节点未接收 数据包时检测故障的时间——即故障检测时间的值,校正到远程节点 实际发送数据包的间隔——即远程实际发送间隔,加上容许的延迟时 间——即所需宽限时间。即使从远程节点发出的数据包通信中发生了 所需宽限时间以下的延迟,也不会错误地检测出故障,而当对延迟的 宽限时间足够时,则不进行校正。根据本发明的第1解决方案,提供一种网络系统,具有多个节点装置,上述节点装置,分别具有检测与对端的节点装置间的路径的故障 的故障检测部;第1节点装置的上述故障检测部,通过与对端的第2节点装置协商,确定用于故障检测的数据包的发送间隔,接收从上述第2节点装置发送的用于故障检测的数据包,以及 根据经过了确定的故障检测时间仍未从上述第2节点装置接收到上述数据包的情况,检测出与该第2节点装置间的路径故障; 上述故障检测时间按如下方式确定 上述第1节点装置的上述故障检测部,求出基于与上述第2节点装置间的协商所确定的上述数据包 的发送间隔的第1故障检测时间,将预先设定或预先求出的宽限时间,与由协商确定的上述数 据包的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际发送间隔的预测值相加,求出第2故障检测时间,对第1故障检测时间和第2故障检测时间进行比较,大的一方的 值被确定为在实际运用中使用的上述故障检测时间。根据本发明的第2解决方案,提供一种网络系统中的节点装置,该网络系统具有多个上述节点 装置,上述节点装置具有故障检测部,该故障检测部检测与对端节点装 置间的路径的故障; 上述故障检测部,通过与对端节点装置间的协商,确定用于故障检测的数据包的发 送间隔,接收从对端节点装置发送的用于故障检测的数据包,以及 根据经过了确定的故障检测时间仍未从上述对端节点装置接收 到上述数据包的情况,检测出与该对端节点装置间的路径的故障; 上述故障检测时间按如下方式确定 上述故障检测部,求出基于与上述对端节点装置间的协商所确定的上述数据 包的发送间隔的第1故障检测时间,将预先设定或预先求出的宽限时间,与由协商确定的上述数 据包的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际发送间隔的预测值相加,求出第2故障检测时间,对第1故障检测时间和第2故障检测时间进行比较,大的一方的 值被确定为在实际运用中使用的上述故障检测时间。根据本发明的第3解决方案,提供一种网络系统中的管理服务器,该网络系统具有第1及第2 节点装置和上述管理服务器,上述第1节点装置,将第1故障检测时 间和第2故障检测时间中的某一个确定为故障检测时间,其中该第1 故障检测时间基于与上述第2节点装置间的协商所确定的用于故障 检测的数据包的发送间隔,该第2故障检测时间是将从管理服务器接 收的宽限时间与根据由协商确定的上述数据包的发送间隔、或者基于 该发送间隔的上述数据包实际发送的实际发送间隔的预测值相加而 得到的,以及根据经过了确定的故障检测时间仍未从上述第2节点装 置接收到用于故障检测的上述数据包的情况,检测出与该第2节点装 置间的路径的故障,上述管理服务器,具有对应于第1节点装置的连接负荷信息和第2节点装置的连接 负荷信息预先存储了宽限时间的表,从第1节点装置接收表示由该第1节点装置对端的第2节点装置 进行连接的情况的通知,从第1及第2节点装置,接收各装置的连接负荷信息,根据从第1及第2节点装置接收到的连接负荷信息,检索上述表, 求出对应的宽限时间,对上述第1及第2节点装置发送宽限时间,通过上述第1及第2节点装置,利用该宽限时间求出上述第2故 障检测时间。 (发明的效果)根据本发明,可以提供一种网络系统、节点装置及管理服务器, 即使从对端装置发来的数据包发送间隔很短时,只要是在作为延迟而 容许的基准值一即所需宽限时间之前的延迟,就可避免将其误检测 为通信故障。这样,本发明由于可以不会发生向不必要的迂回路径切 换,所以可以进行稳定的网络运行。另外,本发明,由于只在校正前的故障检测时间比所需故障检测 时间(远程发送时间+所需宽限时间)短时才进行校正,所以具有抑 制因校正了故障检测时间而产生检测延迟的优点。


图1是表示本实施方式的通信故障检测系统的一构成例的图。图2是表示BFD的故障监视机制的时序图。图3是表示BFD的因数据包损失而产生故障的一例的时序图。图4是表示BFD的因通信延迟而产生故障的一例的时序图。图5是表示进行故障检测的处理的一例的流程图。图6是表示本实施方式的故障检测时间校正方式的图表。图7是表示具有本实施方式的通信故障检测功能的节点装置的一构成例的装置方框图。图8是表示本实施方式的所需宽限时间适用方式一例的流程图。 图9是表示本实施方式的故障检测处理一例的流程图。 图IO是表示本实施方式的所需宽限时间检索表一例的图。 图11是表示利用本实施方式的自身装置的负荷,计算所需宽限时间的方法的一例的流程图。图12是表示利用本实施方式的延迟变动测量方式,计算所需宽限时间方法的一例的流程图。图13是表示包括本实施方式的管理服务器的通信故障检测系统一构成例的图。图14是表示本实施方式的管理服务器进行的所需宽限时间的通 知方式一例的时序图。图15是表示具有本实施方式的所需宽限时间计算功能的管理服 务器一构成例的装置方框图。图16是表示本实施方式的管理服务器进行的所需宽限时间计算 方法的流程图。
具体实施方式
1、系统构成图1是表示本实施方式的通信故障检测系统的一构成例的图。通信故障检测系统(网络系统),例如具有多个节点装置10 (以下称节点)。作为节点A (10a)和节点E (10e)之间的通信线路,当存在通 过节点B (10b)的路径13、及通过节点C (10c)和节点D (10d) 的路径14时,节点A和相邻的各节点(节点B、节点C)之间,利 用通信故障检测协议(例如BFD)进行故障的监视。例如,通过OSPF 及IS-IS或Static (静态)的路径设定,节点A和节点E之间的通信 路径由路径13运行时,当以在节点A和节点B之间进行监视的通信 故障检测协议检测出通信故障时,通信故障检测协议对同一节点内的 路径控制部发出故障通知,使通信路径切换到作为节点A和节点E 之间的代替路径的路径14。本实施方式中所示的故障,例如是指节点A通过节点B对节点E 发送数据包时,数据包未到达节点E的状态。从而,虽然有某种程度 的延迟,但是数据包仍到达的状态,不看成是检测对象的故障。图7是表示具有本实施方式的通信故障检测功能的节点装置一 构成例的装置方框图。节点装置,例如包括用户接口7h、高位应用(高位AP) 72、网 络节点部70、网络I/F75、存储器76、存储装置77、及CPU7g。网 络节点部70包括故障检测协议部71、 UDP层73、 IP层74。故障检测协议部(故障检测部)71,根据来自作为进行路径控制 等的功能模块的高位应用72的请求,监视对象通信线路的通信故障。 当故障检测协议是BFD时,故障检测协议本身是层3以上的协议, 在低位形成UDP层73、 IP层74的结构。故障检测数据包,在物理 上通过网络接口 75,与远程节点间进行数据包发送接收。当将这些 功能以软件程序进行安装时,从存储装置77载入至存储器76,由CPU (7g)执行。故障检测协议部71,包括计时器处理机构78、发送机构79、接 收机构7a、及会话信息管理部7i。计时器处理机构78,包括周期发送计时器7b、故障检测计时器7d、及计时器校正部7f。发送机构79 具有发送处理部7c,而接收机构7a具有接收处理部7e。与远程节点 间的协商等的会话信息的获得及更新处理,由会话信息管理部7i进 行。当对数据包进行周期发送时,周期发送计时器7b给出契机,以 会话信息管理部7i的信息为基础,发送处理部7c生成、发送数据包。当检测故障时,接收处理部7e监视数据包的接收,以会话管理 部7i的信息为基础,故障检测计时器7d监视故障检测时间的经过。 在故障检测时间经过之前的期间,当从接收处理部7e没有数据包接 收的通知时,视为故障,对高位应用72进行通知。当高位应用72接 收故障通知时,例如对路径进行切换。本实施方式在计时器处理机构78中具有计时器校正部7f。计时 器校正部7f从故障检测计时器7d得到故障检测时间,当需要校正时, 对故障检测计时器7d进行反馈。这样,可以防止由现有机构不能解 决的延迟产生的故障误检测。当用户设定计时器校正部7f的参数时, 可以由用户接口7h的操作进行。2、故障检测首先,对通信故障的检测及课题进行说明。图2是表示BFD (Bidirectional Forwarding Detection)的故障监视机制的时序图。表示了以本装置(例如节点A 10a)为本地节点(第1节点装 置)20,监视与远程节点(第2节点装置、对端节点装置)21 (例如, 节点B、节点C)间的路径状态时、以一定间隔进行的数据包发送及 其监视时间。在图中只表示了有关本地点节点20的故障监视的通知, 但是实际上由于远程节点21也进行同样的故障监视,所以相反方向 也进行同样的通信。从远程节点21,定期发送数据包。从远程节点21发出的数据包 发送间隔(远程发送间隔)22,由会话建立时的协商决定。数据包发 送间隔等,由于参数的协商步骤可以按照BFD的规格,故在此其说 明予以省略。 '在本地节点20侦ij,同样由会话建立时的协商决定的参数——即故障检测时间23,监视从远程节点21的数据包接收。BFD的故障检 测时间,由远程节点21发出的数据包发送间隔22和故障检测乘数之 间相乘决定。当在故障检测时间内接收了数据包时,每次接收数据包 均使故障检测计时器7d复位。如图2中所示,当在故障检测时间内 接收了数据包时,视为是正常的。图3是表示BFD的数据包损失而产生故障的一例的时序图。图中是故障检测乘数为2时的例子,当在故障检测时间内未能连 续接收2个数据包时将会超时,检测为故障。根据BFD的规定,作为远程节点21发送数据包时对延误的对策, 使实际发送的远程实际发送间隔(35),比由协商决定的远程发送间 隔减少。其范围,根据协议的规定,故障检测乘数为1时是远程发送 间隔的75 90%,而在2以上时是远程发送间隔的75~100%。例如, 远程实际发送间隔可由下式求出。当故障检测乘数为1时实际发送间隔(35)=发送间隔(22) X (75~90%) 当故障检测乘数为2以上时实际发送间隔(35)=发送间隔(22) X (75~100%) 与发送间隔(22)相乘的值,对每个数据包发送进行随机变化。 接收从远程节点21发送的数据包30的本地节点20中,对故障 检测计时器7d进行复位(步骤33)。此后,当从远程节点21发出 的数据包31及32因某种原因未到达本地节点10时,本地节点20的 故障检测计时器7d超时。BP,当在故障检测时间内从远程节点21发 出的数据包一个也未到达,故障检测计时器7d未复位(更新)而超 时的情况下,本地节点20看成在两系统间的通信线路发生了故障, 将其检测为故障(步骤34)。图4是表示因BFD的通信延迟而产生故障的一例的时序图。 该图的故障检测乘数与图3—样也为2。与图3不同的是,表示 相当于图3中的数据包32的从远程节点21发出的数据包42延迟, 在故障检测时间经过后到达本地节点20的例子。这样,即使数据包 损失的个数比故障检测乘数的值(此时为2)少,为1个,也由于因延迟43的大小不同,在故障检测时间内会2个数据包未到达,因此 检测为故障(步骤44)故障检测乘数越小,这种故障的发生频度(误读出的数量)越大。 至于故障检测乘数为l时,通信线路本身是好的,即使数据包损失l 个也未发生,也会造成由通信延迟而检测为故障的情况。另外,远程 节点的远程实际发送间隔35由于通过与远程发送间隔22相乘给出, 所以数据包的发送间隔越短,所容许的延迟时间越短。 一般来说,由 于通信延迟时间与发送间隔不成比例,所以对该延迟的对策特别在数 据包发送间隔短的情况下是不够的。图5是表示进行故障检测的处理的一例的流程图。例如,反复执行以下的处理。本流程图的处理,可以通过节点A 10a等的各节点执行。此处所示的检测计时器(7d)是用于会话建立 时所开始的故障检测的计时器。本地节点20,在确认与远程节点21之间的连接性时,首先计算 从上次执行时起的经过时间(步骤50),将该值加上检测计时器7d, 更新计时器7d的值,记录未接收数据包的时间(步骤51)。对于计 时器的处理,也可以用适当的处理。本地节点20,对更新的检测计 时器7d的值和预先决定的故障检测时间进行比较(步骤52),当检 测计时器7d的值在故障检测时间以上时,检测出与远程节点21的连 接性上有故障,对进行路径(路由)控制等的高位应用72发出通知 (步骤53)。另一方面,本地节点20,当未超过故障检测时间时(步 骤50),确认是否接收了来自远程节点的数据包(步骤54)。当接 收了数据包时,看成未发生故障,对检测计时器7d进行复位(步骤 55)。当未接收到数据包时,结束处理,等待下次处理。图5中所示的处理,例如按一定时间间隔及以从远程节点接收数 据包为契机反复执行。3、故障检测时间的设定图6是用于说明本实施方式的故障检测时间校正方式的图表。 如图4所示的步骤42所示,这是一种为了避免虽然数据包未损 失但由于发生了发送延迟而错误检测出故障的技术问题的、故障检测时间校正方式。当从远程节点发出的数据包连续损失时,检测出故障之前的时间60,在现有的方法中是远程发送间隔22X故障检测乘数。实际上远 程节点发送与故障检测乘数相等个数的数据包所需要的远程实际发 送时间61,是远程实际发送间隔35X故障检测乘数。远程实际发送 间隔35,如上所述是远程发送间隔乘以75 100%,比远程发送间隔 短。在本方式中,设定所需宽限时间62,即使在从远程节点发出的 数据包通信所需时间内发生了在所需宽限时间62之前的延迟,也由 "远程实际发送时间61+所需宽限时间62"赋予未错误检测出故障的 所需检测故障检测时间63。新的(校正后的)故障检测时间64,采 用故障检测时间60和所需故障检测时间63中长的一个。对于远程实际发送间隔35,本地节点不能判断远程节点每次以 规定范围的怎样比例减少发送间隔。为此,本地节点按下述求出在求 出远程实际发送时间61时采用的远程实际发送间隔35。当故障检测 乘数为1时,将从远程节点通知的远程发送间隔22的90%作为远程 实际发送间隔的假定值。即假定作为对延迟的对策、引入的规定效果 最弱时,进行校正运算。也可以采用此外的适当的假定值。关于上述的所需宽限时间计算方法,参照图11之后的附图将在 后面叙述。图8是表示使用本实施方式的所需宽限时间的故障检测时间设 定的流程图。在本流程之前,节点装置通过与对端节点装置协商,预先得到了 远程发送间隔、故障检测乘数,存储在适当存储器内。还可以再根据 远程发送间隔,预先求出远程实际发送间隔的假定值。计时器处理机构78 (例如,计时器校正部7f),最初根据协议 规定,用"远程发送间隔X故障检测乘数"计算故障检测时间(第l 故障检测时间)(步骤80)。然后,计时器处理机构78,用"远程 实际发送间隔X故障检测乘数+所需宽限时间"计算所需故障检测时 间(第2故障检测时间)63 (步骤81)。所需宽限时间既可以预先设定,也可以采用由后述的处理求出的值。计时器处理机构78,对 步骤80算出的现有故障检测时间与步骤81算出的所需检测时间进行 比较(步骤82)。计时器处理机构78,当故障检测时间小于所需故 障检测时间时(步骤82),设定所需故障检测时间的值,作为故障 检测时间(步骤83)。计时器处理机构78将更新后的故障检测时间 (步骤82)写入系统的存储区域(存储器76或存储装置77)中(步 骤84)。当用户变更构成定义时,及如后所述所需宽限时间变化时等,进 行参数变更时,也可以通过再次进行图8的处理将所需宽限时间更新 为适当的值。作为校正的例子,对于校正前的故障检测时间60,考虑远程实 际发送间隔35是远程发送间隔22的90%的情况。当作为所需宽限时 间确保10毫秒时,需要校正的是故障检测时间在100毫秒以下的情 况。作为容易判断的例子,当故障检测乘数为1,远程发送间隔22 为50毫秒(即故障检测时间为50毫秒)时,容许的延迟时间为5毫 秒,所以低于所需宽限时间的IO毫秒。当使用本实施方式时,校正 前的故障检测时间60为50毫秒(步骤80),所需故障检测时间为 55毫秒(步骤81),由于使用的故障检测时间为55毫秒(步骤82、 83),所以与远程实际发送间隔45毫秒之间的差10毫秒,可确保作 为延迟容许时间。图9是表示本实施方式的故障检测处理的一例的流程图。在进行故障监视时,在图5中所示的故障检测流程中,作为步骤 90,增加读入由图8的步骤计算的校正后的故障检测时间的步骤。其 他处理,由于与图5相同,故其说明予以省略。当故障检测时间采用 系统起动时等确定的固定值时,也可以使用图5的流程。此处,故障 检测时间可以适当更新。4、所需宽限时间的决定下面,作为所需宽限时间的决定方法,对本实施方式中提出的第 1~第4的4种方法进行说明。在各方法的说明之前,对第2~4的3 种方法中使用的所需宽限时间检索表760进行说明。图10表示所需宽限时间检索表760、 761的构成例。所需宽限时间检索表760、 761,例如对应于2个键(key)信息 a、 b,预先存储所需宽限时间。所需宽限时间,通过二种键信息(100、 102)进行检索。使用什 么作为键信息,将在各方式的说明中具体叙述。表的值,可以由系统 管理者等在运行之前设定。各栏值的相关关系如下。随着决定索引的 值(多个第1阈值)——即Al An (101)变大,所需宽限时间也变 大。同样,当决定索引的值(多个第2阈值)Bl Bm (103)变大时, 所需宽限时间也变大。第1所需宽限时间的决定方法,是作为固定值预先赋予的方式。 用户(管理者)通过配置设定等进行指定,只要不发生配置的设定变 更,节点系统操作中就不变化。第2决定方法,是通过测量本地节点的负荷(处理负荷),对由 装置内负荷产生延迟赋予宽限时间的方法。此处,所需宽限时间检索 表760的键信息a、 b,是负荷的平均值及分散值。节点,例如也可 以在故障检测协议部71等中具有负荷测量部。图11是表示利用本实施方式的自身装置负荷计算所需宽限时间 的方法一例的流程图。图11中所示的以下一系列处理,例如由计时 器校正部71进行。本地节点20,测量计时器处理机构78那样周期操作的处理部分 的实际执行周期与设定的周期间的差、及CPU负荷等自身装置的负 荷(步骤IIO),计算其值的平均值及分散值对时间轴的变化(步骤 111)。本地节点20,参照图10中所示的表760,求出对应的所需宽 限时间(步骤112)。这时的键信息(100、 102)采用步骤lll求出 的负荷平均值及分散值。当所需宽限时间与过去的值(例如上次求出 的值)相比变化时(步骤113),进行图8中所示的处理,再计算出 故障检测时间(步骤114)。这时,在步骤81中所用的所需宽限时 间,采用步骤112所算出的值。本地节点20也可以将求出的负荷的 平均值、分散值、故障检测时间适当存储在存储器等中。第3所需宽限时间的决定方法,是通过测量来自远程节点21的数据包接收间隔(延迟变动),推测远程节点21及通信线路中发生 的延迟,赋予对它们的宽限时间的方法。此处,所需宽限时间检索表 760的键信息a、 b,例如是数据包接收间隔的平均值及分散值。另外, 节点例如也可以在故障检测协议部71等中具有接收间隔测量部。图12是表示利用本实施方式的延迟变动测量方式计算所需宽限 时间方法一例的流程图。图12中所示的以下一系列处理,例如由计 时器校正部71进行本地节点20,在从远程节点21接收到数据包时,计算出从上次 数据包接收起已经过的时间间隔(步骤120),计算该值的平均值及 分散值等对时间轴的变化(延迟变动)(步骤121)。所需宽限吋间, 参照图10中所示的表760求出(步骤122)。这时的键信息(100、 102)采用步骤121求出的接收间隔的平均及分散的值。当所需宽限 时间发生变化时(步骤123),进行图8中所示的处理,再计算故障 检测时间(步骤124)。这时,步骤81使用的所需宽限时间,采用 步骤122算出的值。本地节点20也可以将求出的接收间隔的平均值、 分散值、故障检测时间适当存储在存储器等中。通过上述第2及第3方法中采用平均值及分散值分布进行分析, 可以根据这些负荷、延迟的发生概率决定所需宽限时间。第4所需宽限时间的决定方法,是管理服务器决定的方法。下面 对本方式进行说明。图13是表示包括本实施方式的管理服务器的通信故障检测系统 的一构成例的图。管理服务器130,通过各节点131、132、133及网络进行连接(134、 135、 136)。另外,各节点131、 132、 133通过网络相互进行连接性 的监视(137、 138、 139)。各节点131、 132、 133分别对应于图1 的节点10a、 10b、 10c。管理服务器130保持各节点连接状态的信息。 各节点在对其他节点尝试连接之前,对管理服务器130请求所需宽限 时间。管理服务器130,根据请求,计算全部节点的所需宽限时间, 对所需宽限时间有变化的节点发出通知。通过使用管理服务器130, 可以进行考虑了各节点连接负荷的所需宽限时间的设定。图15是表示具有本实施方式的所需宽限时间计算功能的管理服 务器130的一构成例的装置方框图。管理服务器130,例如包括用户接口 151、管理机构150、网络 I/F154、存储器155、存储装置156、及CPU15d。存储器155,例如 存储所需宽限时间检索表761。此处,所需宽限时间检索表761的键 信息a、 b,是各节点装置的会话数。管理机构150,通过从接受来自用户的请求的用户接口程序151 的设定,得到所需宽限时间计算用的表的值,预先在表761中设定。 在低位存在TCP/UDP层152、 IP v4/v6层153,并通过网络接口 154 与节点系统进行数据包的发送接收。各节点装置的信息记录在存储器 155及存储装置156中。在本实施方式中,管理机构150包括计时器处理机构157、发送 机构158及接收机构159。计时器处理机构157具有所需宽限时间计 算部15b。接收机构159,当通过接收处理部15a接收来自节点装置 的请求时,通知给所需宽限时间计算部15b。所需宽限计时计算部 15b,计算出所需宽限时间。算出的值通过发送机构158内的发送处 理部15d,对通知目标节点装置发送数据包。图14是表示本实施方式的管理服务器130进行的所需宽限时间 的决定及通知方式一例的时序图。节点A (131),例如在与节点B (132)之间建立新的会话之前, 将包括自身装置上的会话数的会话数通知(140)、及与节点B之间 建立的通信故障监视会话中使用的所需宽限时间请求(141),发送 给管理服务器(130)。节点,例如用会话信息管理部7i等管理会话 数。管理服务器130按每个节点存储接收到的节点的会话数。管理服 务器130,当未取得有关节点B的信息(例如会话信息)时,或者需 要取得节点B的最新信息时,取得节点B的会话数(142、 143)。 所谓需要取得最新的信息的情况,例如有在规定时间以上未从节点B 接收会话数的通知的情况等(144)。所需宽限时间,以各节点A、 B 的会话数为键信息(100、 102),参照图10中所示的表761,求出 对应的所需宽限时间。对于与节点A或B建立会话的所有节点,同样也可以求出所需宽限时间。管理服务器130,对节点发送所需宽限时间。在步骤144求出的 所需宽限时间,不仅是新的会话的部分,而且已有的会话中、值变化 时,管理服务器130对于对象节点发出通知(145)。此处所谓对象 节点,倒如是与节点A及/或节点B相连接的节点(例如节点C)。 各节点利用所通知的所需宽限时间计算故障检测时间(146)。各节点在本身具有的会话数变化时,同样也可以对管理服务器进 行通知,得到新的所需宽限时间。另外,各节点,也可以定期地将会 话数发送给管理服务器130,得到所需宽限时间。管理服务器130, 对会话数变化了的节点(例如节点A)和已经建立会话的节点(例如 节点B),在所需宽限时间变化时也通知新的所需宽限时间。图16是表示本实施方式的管理服务器130中的所需宽限时间计 算方法的流程图。管理服务器130,接收节点A对节点B建立会话时所发送的会话 数的通知,及与节点B的会话中的所需宽限时间的请求(步骤160)。 管理服务器130,确认是否保持了节点B的会话数的信息(步骤161), 当存在时转到步骤164。而不存在时,对节点B请求会话数(步骤162), 如果从节点B通知了会话数(步骤163),则转到步骤164。在步骤164,管理服务器130计算出与节点A和节点B相关联的 所有节点间使用的所需宽限时间(步骤164)。管理服务器130存储 所求出的所需宽限时间(步骤165)。管理服务器130,对于所需宽 限时间变化了的节点,通知所需宽限时间(步骤166)。接受了所需 宽限时间的节点,利用新的所需宽限时间进行图8的处理,进行故障 检测时间的更新。管理服务器130,在小于超时时间(步骤167)时,从节点B未 得到会话数的通知时,再次发送会话数的请求(步骤162)。当在超 时时间以上没有应答时(步骤167),管理服务器130,以所需宽限 时间的计算作为失败通知给节点A (步骤168)。另一方面,当不进 行再次发送时,在超时时间经过之前等待应答,在超时后转到步骤 168。在节点A接受校正值计算失败时,判断在节点B有问题,不进行连接也可以。此处,求出所需宽限时间的键中只使用了会话数,但 是也可以将会话的发送间隔及接收间隔等的值进行组合作为键。以上说明的决定所需宽限时间的4种方法,也可以分别进行组合 使用。例如,上述的第2种方法和第3种方法都执行,在所得到的各 故障检测时间中,将值大的一个决定作为实际运行中使用。另外,也 可以对其他方法进行同样组合。另外,既可以第2、第3种方法用管 理服务器进行,也可以使第4种方法没有管理服务器,而是各节点装 置交换会话数信息,由各节点装置进行上述管理服务器的处理。如上所述本实施方式中,在节点间的通信故障监视中,通过引入 所需宽限时间进行故障检测时间的校正,虽然在通信线路上发生了延 迟,但路径上却没有问题时,可以抑制故障检测时间的增加,避免误 将延迟当作故障进行检测的情况。5、概略5.1 网络系统本发明的网络系统,例如由多个节点装置构成,具备下列故障检 测时间校正功能上述节点装置具有检测通信线路故障的故障检测协议,上述故障检测协议,对对端节点相互发送数据包,当经过了故障检测时间也未从对端节点接收数据包时,检测为故障,上述故障检测时间,在由具有以与对端节点协商得到的值为基准的故障检测协议的 节点装置构成的网络系统中,对上述基准值增加用于防止故障误检测的校正,决定实际运用中 使用的故障检测时间。(固定方式)其特征之一在于上述网络系统的上述故障检测时间的校正,将通过装置构成定义等以设定值赋予的所需宽限时间,加在从对端装置 发出的数据包发送间隔——即远程发送时间上,作为所需故障检测时间,并对校正前的故障检测时间基准值与上述所需故障检测时间进行 比较,将大的一个的值作为实际运用中使用的故障检测时间。 (负荷测量方式)其特征之一在于上述网络系统的上述故障检测时间的校正,测 量节点装置的处理负荷,并根据上述节点装置内的负荷决定所需宽限 时间,将上述所需宽限时间,与从来自对端装置的数据包发送间隔一 一即远程发送时间相加,作为所需故障检测时间,并对校正前的故障 检测时间基准值与上述所需故障检测时间进行比较,将大的一个的值 作为实际运用中使用的故障检测时间。(接收数据包测量方式)其特征之一在于上述网络系统的上述故障检测时间的校正,测 量从对端节点装置发来的实际接收间隔,并根据接收间隔的平均值及 分散值决定所需宽限时间,将上述所需宽限时间,与来自对端装置的 数据包发送间隔——即远程发送时间相加,作为所需故障检测时间, 并对校正前的故障检测时间基准值与上述所需故障检测时间进行比 较,将大的一个的值作为实际运用中使用的故障检测时间。(管理服务器方式)本实施方式的其他网络系统,例如由具有检测通信线路故障的故 障检测协议的多个节点装置和管理服务器构成,具有以下故障检测时 间校正功能节点装置A在与对端节点装置B进行连接时,将节点装置A和节点装置B进行连接的意思通知给管理服务器,接收了上述连接通知的管理服务器,以各节点装置的连接负荷信息为基础,求出为防止故障误检测的 所需宽限时间,对节点装置发出通知,上述节点装置,利用从管理服务器通知的上述所需宽限时间,进 行故障检测时间的校正。(管理服务器的所需宽限时间计算方式)其特征之一在于在上述网络系统中上述管理服务器求出的所需 宽限时间,采用以本地节点的会话数及远程节点的会话数为键信息进行检索的表的值。(管理服务器中的表的设定方式)其特征之一在于上述网络系统中的上述表的值,通过服务器管 理者的设定决定。(所需宽限时间的通知对象)其特征之一在于在上述网络系统中,上述管理服务器通知所需 宽限时间的对象是节点装置A和节点装置B、及处于与两节点装置连 接状态的节点装置。(BFD)其特征之一在于上述的网络系统中的上述故障检测协议采用BFD (Bidirectional Forwarding Detection),利用考虑了所需宽限时 间的故障检测时间。 5.2节点装置本实施方式中的节点装置,例如具有检测通信线路故障的故障检测协议,具有以下故障检测时间校正功能上述故障检测协议, 对对端节点发送数据包,当经过了故障检测时间也未从对端节点接收数据包时,检测为故障,上述故障检测时间,在具有以与对端节点的协商得到的值为基准的故障检测协议的 节点装置中,对上述基准值加上防止故障误检测的校正,决定实际运用中使用 的故障检测时间。 (固定方式)其特征之一在于上述节点装置的上述故障检测时间的校正,将 通过装置构成定义等以设定值所赋予的所需宽限时间,与来自对端装 置的数据包发送间隔——即远程发送时间相加,作为所需故障检测时 间,并对校正前的故障检测时间基准值与上述所需故障检测时间进行 比较,将大的一个的值作为实际运用中使用的故障检测时间。(负荷测量方式)其特征之一在于上述节点装置的上述故障检测时间的校正,测 量节点装置的处理负荷,并根据上述节点装置内的负荷决定所需宽限 时间,将上述所需宽限时间,与来自对端装置的数据包发送间隔—— 即远程发送时间相加,作为所需故障检测时间,并对校正前的故障检 测时间基准值与上述所需故障检测时间进行比较,将大的一个的值作 为实际运用中使用的故障检测时间。(接收数据包测量方式)其特征之一在于上述节点装置的上述故障检测时间的校正,测 量来自对端节点装置的实际接收间隔,并根据接收间隔的平均值及分 散值决定所需宽限时间,将上述所需宽限时间,与来自对端装置的数 据包发送间隔——即远程发送时间相加,作为所需故障检测时间,并 对校正前的故障检测时间基准值与上述所需故障检测时间进行比较, 将大的一个的值作为实际运用中使用的故障检测时间。(管理服务器方式)本实施方式的其他节点装置,例如具有检测通信线路故障的故障 检测协议,由网络与管理服务器进行连接,具有以下故障检测时间校 正功能节点装置A在与对端节点装置B进行连接时,将节点装置A和对端节点装置b进行连接的意思通知给管理服 务器,利用从管理服务器通知的上述所需宽限时间,进行故障检测时间 的校正。 (BFD)其特征之一在于上述的节点装置中的上述故障检测协议采用BFD (Bidirectional Forwarding Detection),利用考虑了所需宽限时 间的故障检测时间。 5.3管理服务器本实施方式的管理服务器,例如与具有检测通信线路故障的故障 检测协议的多个节点装置相连接,从上述节点装置接收与对端节点装置之间开始故障监视的通知 的管理服务器,以各节点装置的连接负荷信息为基础,求出为防止故障误检测的 所需宽限时间,对节点装置发出通知。(管理服务器的所需宽限时间计算方式)其特征之一在于上述管理服务器求出的所需宽限时间,采用以 本地节点的会话数及本地节点的会话数为键信息进行检索的表的值。 (管理服务器中的表的设定方式)其特征之一在于上述管理服务器中的上述表的值,通过服务器 管理者的设定决定。(所需宽限时间的通知对象)其特征之一在于上述管理服务器通知所需宽限时间的对象是, 节点装置A和节点装置B、及处于与两节点装置连接状态的节点 装置。5.4故障检测方法本实施方式中的故障检测方式(故障检测方法),例如检测由网 络连接的节点装置间的通信故障,具有以下故障检测时间校正功能-上述故障检测方式, 对对端节点相互发送数据包,当经过了故障检测时间也未从对端节点接收数据包时,检测为故障,上述故障检测时间,在由具有以与对端节点协商得到的值为基准的故障检测方式中, 对上述基准值加上防止故障误检测的校正,决定实际运用中使用 的故障检测时间。 (固定方式)其特征之一在于上述故障检测方式的上述故障检测时间的校正,将 通过装置构成定义等以设定值赋予的所需宽限时间,与来自对端装置 的数据包发送间隔——即远程发送时间相加,作为所需故障检测时 间,并对校正前的故障检测时间基准值与上述所需故障检测时间进行比较,将大的一个的值作为实际运用中使用的故障检测时间。 (负荷测量方式)其特征之一在于上述故障检测方式的上述故障检测时间的校 正,测量节点装置的处理负荷,并根据上述节点装置内的负荷决定所 需宽限时间,将上述所需宽限时间,与来自对端装置的数据包发送间 隔——即远程发送时间相加,作为所需故障检测时间,并对校正前的 故障检测时间基准值与上述所需故障检测时间进行比较,将大的一个 的值作为实际运用中使用的故障检测时间。(接收数据包测量方式)其特征之一在于上述故障检测方式的上述故障检测时间的校 正,测量从对端节点装置发来的实际数据包接收间隔,并根据接收间 隔的平均值及分散值决定所需宽限时间,将上述所需宽限时间,与来 自对端装置的数据包发送间隔——即远程发送时间相加,作为所需故 障检测时间,并对校正前的故障检测时间基准值与上述所需故障检测 时间进行比较,将大的一个的值作为实际运用中使用的故障检测时 间。(管理服务器方式)本实施方式的其他故障检测方式,例如在由管理服务器和网络连 接的节点装置中检测通信线路故障,具有以下故障检测时间校正功 能在开始故障检测时,将与对端节点装置进行连接的意思通知给管 理服务器,从上述管理服务器接收用于防止故障误检测的所需宽限时间的 通知,利用上述所需宽限时间,进行故障检测时间的校正。 (管理服务器的所需宽限时间计算方式)其特征之一在于在上述故障检测方式中的上述管理服务器求出 的所需宽限时间,采用以本地节点的会话数及远程节点的会话数为键 信息进行检索的表的值。(管理服务器中的表的设定方式)其特征之一在于上述故障检测方式中的上述表的值,通过使用 者的设定决定。(所需宽限时间的通知对象)其特征之一在于在上述故障检测方式中的上述管理服务器通知 所需宽限时间的对象是,节点装置A和节点装置B、及处于与两节点装置连接状态的节点装置。(BFD)其特征之一在于上述的故障检测方式中的上述故障检测协议采 用BFD (Bidirectional Forwarding Detection),利用考虑了所需宽限 时间的故障检测时间。(产业上可利用性)本发明的故障检测时间校正方式,不仅用于需要高速通信故障检 测的路由器间的通信线路监视,也可以在进行基于服务器等通信超时 的故障监视的全部通信设备中,用作避免因通信延迟造成故障误检测 的方法。本发明,例如也可以利用在通信故障检测系统、具有通信故 障检测功能的节点装置、或有关防止因通信延迟而误检测路径故障的 故障检测时间校正的产业中。
权利要求
1、一种网络系统,具有多个节点装置,上述节点装置,分别具有检测与对端的节点装置间的路径的故障的故障检测部;第1节点装置的上述故障检测部,通过与对端的第2节点装置协商,确定用于故障检测的数据包的发送间隔,接收从上述第2节点装置发送的用于故障检测的数据包,以及根据经过了确定的故障检测时间仍未从上述第2节点装置接收到上述数据包的情况,检测出与该第2节点装置间的路径故障;上述故障检测时间按如下方式确定上述第1节点装置的上述故障检测部,求出基于与上述第2节点装置间的协商所确定的上述数据包的发送间隔的第1故障检测时间,将预先设定或预先求出的宽限时间,与由协商确定的上述数据包的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际发送间隔的预测值相加,求出第2故障检测时间,对第1故障检测时间和第2故障检测时间进行比较,大的一方的值被确定为在实际运用中使用的上述故障检测时间。
2、 如权利要求l所述的网络系统,其特征在于 上述第2故障检测时间按如下方式确定 上述故障检测部,将作为设定值预先赋予的宽限时间,与由协商确定的上述数据包 的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际发送 间隔的预测值相加,作为第2故障检测时间。
3、 如权利要求l所述的网络系统,其特征在于 上述第2故障检测时间按如下方式确定 上述故障检测部, 测量自身节点装置的负荷,根据所测量的自身节点装置内的负荷求出宽限时间,将所求出的宽限时间,与由协商确定的上述数据包的发送间隔、 或者基于该发送间隔的上述数据包实际发送的实际发送间隔的预测值相加,作为第2故障检测时间。
4、 如权利要求3所述的网络系统,其特征在于上述节点装置,还具有对应于自身节点装置的负荷的平均值及分 散值预先存储了宽限时间的表; 上述故障检测部,测量包括自身节点装置的CPU负荷、和周期性工作的处理部分 的实际执行周期与所设定的周期之差中的任意一个的负荷的平均值 及分散值,根据所测量的负荷的平均值及分散值,参照上述表,求出对应的 宽限时间。
5、 如权利要求3所述的网络系统,其特征在于上述故障检测部,对自身节点装置内的负荷定期或不定期进行多次测量, 当根据所测量的负荷求出的宽限时间,与过去所求出的宽限时间相比发生变化时,再次根据所求出的宽限时间求出第2故障检测时 间,并且,再次决定上述故障检测时间。
6、 如权利要求1所述的网络系统,其特征在于-上述第2故障检测时间按如下方式确定上述故障检测部,测量来自对端节点装置的上述数据包的接收间隔,测量接收间隔的平均值及分散值,根据所测量的接收间隔的平均值及分散值求出宽限时间, 将所求出的宽限时间,与由协商确定的上述数据包的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际发送间隔的预测值相加,作为第2故障检测时间。
7、 如权利要求6所述的网络系统,其特征在于上述节点装置,还具有对应于数据包的接收间隔的平均值及分散值预先存储了宽限时间的表;上述故障检测部,根据所测量的接收间隔的平均值及分散值,参照上述表,确定对 应的宽限时间。
8、 如权利要求6所述的网络系统,其特征在于 上述故障检测部,对来自对端节点装置的上述数据包的接收间隔的平均值及分散 值,定期或不定期进行多次测量,当基于所测量的接收间隔的平均值及分散值的宽限时间,与过去 所求出的宽限时间相比发生变化时,再次根据所求出的宽限时间求出 第2故障检测时间,并且,再次决定上述故障检测时间。
9、 如权利要求1所述的网络系统,其特征在于 还包括与上述各节点装置进行通信的管理服务器;上述第1节点装置,在与对端的上述第2节点装置进行连接时, 将表示由上述第1节点装置对端的第2节点装置进行连接的情况通知 给上述管理服务器;上述第1及第2节点装置,将自身装置的连接负荷信息发送给上 述管理服务器;接收到上述通知的管理服务器,根据从上述第1及第2节点装置接收到的连接负荷信息,求出宽 限时间,对上述第1及第2节点装置发送宽限时间;上述第1及第2节点装置,利用从上述管理服务器接收到的宽限 时间,求出上述第2故障检测时间。
10、 如权利要求9所述的网络系统,其特征在于上述连接负荷信息,是上述第1或第2节点装置的会话数;上述管理服务器,具有对应于上述第1节点装置的会话数和上述第2节点装置的会话数预先存储了宽限时间的表;根据接收到的上述第1节点装置的会话数和上述第2节点装置的 会话数,检索上述表,取得对应的宽限时间,并将所取得的宽限时间 发送给上述第1及第2节点装置。
11、 如权利要求l所述的网络系统,其特征在于 上述故障检测部,利用BFD协议,并且使用考虑了宽限时间的故障检测时间,对故障进行检测。
12、 一种网络系统中的节点装置,该网络系统具有多个上述节点 装置,上述节点装置具有故障检测部,该故障检测部检测与对端节点装 置间的路径的故障; 上述故障检测部,通过与对端节点装置间的协商,确定用于故障检测的数据包的发 送间隔,接收从对端节点装置发送的用于故障检测的数据包,以及 根据经过了确定的故障检测时间仍未从上述对端节点装置接收 到上述数据包的情况,检测出与该对端节点装置间的路径的故障; 上述故障检测时间按如下方式确定 上述故障检测部,求出基于与上述对端节点装置间的协商所确定的上述数据 包的发送间隔的第1故障检测时间,将预先设定或预先求出的宽限时间,与由协商确定的上述数 据包的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际 发送间隔的预测值相加,求出第2故障检测时间,对第1故障检测时间和第2故障检测时间进行比较,大的一 方的值被确定为在实际运用中使用的上述故障检测时间。
13、 如权利要求12所述的节点装置,其特征在于 上述第2故障检测时间按如下方式确定 上述故障检测部,将作为设定值预先赋予的宽限时间,与由协商确定的上述数据包 的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际发送 间隔的预测值相加,作为第2故障检测时间。
14、 如权利要求12所述的节点装置,其特征在于 上述第2故障检测时间按如下方式确定上述故障检测部, 测量自身节点装置的负荷,根据所测量的自身节点装置内的负荷求出宽限时间, 将所求出的宽限时间,与由协商确定的上述数据包的发送间隔、 或者基于该发送间隔的上述数据包实际发送的实际发送间隔的预测值相加,作为第2故障检测时间。
15、 如权利要求12所述的节点装置,其特征在于 上述第2故障检测时间按如下方式确定 上述故障检测部,测量来自对端节点装置的上述数据包的接收间隔,测量接收间隔的平均值及分散值,根据所测量的接收间隔的平均值及分散值求出宽限时间, 将所求出的宽限时间,与由协商确定的上述数据包的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际发送间隔的预测值相加,作为第2故障检测时间。
16、 如权利要求12所述的节点装置,其特征在于上述故障检测部,在与对端节点装置进行连接时,将表示由对端节点装置进行连接的情况通知给管理服务器;将自身装置的连接负荷信息发送给上述管理服务器; 接收由管理服务器根据该连接负荷信息和对端节点装置的连接负荷信息求出并发送的宽限时间;利用接收到的宽限时间,求出上述第2故障检测时间。
17、 如权利要求12所述的节点装置,其特征在于-上述故障检测部,利用BFD协议,并且使用考虑了宽限时间的故障检测时间,对故障进行检测。
18、 一种网络系统中的管理服务器,该网络系统具有第1及第2 节点装置和上述管理服务器,上述第1节点装置,将第1故障检测时间和第2故障检测时间中的某一个确定为故障检测时间,其中该第1故障检测时间基于与上述第2节点装置间的协 商所确定的用于故障检测的数据包的发送间隔,该第2故障检测时间 是将从管理服务器接收的宽限时间与根据由协商确定的上述数据包 的发送间隔、或者基于该发送间隔的上述数据包实际发送的实际发送 间隔的预测值相加而得到的,以及根据经过了确定的故障检测时间仍未从上述第2节点装置接收 到用于故障检测的上述数据包的情况,检测出与该第2节点装置间的 路径的故障,上述管理服务器,具有对应于第1节点装置的连接负荷信息和第2节点装置的连接 负荷信息预先存储了宽限时间的表,从第1节点装置接收表示由该第1节点装置对端的第2节点装置 进行连接的情况的通知,从第1及第2节点装置,接收各装置的连接负荷信息,根据从第1及第2节点装置接收到的连接负荷信息,检索上述表, 求出对应的宽限时间,对上述第1及第2节点装置发送宽限时间,通过上述第1及第2节点装置,利用该宽限时间求出上述第2故 障检测时间。
全文摘要
本发明涉及网络系统、节点装置及管理服务器。本发明要解决的是,防止在路径上虽无故障却因通信延迟而误检测出故障技术问题。节点装置,根据已经过了决定的故障检测时间仍未从对端节点装置接收到数据包的情况,检测出与对端节点装置间的路径故障。节点装置,根据与对端节点装置间的协商所确定的数据包发送间隔,将“远程系统的数据包发送间隔×故障检测乘数”作为第1故障检测时间(60)。将“远程系统的数据包实际发送间隔×故障检测乘数”(61)和“容许的延迟时间”(62)之和,作为第2故障检测时间(63)。对第1故障检测时间(60)和第2故障检测时间(63)进行比较,大的一方的值决定为实际运用中使用的故障检测时间(64)。
文档编号H04L12/56GK101267389SQ20071016008
公开日2008年9月17日 申请日期2007年12月21日 优先权日2007年3月14日
发明者吉田均, 森拓郎, 汤本一磨 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1