集群加入方法、装置及集群设备与流程

文档序号:15682302发布日期:2018-10-16 20:41阅读:254来源:国知局

本发明涉及通信技术领域,尤其是涉及一种集群加入方法、装置及集群设备。



背景技术:

目前,集群由至少两个集群设备组成,根据其在集群中扮演的成员角色的不同,两个集群设备分为主用设备与从属设备,即其中一个集群设备是主用设备,主用设备处理业务的同时负责管理和控制集群;另一个集群设备是从属设备,从属设备处理业务的同时作为备份设备。在使用过程中,当主用设备出现故障时,从属设备需要能迅速接替主用设备来处理数据,以避免业务受到较大影响。

因此,集群中的一个集群设备由于故障或其它原因出现掉电时,另一个集群设备会响应变化并(作为主用设备)开始单独工作。当掉电的集群设备重新启动后,需要将其重新加入到集群中。与在集群中添加新的集群设备需要逐个确认网板和业务线卡板的情况不同,重新启动的集群设备只需要重新进行连接即可。但是,现有的处理过程中,从属设备重新加入的过程和恢复的过程都会对正在运行的集群的业务造成影响。



技术实现要素:

有鉴于此,本发明的目的在于提供一种集群加入方法、装置及集群设备,减少了从属设备上电启动后重新加入和恢复的过程对集群的运行业务所造成的影响。

第一方面,本发明实施例提供了一种集群加入方法,应用于包含至少两个集群设备的集群中,至少两个集群设备中包括主用设备和从属设备,每个集群设备包括主控板、多个网板和多个业务线卡板,包括:

主用设备的主控板接收并响应从属设备的加入事件;

主用设备的主控板逐个对每个交换平面单独进行平滑处理,直至所有交换平面完成平滑处理,其中,一个交换平面包括主用设备中的一个主网板和从属设备中的一个从网板;

平滑处理的步骤如下:

将主网板的工作模式设置为框间交换模式;

打开主网板与对应的从网板之间的光纤接口。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,在主用设备的主控板逐个对每个交换平面单独进行平滑处理之前,还包括:

主用设备通过向从属设备发送第一ipc消息,以关闭所述从属设备中全部从网板和业务线卡板之间的接口;

在主用设备的主控板逐个对每个交换平面单独进行平滑处理之后,还包括:

所述主用设备通过向从属设备发送第二ipc消息,以打开所述从属设备中全部从网板和业务线卡板之间的接口。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,在将主网板的工作模式设置为框间交换模式之前,还包括:

关闭主用设备的业务线卡板与当前交换平面中的主网板之间的流量;

在打开主网板与对应的从网板之间的光纤接口之后,还包括:

打开主用设备的业务线卡板与主网板之间的流量。

结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,打开主网板与对应的从网板之间的光纤接口之后,还包括:

主网板通过链路层协议获取从网板的网板号和接口号;

将获取到的网板号和接口号与预设的连接数据进行比较;

比较结果为不一致时,则发出连接错误提示信息。

结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,加入事件为从属设备上电重启事件或从属设备扩容加入事件。

第二方面,本发明实施例还提供一种集群平滑装置,应用于集群设备中的主控板,集群设备还包括多个网板和多个业务线卡板;

主控板,包括:

通信模块,用于接收并响应从属设备的加入事件;

平滑处理模块,用于逐个对每个交换平面单独进行平滑处理,直至所有交换平面完成平滑处理,其中,一个交换平面包括主用设备中的一个主网板和从属设备中的一个从网板;

平滑处理的步骤如下:

将主网板的工作模式设置为框间交换模式;

打开主网板与对应的从网板之间的光纤接口。

结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,还包括:

接口关闭模块,用于所述主用设备通过向从属设备发送第一ipc消息,以关闭所述从属设备中全部从网板和业务线卡板之间的接口;

接口打开模块,用于所述主用设备通过向从属设备发送第二ipc消息,以打开所述从属设备中全部从网板和业务线卡板之间的接口。

结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,还包括:

数据获取模块,用于主网板通过链路层协议获取从网板的网板号和接口号;

数据比较模块,用于将获取到的网板号和接口号与预设的连接数据进行比较;

提示模块,用于比较结果为不一致时,则发出连接错误提示信息。

第三方面,本发明实施例还提供一种集群设备,应用于包含主控板、多个网板和多个业务线卡板,主控板包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述任一项的方法。

第四方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,包括:程序代码使处理器执行上述任一项的方法。

本发明实施例带来了以下有益效果:

本申请提供的一种集群加入方法、装置及集群设备中,主要应用于包含至少两个集群设备的集群中,至少两个集群设备中包括主用设备和从属设备,每个集群设备包括主控板、多个网板和多个业务线卡板,具体的,主用设备的主控板接收并响应从属设备的加入事件后,主用设备的主控板逐个对每个交换平面单独进行平滑处理,直至所有交换平面完成平滑处理,这里需要进行说明的是,一个交换平面包括主用设备中的一个主网板和从属设备中的一个从网板,主用设备和从属设备之间设置有多个交换平面,每一个交换平面的平滑处理的步骤如下,在主用设备端的主控板侧:首先将主网板的工作模式设置为框间交换模式,即集群中,从属设备出现掉电,只有主用设备处于工作状态时,主用设备的主网板的工作模式已经切换为框内转发模式,主网板工作模式转换完成后,打开主网板与对应的从网板之间的光纤接口,重新建立主用设备和从属设备之间的通信通道。因此,在集群中从属设备重新加入的过程中,通过逐个对每个交换平面单独进行平滑处理,直至所有交换平面完成平滑处理的过程,每一次仅对一个交换平面进行平滑处理,这样一来,当一个网板因为平滑处理而停止转发流量时,其他的交换平面的网板仍可以进行流量的转发,从而实现了当前集群的业务不中断、流量不丢包的效果,并且,平滑处理流程无需人工操作,方便快捷。

本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为现有技术中的集群的组网图;

图2为本发明实施例提供的集群加入方法中每个交换平面的流程图;

图3为本发明实施例提供的集群加入方法的整体流程图;

图4为本发明实施例提供的集群加入装置的示意图。

图标:1-通信模块;2-平滑处理模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

集群可由两个集群设备组成,形成背靠背集群,一个集群设备作为主用设备工作,另一个集群设备作为从属设备工作。当其中一个集群设备由于故障或其它原因出现掉电,另一个集群设备会响应变化并(作为主用设备)开始单独工作。当掉电的集群设备重新启动后,需要将该从属设备重新加入到集群中。现行处理过程中,从属设备重新加入的过程和恢复的过程都会对正在运行的集群的业务造成影响(例如,导致当前集群的业务中断或者使当前集群的业务流量出现大量丢包等),基于此,本发明实施例提供的一种集群加入方法、装置及集群设备,可以解决集群设备重新加入的过程会对集群运行业务造成影响的技术问题。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种集群加入方法进行详细介绍。

实施例1

本发明实施例提供了一种集群加入方法。

根据本发明实施例,提供了一种集群加入方法的更为详细的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

参见图1和图2,本实施例提出的集群加入方法,具体包括以下步骤:

首先,先结合图1说明下集群的组成情况,集群由多个集群设备(也称为集群线卡框,linecardchassis,简称lcc)组成,在本实施例中,以两个集群设备组成的集群为例,在每个集群设备中都包括主控板、多个业务线卡板(lineprocessingunit,简称lpu)和多个网板(也称为线卡框交换网板,switchfabricunit,简称sfu)。根据集群中集群设备角色的不同,两个集群设备可以互为主用设备与从属设备,主用设备处理业务的同时负责管理和控制集群,从属设备处理业务的同时作为备份设备。当主用设备故障时,从属设备需要能迅速接替主用设备来处理数据,以避免集群中的业务受到较大影响。因此,集群中的一个集群设备由于故障或其它原因发生了掉电,另一个集群设备会响应变化并开始单独工作,当掉电的集群设备重新启动后,需要将重新启动后的集群设备加入到集群中。

步骤s101:主用设备的主控板接收并响应从属设备的加入事件。

需要进行说明的是,上述加入事件为从属设备上电重启事件或从属设备扩容加入事件。二者的差别在于,启动的时机不同。在从属设备上电重启时,由于其之前已经以集群的模式进行工作,所以在重启后会通过与主用设备之间的控制通道向主用设备发送重启的通知,以与主用设备恢复原有集群。而如果两个集群设备此前并未形成集群,其自身会单独以框内转发模式工作,此时,工作人员分别向两个集群设备下发集群形成指令,两个集群设备形成集群,并进行选举,确定主用设备和从属设备,以此构建新的集群。无论是重启或是扩容加入的过程,都会由于两个集群设备之间进行平滑处理而导致流量中断或造成大量丢包的问题。此处,以加入事件为上电重启为例进行描述。

在一个集群设备(例如,从属设备)由于故障或其他原因掉电时,主用设备响应上述变化,通过其自身的主控板通知主网板切换为框内转发模式,开始单独工作(即,主用设备的业务线卡板接收流量,通过自身的网板向其自身的另一个业务线卡板转发流量),此时,主用设备的业务线卡板接收到的流量不会转发到已经掉电的集群设备中(即,从属设备),保证流量能够正常的转发。

在这一过程中,从属设备会进行上电重启,并在上电重启后向主用设备发送上电重启事件。

以集群中包括两个集群设备(lcc1和lcc2)进行说明,其中,lcc1作为主用设备,lcc2作为从属设备,当其中的一个集群设备掉电(假设lcc2掉电)时,此时集群中只有lcc1还在工作,主用设备为lcc1。当lcc2上电重启后需要重新与lcc1建立连接。

此时,lcc1的主控板接收并响应lcc2的上电重启事件,由lcc1的主控板控制进行平滑处理流程。

步骤s102:主用设备的主控板逐个对每个交换平面单独进行平滑处理,直至所有交换平面完成平滑处理。

需要说明的是,对于形成集群的两个集群设备而言,包含交换平面和控制平面。一个交换平面包括主用设备中的一个网板(也可称为主网板)、从属设备中的一个网板(从网板)以及主网板和从网板之间形成的数据通道。一个控制平面包括主用设备的一个主控板(也可称为主用主控板)、从属设备中的一个主控板(从属主控板)以及主用主控板和从属主控板之间形成的控制通道。

鉴于上述两个lcc(即主用设备和从属设备)之间存在多个交换平面,为了避免集群的流量中断,lcc1的主控板需要逐个对每个交换平面单独进行平滑处理,在当前的交换平面完成平滑处理之后,再对下一个交换平面进行平滑处理,直至所有交换平面完成平滑处理。

在每个交换平面中的平滑处理的步骤如下:

步骤s1021:将主网板的工作模式设置为框间交换模式。

在lcc2向lcc1发送上电重启事件后,lcc1将主网板的工作模式由框内转发模式切换为框间交换模式,以便于从网板与主网板的工作模式统一,从而进行连接。

步骤s1022:打开主网板与对应的从网板之间的光纤接口。

主网板工作模式转换完成后,主网板自动打开与对端从网板连接的光纤接口,从而连通了lcc1和lcc2之间的数据通道,使主网板和从网板通过该数据通道形成交换平面,重新以集群的方式对流量进行转发。

并且,为了有效判断上述光纤接口的连接是否正确,在打开主网板与对应的从网板之间的光纤接口之后,还包括:

(1)第一步,主网板通过链路层协议获取从网板的网板号和接口号;第二步,将上一步中获取到的网板号和接口号与预设的连接数据进行比较,通过连接数据是否一致来判断光纤连接是否正确,比较的结果一致时判定为平面检查状态为通过。

(2)若否,即比较的结果不一致时,则发出连接错误提示信息。即上述比较的结果不一致时给予连接错误提示信息,并强制设置平面检查状态为通过,以确保集群的平滑处理流程不中断,用户可在选择之后再进行连线调整。通常情况下,对于lcc2故障恢复的情况,连线一般不会发生变化,并且由于快速恢复和不中断恢复流程的需要,连线即使有问题也可以不在平滑处理流程解决。与上述情况不同的是,在集群中加入新的集群设备扩容成集群的平滑处理流程中,连线必须正确才可以进行下一项操作。

至此,当lcc1接收到lcc2的上电重启事件时,lcc1逐个对其和lcc2之间的交换平面进行平滑处理,从而使lcc1未进行平滑处理的平面能够继续以框内转发模式进行工作(即,流量沿lcc1的业务线卡板-主网板-自身的另一业务线卡板进行转发),对流量进行转发,以此方式完成所有的交换平面的平滑处理,避免现有技术中全部交换平面同时进行平滑所造成的流量中断或大量丢包的问题。

另外,需要说明的是,无论是上电重启或是扩容加入,最终都是由主用设备控制集群进行平滑处理。比如在上电重启的情况下,当一个集群设备掉电时,另一个集群设备会自动升格为主用设备,上电重启的集群设备将被认为是从属设备。而在扩容加入的情况下,两个集群设备在单独工作时,都会认为自身是主用设备,在接收到工作人员下发的形成集群指令时,二者进行协商选举,并根据预设策略确定一个为主用设备,另一个作为从属设备,再由主用设备响应从属设备发送的扩容加入事件,进行平滑处理。

实施例2

本发明实施例提供了一种集群加入方法。

根据本发明实施例,提供了一种集群加入方法的更为详细的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

参见图3,本实施例提出的集群加入方法,具体包括以下步骤:

步骤s201:主用设备的主控板接收并响应从属设备的加入事件。

在此实施例中,仍将lcc1作为主用设备,lcc2作为从属设备。此步骤与上述的步骤s101相同,不再赘述。

步骤s202:主用设备通过向从属设备发送第一ipc消息,以关闭从属设备中全部从网板和业务线卡板之间的接口。

在确定待平滑的交换平面并开始进行平滑之前,由lcc1向lcc2发送第一互联网过程连接(internetprocessconnection,简称ipc)消息,关闭从网板和业务线卡板之间的接口。实施过程中,lcc1的主控板可通过组播的形式发送第一ipc消息。上述第一ipc消息包含了目的框号(即,lcc2的框号)、目的槽位(即,lcc2中的所有业务线卡板的槽位号)和消息内容。通过该第一ipc消息,关闭lcc2的所有业务线卡板和其对应的从网板之间的接口,以断绝可能的流量转发以及路由发布所造成的中断和丢包的问题。此后,lcc1的主控板执行各个交换平面的平滑处理。

步骤s203:主用设备的主控板逐个对每个交换平面单独进行平滑处理,直至所有交换平面完成平滑处理。

其中,lcc1的主控板对每个交换平面中的平滑处理的步骤如下:

步骤s2031:关闭主用设备的业务线卡板与当前交换平面中的主网板之间的流量。

在lcc1的业务线卡板与主网板之间存在流量交互的关系,具体的业务功能包括,主网板负责交换数据,业务线卡板负责数据流量处理,也就是说,对于lcc1而言,在平滑处理的过程中,可能仍有流量会经过正进行平滑处理的网板,这也会造成丢包的问题。

在lcc2加入集群后,lcc1的主控板关闭自身的业务线卡板与当前交换平面中的主网板之间的流量,能够有效降低lcc2在加入时步骤s2032过程或步骤s2033过程可能会对lcc1的上述流量造成的影响。其中,关闭流量可以通过关闭lcc1的业务线卡板上接口的方式或者关闭lcc1上主网板接口的方式实现,在此不做限制。

步骤s2032:将主网板的工作模式设置为框间交换模式。

步骤s2033:打开主网板与对应的从网板之间的光纤接口。

步骤s2032和步骤2033和上述的步骤s1021和步骤s1022相同不再赘述。

步骤s2034:打开主用设备的业务线卡板与主网板之间的流量。

在实施过程中,交换平面检查通过后,lcc1的主控板重新打开业务线卡板与主网板之间的流量,流量可以在业务线卡板和主网板之间正常转发。

步骤s204:主用设备通过向从属设备发送第二ipc消息,以打开从属设备中全部从网板和业务线卡板之间的接口。

在lcc1和lcc2之间所有交换平面平滑完成后,lcc1的主控板发送第二ipc消息通知lcc2的所有业务线卡板打开到所有从网板的接口,以打开lcc2的路由发布,从而可以实现跨框流量的正常转发,至此,集群恢复完成,平滑处理流程结束。

从上面的描述可以看出,主用设备的主控板可以通过控制自身的业务线卡板和网板之间以及控制从属设备的业务线卡板和网板之间的流量关闭/打开时机,在从属设备加入集群的过程中降低流量的丢包,从而提升集群形成过程中的可靠性。这一方式可以适用于集群设备掉电后重新加入的情况,以及新的集群设备扩容加入集群的情况。

实施例3

本发明实施例提供了一种集群平滑装置。该集群平滑装置主要用于执行本发明实施例上述内容所提供的集群加入方法,以下对本发明实施例提供的集群平滑装置做具体介绍。

参见图4,本实施例提供了集群平滑装置应用于集群设备中的主控板,集群设备还包括多个网板和多个业务线卡板;

主控板,包括:

通信模块1,用于接收并响应从属设备的加入事件;

平滑处理模块2,用于逐个对每个交换平面单独进行平滑处理,直至所有交换平面完成平滑处理,其中,一个交换平面包括主用设备中的一个主网板和从属设备中的一个从网板;

平滑处理的步骤如下:

将主网板的工作模式设置为框间交换模式;

打开主网板与对应的从网板之间的光纤接口。

此外,该集群平滑装置还包括:

数据获取模块,用于主网板通过链路层协议获取从网板的网板号和接口号。

数据比较模块,用于将获取到的网板号和接口号与预设的连接数据进行比较。

此外,该集群平滑装置还包括:

数据获取模块,用于主网板通过链路层协议获取从网板的网板号和接口号。

数据比较模块,用于将获取到的网板号和接口号与预设的连接数据进行比较。

提示模块,用于比较结果为不一致时,则发出连接错误提示信息。

本发明实施例提供的集群平滑装置,与上述实施例提供的集群加入方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。

实施例4

一种集群设备,应用于包含主控板、多个网板和多个业务线卡板,主控板包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述任一项方法。

此外,本实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述任一项的方法。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本发明实施例所提供的进行残余表项处理方法、装置及电子设备的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一个计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1