一种网络附属存储集群系统的制作方法

文档序号:12494637阅读:231来源:国知局

本发明属于集群系统技术领域,尤其涉及一种网络附属存储集群系统。



背景技术:

集群是由多个节点构成的一种松散耦合的计算节点集合,协同起来对外提供服务。集群技术广泛应用在计算机处理和存储方面,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。网络附属存储NAS(Network Attached Storage)是指协同多个节点提供高性能、高可用或高负载均衡的数据存储服务,NAS支持多种协议,如NFS、CIFS等。集群NAS是一种横向扩展的存储架构,具有容量和性能线性扩展的优势,已经得到全球市场的认可。

在信息化时代,业务迅速发展,对存储资源的需求是迅速变化的,因此NAS集群的灵活性资源配置、资源的在线动态调度成为了目前NAS存储集群的面临的主要问题。传统的NAS集群系统不能根据业务需求的变化灵活的配置物理资源和逻辑资源,导致业务繁忙时资源紧缺,业务空闲时,物理资源浪费。针对此问题,业界存在两种解决方案。

一、实时监控集群中各节点的状态、动态收集各节点负载数据,当节点出现故障时,根据负载信息选择合适的节点进行资源迁移。其缺点是:只能在故障发生后才能做到资源的迁移与切换,不能合理高效利用物理服务器的资源,也不能提醒用户对可能发生的资源不足进行处理。

二、实时监控集群中各节点的状态、动态收集各节点负载数据,结合负载信息,动态地将资源分配到低负载的节点上,使得的集群中的各节点处于低负载状态。其缺点是:若各节点均处于高负载状态,会导致资源调度失败,从而导致相应业务无法启动,并且,未合理考虑在负载较轻的如何节省资源的问题。



技术实现要素:

本发明的目的是提供一种网络附属存储集群系统,以解决了现有技术中存在的资源利用效率不高,调度资源容易失败等问题。

为了实现上述问题,本发明技术方案如下:

一种网络附属存储集群系统,所述网络附属存储(NAS)集群系统包括至少两个通过网络连接的节点,所述每个节点上设置有资源管理单元、NAS服务管理单元、网络服务管理单元和高可用管理单元,其中:

所述资源管理单元提供节点资源或虚拟IP资源修改接口,用于初始化或更新节点资源池和虚拟IP资源池;

所述NAS服务管理单元,用于定期执行NAS服务检查和故障处理,上报节点NAS服务状态信息,并依据预置的负载计算策略计算当前的节点的负载情况后上报;

所述网络服务管理单元,用于定期执行网络服务检查和故障处理,上报节点物理信息和网络服务状态信息;

所述高可用管理单元,用于从所有节点中选择出控制节点,控制节点的高可用管理单元定期执行高可用管理,包括:接收网络服务管理单元上报的节点物理信息,更新节点资源池;接收所述NAS服务管理单元和所述网络服务管理单元上报的信息,依次检测节点资源池所有处于故障状态或活动状态的节点,并按照预配置的策略进行相应的处理。

本发明的一种实现方式,所述NAS服务管理单元定期执行NAS服务检查和故障处理,执行如下操作:

检查当前节点的NAS服务是否处于故障状态,若CIFS服务处于故障状态,则重启CIFS服务,若NFS服务处于故障状态,则重启NFS服务。

本发明的另一种实现方式,所述NAS服务管理单元定期执行NAS服务检查和故障处理,执行如下操作:

检查当前节点的NAS服务是否处于故障状态,若NAS服务处于故障状态,依据连续重启次数与时间判断是否重启故障服务,若CIFS服务处于故障状态,则重启CIFS服务;若NFS服务处于故障状态,则重启NFS服务。

进一步地,所述网络服务管理单元定期执行网络服务检查和故障处理,执行如下操作:

获取当前节点的逻辑资源配置表,若配置表发生变化,则禁用逻辑资源配置表中未包含的虚拟IP,启用逻辑资源配置表中存在的虚拟IP。

进一步地,所述网络服务管理单元定期执行网络服务检查和故障处理,执行如下操作:

检查当前节点是否网络故障,若是则禁用当前节点所有的虚拟IP。

进一步地,所述网络服务管理单元定期执行网络服务检查和故障处理,执行如下操作:

检查虚拟IP的通信状态和网络负载,上报给高可用管理单元。

进一步地,所述网络服务管理单元定期执行网络服务检查和故障处理,执行如下操作:

检查当前节点物理信息是否发生变化,如果发生变化,则上报给高可用管理单元。

本发明一种实现方式,所述高可用管理单元依次检测节点资源池所有处于故障状态或活动状态的节点,并按照预配置的策略进行相应的处理,执行如下操作:

若某个节点的网络异常,或NAS服务异常,则裁定节点为故障状态,否则裁定为活动状态;

若检测到某个节点由活动状态变更为故障状态,则释放故障节点所对应逻辑资源配置表的所有虚拟IP,使得虚拟IP资源池相应虚拟IP处于未分配状态,将节点资源池中该节点设置为相应故障状态;若检测到某节点由故障状态变更为活动状态,则将该节点状态设置为活动状态。

本发明另一种实现方式,所述高可用管理单元依次检测节点资源池所有处于故障状态或活动状态的节点,并按照预配置的策略进行相应的处理,执行如下操作:

针对每个节点,设置服务状态计数器,若某节点的网络异常,或NAS服务异常后,将相应节点相应服务的计数器加1,直至计数器数值达到或超过某个阈值时,判定节点为故障状态;若节点服务状态正常,并且相应计数器不为0,则减1,直至相应计数器为0,判定节点为活动状态;

若检测到某个节点由活动状态变更为故障状态,则释放故障节点所对应逻辑资源配置表的所有虚拟IP,使得虚拟IP资源池相应虚拟IP处于未分配状态,将节点资源池中该节点设置为相应故障状态;若检测到某节点由故障状态变更为活动状态,则将该节点状态设置为活动状态。

进一步地,所述高可用管理单元依次检测节点资源池所有处于故障状态或活动状态的节点,并按照预配置的策略进行相应的处理,还执行如下操作:

检查虚拟IP资源池是否存在未分配的虚拟IP,若存在,则查找到满足要求且负载最轻的节点,调整该节点逻辑资源配置表,将虚拟IP分配给该节点;

或/和,对节点资源池中处于活动状态的节点进行逻辑资源配置表检查,若某节点的逻辑资源配置表中存在不属于虚拟IP资源池的虚拟IP,则从相应的逻辑资源配置表删除该虚拟IP;当逻辑资源配置表中的不存在虚拟IP时,则将该节点设置为待机状态;

若虚拟IP资源池中不存在未分配的虚拟IP,则跳转负载均衡检查,检查集群平均负载是否低于预设最小负载值;若是,则获取集群中负载最轻的节点,释放该节点的虚拟IP,更新逻辑资源配置表,并将该节点状态设置为待机状态;否则,判断集群平均负载是否高于预设最大负载值,若平均负载较重且节点资源池中存在处于待机状态的节点,则将节点设置为活动状态,并释放负载最重节点的一个虚拟IP;若平均负载处于预设最小负载值与预设最大负载值之间,则判断负载较重节点与较轻节点的差异超过预定的阈值,若是,则释放负载最重节点的一个虚拟IP地址。

本发明提出了一种网络附属存储集群系统,实时监控集群中各节点NAS服务、网络服务的状态及其负载压力,然后合理调度虚拟IP资源,动态调整物理节点的活动或待机状态或通知管理员调配物理资源,增强资源调度的灵活性,提高物理节点的利用率,使得集群中各服务器节点处于相对稳定的高性能状态。通过资源池管理集群节点资源和虚拟IP资源,根据节点的服务状态及其负载状况,合理配置虚拟IP资源,动态调整集群节点的状态,使得逻辑资源尽可能的均衡分配,提高了物理资源的利用率,降低了集群运行的成本;通过资源的动态增加和减少,实现集群规模的在线扩展或缩小,提高了运维效率。

附图说明

图1为本发明一种网络附属存储集群系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。

本实施例一种网络附属存储集群系统,该集群系统中存在多个通过网络连接的节点,本实施例中集群系统中至少存在两个节点。在集群中的每个节点部署资源管理单元、NAS服务管理单元、网络服务管理单元和高可用管理单元。

本实施例资源管理单元提供的节点资源或虚拟IP资源修改接口,用于初始化或更新节点资源池和虚拟IP资源池。虚拟IP资源池主要包括虚拟IP地址等信息,节点资源池包括NAS集群节点的物理信息。

资源管理单元在进行虚拟IP地址管理时,管理员通过虚拟IP资源池修改接口,对虚拟IP资源进行增加或删除。

增加虚拟IP地址时,执行如下操作:

先检查虚拟IP资源池是否存在,若虚拟IP资源池不存在,则初始化虚拟IP资源池;

然后判断虚拟IP资源池中是否已经存在新增虚拟IP,如果存在,流程处理结束,返回结果;否则,将新增虚拟IP添加到虚拟IP资源池中,流程处理结束,返回结果。

删除虚拟IP地址时,执行如下操作:

检查虚拟IP资源池中,是否存在即将删除的虚拟IP,如果不存在,流程处理结束,返回结果;否则将虚拟IP从到虚拟IP资源池中删除,流程处理结束,返回结果。

资源管理单元在进行节点资源管理时,管理员通过节点资源修改接口,对节点资源进行增加或删除。

其中,增加节点资源,启动高可用管理单元,加入NAS集群,将节点加入节点资源池,然后将节点设置为待机状态。

删除节点资源,释放该节点的逻辑资源配置表中所有资源,并将节点信息从节点资源池中删除,停止NAS服务管理单元,停止网络服务管理单元,停止高可用管理单元。

本实施例NAS服务管理单元用于定期执行NAS服务检查和故障处理,NAS服务包括本集群系统提供的各种基于NAS的服务,如NFS、CIFS等,其中NFS是UNIX系统间实现磁盘文件共享的一种方法,而CIFS则提供Windows客户机与UNIX服务器间的文件共享。针对节点所提供的服务不同,也可以仅提供一种NAS服务,以下不再赘述。

具体地,NAS服务管理单元启动管理线程,定期检查CIFS服务和NFS服务的状态和负载。

其中,定期检查CIFS服务和NFS服务状态,将状态信息上报给高可用管理单元。

依据预置的负载计算策略计算当前的节点的负载情况,上报给高可用管理单元。

检查当前节点的NAS服务是否处于故障状态,若处于故障状态依据故障处理方法对故障服务进行处理,包括但不限于以下方法:

方法一:若CIFS服务处于故障状态,则重启CIFS服务;若NFS服务处于故障状态,则重启NFS服务。

方法二:若NAS服务处于故障状态,依据连续重启次数与时间判断是否重启故障服务,对于处于故障状态的NAS服务,若CIFS服务处于故障状态,则重启CIFS服务;若NFS服务处于故障状态,则重启NFS服务。

方法三:若服务处于故障状态,则通知系统管理员进行处理。

本实施例网络服务管理单元,用于定期执行网络服务检查和故障处理,包括但不限于:

获取当前节点的逻辑资源配置表,若配置表发生变化,则更新网络配置:禁用逻辑资源配置表中未包含的虚拟IP,启用逻辑资源配置表中存在的虚拟IP。

检查当前节点是否网络故障,若是则禁用当前节点所有的虚拟IP。

检查虚拟IP的通信状态和网络负载,上报给高可用管理单元。

检查当前节点的网络服务状态,将当前网络节点的网络服务状态信息上报给高可用管理单元;

检查当前节点物理信息是否发生变化,如果发生变化,则上报给高可用管理单元。

本实施例高可用管理单元,用于从所有节点中选择出控制节点,控制节点的高可用管理单元定期执行高可用管理。包括:接收网络服务管理单元上报的节点物理信息,更新节点资源池;接收所述NAS服务管理单元和所述网络服务管理单元上报的信息,依次检测节点资源池所有处于故障状态或活动状态的节点,并按照预配置的策略进行相应的处理。具体包括但不限于:

获取网络服务管理单元上报的节点物理信息,更新节点资源池,节点资源池包含集群中所有节点的详细物理信息,包括网卡信息、实际IP信息等。

依次检测节点资源池所有处于故障状态或活动状态的节点,即根据获取的节点NAS服务(包括NFS服务和CIFS服务)状态信息和网络服务状态信息,依据节点状态裁决机制裁决节点状态,裁决策略可以包括但不限于如下方法:

第一种方法:若某个节点的网络异常,或NFS服务异常或CIFS服务异常,则裁定节点为故障状态,否则裁定为活动状态。

第二种方法:针对每个节点,设置服务状态计数器,如网络异常计数器、NFS服务异常计数器和CIFS服务异常计数器,初始值为0;若某节点的网络异常,或NFS服务异常或CIFS服务异常后,将相应节点相应服务的计数器加1,直至计数器数值达到或超过某个阈值时,判定节点为故障状态;若节点服务状态正常,并且相应计数器不为0,则减1,直至相应计数器为0,判定节点为活动状态。

节点故障状态分为3种:网络故障——由于网络异常导致;NFS故障——由于NFS服务异常导致;CIFS故障——由于CIFS服务异常导致。

若检测到某个节点由活动状态变更为故障状态,则释放故障节点所对应逻辑资源配置表的所有虚拟IP,使得虚拟IP资源池相应虚拟IP处于未分配状态,将节点资源池中该节点设置为相应故障状态;若检测到某节点由故障状态变更为活动状态,则将该节点状态设置为活动状态。

本实施例高可用管理单元依次检测节点资源池所有处于故障状态或活动状态的节点,并按照预配置的策略进行相应的处理时,还可以执行如下操作:

检查虚拟IP资源池是否存在未分配的虚拟IP,若存在,则查找到满足要求且负载最轻的节点,调整该节点逻辑资源配置表,将虚拟IP分配给该节点。

或/和,对节点资源池中处于活动状态的节点进行逻辑资源配置表检查,若某节点的逻辑资源配置表中存在不属于虚拟IP资源池的虚拟IP,则从相应的逻辑资源配置表删除该虚拟IP;当逻辑资源配置表中的不存在虚拟IP时,则将该节点设置为待机状态。

若虚拟IP资源池中不存在未分配的虚拟IP,则跳转负载均衡检查,检查集群平均负载是否较轻——即低于预设最小负载值;若是,则获取集群中负载最轻的节点,释放该节点的虚拟IP,更新逻辑资源配置表,并将该节点状态设置为待机状态;否则,判断集群平均负载是否较重——即高于预设最大负载值,若平均负载较重且节点资源池中存在处于待机状态的节点,则将节点设置为活动状态,并释放负载最重节点的一个虚拟IP;若平均负载处于预设最小负载值与预设最大负载值之间,则判断集群节点间负载是否失衡——即负载较重节点与较轻节点的差异超过预定的阈值;若是,则释放负载最重节点的一个虚拟IP地址。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1