一种超融合系统分布式存储集群管理方法、装置及介质与流程

文档序号:38547148发布日期:2024-07-05 11:18阅读:34来源:国知局

本发明涉及超融合集群部署,特别是涉及一种超融合系统分布式存储集群管理方法、装置及介质。


背景技术:

1、在超融合系统中,通常包括计算、网络、存储等组件。其中的存储组件是超融合系统中最基础的底层软件之一,其性能和稳定性直接决定了超融合产品的质量。

2、而超融合产品中最常使用的存储组件是分布式存储,由于在分布式存储集群中数据被分散在多个节点上存储,需要进行监控、调度和维护等多种管理任务,增加了系统的复杂性。且又由于在实际应用中各种环境下的不可控因素,当出现部分节点或全部节点故障、关机、重启、网络故障等问题时,集群的稳定性将面临着严峻的考验。因此在各种故障场景下如何保证存储集群的安全稳定,是超融合产品所亟待解决的一大难题。

3、所以,现在本领域的技术人员亟需要一种超融合系统分布式存储集群管理方法,以实现超融合产品在各种故障场景下的分布式存储集群管理。


技术实现思路

1、本发明的目的是提供一种超融合系统分布式存储集群管理方法、计算机程序产品、装置、介质及超融合系统,用于实现超融合产品在各种故障场景下的分布式存储集群管理。

2、为解决上述技术问题,本发明提供一种超融合系统分布式存储集群管理方法,应用于分布式存储集群中的任一节点,包括:

3、当所述节点部署时,启动当前所述节点的分布式键值数据库服务和存储集群服务;

4、于分布式键值数据库中创建对应的第一键值对;其中,所述第一键值对的值为当前所述节点的互联网协议地址,所述第一键值对的键绑定唯一的第一租约号;所述节点通过所述存储集群服务续租对应的所述第一租约号,并监控所述分布式键值数据库中是否有所述第一键值对因超期未续租而消失;若有所述第一键值对消失,所述存储集群服务向各所述节点广播节点离线事件;

5、当接收到所述节点离线事件时,根据所述分布式键值数据库中消失的所述第一键值对中包含的互联网协议地址,确定对应的节点为离线节点。

6、在一种可能的实施例中,在当所述节点部署时,启动当前所述节点的分布式键值数据库服务和存储集群服务之后,还包括:

7、于所述分布式键值数据库中创建对应的第二键值对;

8、其中,所述第二键值对的值为当前所述节点的互联网协议地址,所述第二键值对的键包含唯一的序列号;各所述节点通过所述序列号竞争确定领导节点;

9、所述领导节点用于根据集群状态机的不同状态,对其他所述节点采取不同的管理措施。

10、在一种可能的实施例中,当所述集群状态机的状态为资源初始状态时;

11、在各所述节点通过所述序列号竞争确定领导节点之后,所述方法还包括:

12、向所述领导节点发送节点加入请求;其中,所述节点加入请求包含本节点的节点信息;所述节点信息至少包含互联网协议地址;

13、接收所述领导节点广播的节点加入事件;其中,所述节点加入事件包含互联网协议地址和集群状态;

14、根据所述互联网协议地址确定所述节点加入事件是否对应本节点;

15、若是,则根据所述集群状态更新本节点本地存储的集群信息;

16、若否,则将本节点本地存储的集群信息初始化为所述资源初始状态;

17、在一种可能的实施例中,若所述节点为所述领导节点,则所述方法还包括:

18、当接收到所述节点加入请求时,将所述节点信息记录到本地内存以及所述分布式键值数据库中;

19、根据记录的所有所述节点信息,判断是否全部节点已加入集群;

20、若否,则确定当前的所述集群状态为等待节点加入状态,并将所述集群状态通过所述节点加入事件进行广播;

21、若是,则确定当前的所述集群状态为正常状态,并将所述集群状态通过所述节点加入事件进行广播;

22、其中,所述节点加入事件中包含所有已加入集群节点的互联网协议地址。

23、在一种可能的实施例中,若所述节点为所述领导节点,则在所述当接收到所述节点加入请求时,将所述节点信息记录到本地内存以及所述分布式键值数据库中之后,所述方法还包括:

24、根据记录的所有所述节点信息,判断是否存在节点始终无法加入集群;

25、若存在,则启动定时器,每隔预设时间检查记录的所有所述节点信息,并判断未加入集群的节点数量是否小于集群创建存储资源最小副本数;

26、若是,则转至所述确定当前的所述集群状态为正常状态,并将所述集群状态通过所述节点加入事件进行广播的步骤。

27、在一种可能的实施例中,还包括:

28、当接收到节点删除事件时,将本节点本地存储的集群信息更新为数据恢复状态;其中,所述节点删除事件由超融合系统平台下发,包含被删除节点的互联网协议地址;

29、根据所述节点删除事件中的互联网协议地址,判断本节点是否为所述被删除节点;

30、若否,则根据数据均衡算法确定所述被删除节点需要迁移至本节点的迁移数据量;根据所述迁移数据量向所述被删除节点发送相应的数据迁移请求,以进行数据迁移;

31、若是,则响应其他节点发送的所述数据迁移请求,将本节点的数据迁移至其它节点。

32、在一种可能的实施例中,当节点处于所述数据恢复状态时,禁止本节点进行除数据迁移之外的其他任务;

33、在判断本节点不为所述被删除节点之后,还包括:

34、关闭本节点已有的会话连接、停止所有到本节点的输入/输出请求;

35、当本节点的数据全部迁移完毕时,停止本节点开启的所述存储集群服务和所述分布式键值数据库服务,并删除所述分布式键值数据库中本节点的节点信息。

36、在一种可能的实施例中,若所述节点为所述领导节点,则所述方法还包括:

37、若接收到所述节点离线事件,判断所述离线节点的数量是否超过预设的故障阈值;

38、若是,则确定当前的所述集群状态为维护模式状态,并将所述集群状态通过超故障域事件进行广播;

39、若否,则检查所述分布式存储集群的剩余空间是否可以恢复所述离线节点的数据;

40、若可以,则确定当前的所述集群状态为数据恢复状态,并将所述集群状态通过数据恢复事件进行广播;

41、若不可以,则确定当前的所述集群状态为集群空间不足状态,并将所述集群状态通过集群空间不足事件进行广播;

42、对于任一节点,所述方法还包括:

43、当接收到所述超故障域事件时,根据所述集群状态将本节点本地存储的集群信息更新为所述维护模式状态;

44、当接收到所述数据恢复事件时,根据所述集群状态将本节点本地存储的集群信息更新为所述数据恢复状态;并对所述离线节点丢失的数据进行数据恢复;

45、当接收到所述空间不足事件时,则根据所述集群状态将本节点本地存储的集群信息更新为所述集群空间不足状态。

46、在一种可能的实施例中,当所述集群信息为所述维护模式状态时,本节点正常对外提供存储服务;当访问到丢失数据时,向上层业务返回相应的错误信息;

47、当节点处于所述数据恢复状态时,禁止本节点进行除数据恢复之外的其他任务;

48、当节点处于所述集群空间不足状态时,若被超融合系统平台定期检测所述集群状态时所检测到,则触发所述超融合系统平台提示用户进行集群扩容。

49、在一种可能的实施例中,各节点的所述第二键值对的键绑定唯一的第二租约号;

50、则方法还包括:

51、各节点通过所述存储集群服务续租对应的所述第二租约号,并监控所述分布式键值数据库中是否有所述第二键值对因超期未续租而消失;

52、若所述领导节点对应的所述第二键值对消失,则各节点根据所述序列号,竞争确定新的所述领导节点;

53、在确定新的所述领导节点之后,所述领导节点从所述分布式键值数据库中读取原先的所述领导节点记录的所述节点信息,以接替原先的所述领导节点对其他节点进行管理。

54、在一种可能的实施例中,同一节点的所述第一租约号和所述第二租约号为同一租约号;

55、则若所述领导节点对应的所述第二键值对消失,则各节点根据所述序列号,竞争确定新的所述领导节点包括:

56、当接收到所述节点离线事件时,根据所述分布式键值数据库中消失的所述第二键值对中包含的互联网协议地址,确定所述离线节点是否为所述领导节点;

57、若是,各节点根据所述序列号,竞争确定新的所述领导节点。

58、为解决上述技术问题,本发明还提供一种超融合系统,包括:存储组件、计算组件和网络组件;

59、其中,所述存储组件为分布式存储集群,所述分布式存储集群中的各节点用于执行如上所述的超融合系统分布式存储集群管理方法的步骤。

60、为解决上述技术问题,本发明还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上所述的超融合系统分布式存储集群管理方法的步骤。

61、为解决上述技术问题,本发明还提供一种超融合系统分布式存储集群管理装置,包括:

62、存储器,用于存储计算机程序;

63、处理器,用于执行所述计算机程序时实现如上所述的超融合系统分布式存储集群管理方法的步骤。

64、为解决上述技术问题,本发明还提供一种非易失性存储介质,所述非易失性存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的超融合系统分布式存储集群管理方法的步骤。

65、本发明提供的一种超融合系统分布式存储集群管理方法,利用分布式存储集群的分布式键值数据库(etcd)服务和存储集群服务实现对集群节点的管理。具体的,在每一节点部署时,该节点于etcd数据库中建立第一键值对;第一键值对的键(key)绑定唯一的租约号(lease id),也即第一键值对的key为租约key;且每一节点均通过存储集群服务负责对应租约号的续租。根据租约机制的特点可知,第一键值对临时存在,具有时效性;当超过租约期限而未续约时,该第一键值对会消失;此时根据集群的监察(watch)机制,会广播事件(即节点离线事件)告知各节点etcd数据库中有第一键值对消失;节点离线事件的下发表征着该第一键值对所对应的节点未能按期续约租约号,说明此节点出现节点故障、网络异常等问题。又因为第一键值对的值为该节点的互联网协议(internet protocol,ip)地址,以使所创建的第一键值对唯一对应该节点。所以其他节点可根据etcd数据库中消失的第一键值对的值,确定离线节点,进而采取相应的管理手段。

66、由上述可知,本方法可以在节点故障、关机、重启、网络故障等异常场景下,准确、快速地确定因故障而离线的节点,进而方便运维人员采取相应的管理、维护措施,从而实现对存储集群的有效管理,保证超融合系统分布式存储集群的平稳运行。

67、本发明提供的超融合系统、计算机程序产品、超融合系统分布式存储集群管理装置、及非易失性存储介质,与上述方法对应,效果同上。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!