一种lustre的oss高可用集群方案的制作方法

文档序号:7805647阅读:1359来源:国知局
一种lustre的oss高可用集群方案的制作方法
【专利摘要】本发明公开了一种LUSTRE的OSS高可用集群方案,属于计算机服务器系统领域,该方案步骤如下:1)将整个文件系统建立;2)在每个OSS上安装pacemaker软件以及corosync软件;3)在命令行中对此高可用集群添加资源;4)配置完成后,启动corosync和pacemaker服务,模拟失败节点;5)在修复失败节点,然后查看资源是否可以重新添加回来,如果可以,说明此方案可行并执行成功。本发明能实现OSS的故障转移,并且能避免drbd出现数据同步问题,并可安全高效的实现的故障转移,并保证数据的正确无误;能方便用户很快的按照自己的意愿添加ost资源,并快速删除和添加资源。
【专利说明】—种LUSTRE的OSS高可用集群方案
[0001]
【技术领域】
[0002]本发明涉及计算机服务器系统领域,具体地说是一种LUSTRE的OSS高可用集群方案。
【背景技术】
[0003]Lustre是一种平行分布式文件系统,通常使用在大型计算机集群与超级计算机之上。OSS (Open Storage Service的简称)是支持任意数据类型的存储服务,支持任意时间、地点的数据上传和下载,OSS中每个存储对象(object)由名称、内容、描述三部分组成。
[0004]Pacemaker是一个集群管理器。它利用首选集群基础设施(OpenAIS或heartbeat)提供的消息和成员能力,由辅助节点和系统进行故障检测和回收,实现性群集服务(亦称资源)的高可用性。它可以做几乎任何规模的集群,并带有一个强大的依赖模式,让管理员能够准确地表达的群集资源之间的关系(包括顺序和位置)。几乎任何可以编写的脚本,都可以作为管理起搏器集群的一部分。
[0005]Corosync是集群管理套件的一部分,它在传递信息的时候可以通过一个简单的配置文件来定义信息传递的方式和协议等。它是2008年推出,但其实它并不是一个真正意义上的新软件,在2002年的时候有一个项目Openais,它由于过大,分裂为两个子项目,其中可以实现HA心跳信息传输的功能就是Corosync,它的代码60%左右来源于Openais.Corosync可以提供一个完整的HA功能,但是要实现更多,更复杂的功能,那就需要使用Openais 了。Corosync是未来的发展方向。在以后的新项目里,一般采用Corosync,而hb_gui可以提供很好的HA管理功能,可以实现图形化的管理。另外相关的图形化有RHCS的套件luci+ricci,当然还有基于java开发的LCMC集群管理工具。
[0006]Lustre针对大文件的读写作了优化,可以为集群系统提供高性能的1/0吞吐率、全局数据共享环境、数据存储位置独立性和对节点失效提供冗余机制,以及当集群重配置或者服务器和网络失效时的快速恢复服务,较好地满足了高性能计算集群系统的需要。但是现在的lustre文件系统中,oss很少会做高可用,但是这部分应该也是迫切需要的,如果在大容量的lustre文件系统中,oss的数量会增多,所以oss出故障的几率会增加,并且如果有部分数据正好是用户要读取的内容,则可能会导致客户无法读取源数据,进而无法进行相关数据的提取和整合。

【发明内容】

[0007]本发明的技术任务是提供一种LUSTRE的OSS高可用集群方案。
[0008]本发明的技术任务是按以下方式实现的,该方案步骤如下:
I)按照正常lustre的安装过程,将整个文件系统建立,使得所有的ost在每个oss中都可以看得到,并进行格式化; 2)在每个OSS上安装pacemaker软件以及corosync软件,修改corosync的配置文件,将所有OSS加入到pacemaker高可用集群,并设置心跳IP地址;
3)在命令行中对此高可用集群添加资源;
4)配置完成后,启动corosync和pacemaker服务,然后对集群进行failover测试,模拟失败节点,查看是否其他节点是否可接受pacemaker中的失败节点的资源;
5)在修复失败节点,然后查看资源是否可以重新添加回来,如果可以,说明此方案可行并执行成功。
[0009]所述的步骤I)中格式化OST时需指定failover的节点。
[0010]所述的步骤2)为将需要切换的节点中的资源,即每个OSS的ost,加入到pacemaker 中。
[0011]本发明的一种LUSTRE的OSS高可用集群方案和现有技术相比,能实现OSS的故障转移,并且能避免drbd出现数据同步问题,并可安全高效的实现的故障转移,并保证数据的正确无误;能方便用户很快的按照自己的意愿添加ost资源,并快速删除和添加资源。
【专利附图】

【附图说明】
[0012]附图1为一种LUSTRE的OSS高可用集群方案的Lustre的组成示意图。
[0013]附图2为一种LUSTRE的OSS高可用集群方案的pacemaker的关系模型及调度过程不意图。
【具体实施方式】
[0014]实施例1:
按照正常lustre的安装过程,将整个文件系统建立,使得所有的ost在每个oss中都可以看得到,并进行格式化,格式化OST时需指定failover的节点;在每个OSS上安装pacemaker软件以及corosync软件,修改corosync的配置文件,将所有OSS加入到pacemaker高可用集群,并设置心跳IP地址;
在命令行中对此高可用集群添加资源;配置完成后,启动corosync和pacemaker服务,然后对集群进行failover测试,模拟失败节点,查看是否其他节点是否可接受pacemaker中的失败节点的资源;在修复失败节点,然后查看资源是否可以重新添加回来,如果可以,说明此方案可行并执行成功。
[0015]实施例2:
按照正常lustre的安装过程,将整个文件系统建立,使得所有的ost在每个oss中都可以看得到,并进行格式化,格式化OST时需指定failover的节点;在每个OSS上安装pacemaker软件以及corosync软件,修改corosync的配置文件,将所有OSS加入到pacemaker高可用集群,并设置心跳IP地址;
在命令行中对此高可用集群添加资源,将需要切换的节点中的资源,即每个OSS的ost,加入到pacemaker中;配置完成后,启动corosync和pacemaker服务,然后对集群进行failover测试,模拟失败节点,查看是否其他节点是否可接受pacemaker中的失败节点的资源;在修复失败节点,然后查看资源是否可以重新添加回来,如果可以,说明此方案可行并执行成功。
【权利要求】
1.一种LUSTRE的OSS高可用集群方案,其特征在于,该方案步骤如下: 1)按照正常lustre的安装过程,将整个文件系统建立,使得所有的ost在每个oss中都可以看得到,并进行格式化; 2)在每个OSS上安装pacemaker软件以及corosync软件,修改corosync的配置文件,将所有OSS加入到pacemaker高可用集群,并设置心跳IP地址; 3)在命令行中对此高可用集群添加资源; 4)配置完成后,启动corosync和pacemaker服务,然后对集群进行failover测试,模拟失败节点,查看是否其他节点是否可接受pacemaker中的失败节点的资源; 5)在修复失败节点,然后查看资源是否可以重新添加回来,如果可以,说明此方案可行并执行成功。
2.根据权利要求1所述的一种LUSTRE的OSS高可用集群方案,其特征在于,所述的步骤I)中格式化OST时需指定failover的节点。
3.根据权利要求1所述的一种LUSTRE的OSS高可用集群方案,其特征在于,所述的步骤2)为将需要切换的节点中的资源,即每个OSS的ost,加入到pacemaker中。
【文档编号】H04L12/24GK104023061SQ201410252060
【公开日】2014年9月3日 申请日期:2014年6月10日 优先权日:2014年6月10日
【发明者】王冬冬 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1