一种监控Lustre文件系统的装置、方法及系统的制作方法

文档序号:9326622阅读:394来源:国知局
一种监控Lustre文件系统的装置、方法及系统的制作方法
【技术领域】
[0001]本发明涉及计算机技术领域,特别涉及一种监控Lustre文件系统的装置、方法及系统。
【背景技术】
[0002]Lustre文件系统是应用于大型服务器集群的分布式文件系统,通常由多台服务器构成,用户通过Lustre文件系统获得快速、稳定的计算服务,但是由于使用Lustre文件系统的用户很多,很可能出现同时有多个用户对同一存储节点进行数据读取或写入的情况,在这种高并发量的数据读取或存储进行的时候,由于1阻塞,很可能导致服务器宕机或死机,服务器一旦发生宕机或死机,将导致用户不用访问、计算中断或数据丢失等情况,带来严重的影响,因此,需要对Lustre文件系统中的各个服务器进行监控,采取相应的措施,从而避免1阻塞情况的发生。
[0003]目前,针对Lustre文件系统的监控方法,主要是由系统管理员通过Ping命令和Free命令,检查Lustre文件系统中各个服务器的运行及存储情况。
[0004]由此可见,现有技术由系统管理员通过相应的命令,检查Lustre文件系统中各个服务器的运行及存储情况,由于人工检查不可能实现实时检查,服务器很可能由于1阻塞而发生宕机或死机,因此Lustre文件系统的稳定性较差。

【发明内容】

[0005]本发明提供一种监控Lustre文件系统的装置、方法及系统,能够提高Lustre文件系统的稳定性。
[0006]本发明实施例提供了一种监控Lustre文件系统的装置,包括:Lustre监控工具LMT、报警模块及至少两个RPM监控包;
[0007]所述至少两个RPM监控包中的第一 RPM监控包,与所述Lustre文件系统中的元数据服务器MDS相连,用于采集所述MDS对应的元数据存储节点MDT的1吞吐量;
[0008]所述至少两个RPM监控包中的第二 RPM监控包,与所述Lustre文件系统中的存储数据服务器OSS相连,用于采集所述OSS对应的存储数据存储节点OST的1吞吐量;
[0009]所述LMT布置于监控服务器中,与所述各个RPM监控包相连接,用于根据所述RPM监控包采集到的1吞吐量,判断MDT及OST的1吞吐量是否在安全水平,如果超出安全水平,向报警模块发送报警命令;
[0010]所述报警模块,与所述LMT相连,用于接收到所述LMT的报警命令后,进行报警。
[0011]优选地,该装置进一步包括:配置窗口模块;
[0012]所述配置窗口模块,与所述LMT相连,用于以窗口的形式向用户展示可供选择的监控对象MDT和0ST,接收到用户选择的监控对象标识及各个监控对象对应的安全阈值信息后,将所述被选择的监控对象的标识及各自对应的安全阈值信息发送给所述LMT。
[0013]优选地,所述LMT,用于接收到所述配置窗口模块发送来的被选择的监控对象的标识及各自对应的安全阈值信息后,将被选择的监控对象标识发送给所述RPM监控包。
[0014]优选地,所述RPM监控包,用于根据所述被选择的监控对象的标识,对各个被选择的监控对象的1吞吐量进行采集,并将所述1吞吐量数据发送给所述LMT。
[0015]优选地,所述LMT,进一步用于比较所述RPM发送来的1吞吐量数据与所述配置窗口模块发送来的安全阈值信息,判断所述1吞吐量是否超过对应的安全阈值,如果超过则向所述报警模块发送报警命令。
[0016]优选地,所述第一 RPM监控包,用于采集所述MDS的数据传递和文件系统的命令接收情况的运行信息;
[0017]所述第二 RPM监控包,用于采集所述OSS的文件I/O操作及文件系统数据维护情况的运行信息;
[0018]所述LMT,用于根据所述第一 RPM监控包和第二 RPM监控包采集到的MDS及OSS的运行信息,判断所述MDS及OSS的运行是否正常,如果不正常,向所述报警模块发送报警命令。
[0019]优选地,该装置进一步包括:记录模块;
[0020]所述记录模块,与所述LMT相连,用于记录MDS和OSS的异常运行信息及各个OST及MDT的1吞吐量信息,并形成记录文件。
[0021]优选地,所述LMT,对所述文件系统的监控处于资源级别。
[0022]本发明实施例还提供了一种监控Lustre文件系统的方法,包括:
[0023]第一 RPM监控包采集Lustre文件系统中MDS对应的MDT的1吞吐量;
[0024]第二 RPM监控包采集所述Lustre文件系统中OSS对应的OST的1吞吐量;
[0025]LMT根据所述第一RPM监控包和第二RPM监控包各自采集到的1吞吐量,判断MDT及OST的1吞吐量是否在安全水平;
[0026]根据所述LMT的判断结果,如果超出安全水平,向报警模块发送报警命令;
[0027]报警模块接收到所述LMT发送的报警命令后,进行报警。
[0028]优选地,在所述第一 RPM监控包采集Lustre文件系统中MDS对应的MDT的1吞吐量之前进一步包括:
[0029]以窗口的形式向用户展示可供选择的监控对象MDT和0ST,接收到用户选择的监控对象标识及各个监控对象对应的安全阈值信息后,将所述被选择的监控对象的标识及各自对应的安全阈值信息发送给所述LMT。
[0030]优选地,所述第一 RPM监控包采集Lustre文件系统中MDS对应的MDT的1吞吐量包括:所述第一 RPM监控包根据所述监控对象的标识,对用户选择的MDT的1吞吐量进行米集。
[0031]优选地,所述第二 RPM监控包采集所述Lustre文件系统中OSS对应的OST的1吞吐量包括:所述第二 RPM监控包根据所述监控对象的标识,对用户选择的OST的1吞吐量进行采集。
[0032]优选地,所述根据所述LMT的判断结果,如果超出安全水平,向报警模块发送报警命令包括:所述LMT根据各个监控对象的1吞吐量的安全阈值,判断各个MDT及OST的1吞吐量是否超过对应的安全阈值,如果超过,则向所述报警模块发送报警命令。
[0033]本发明实施例还提供了一种监控Lustre文件系统的系统,包括:MDS及对应的MDT, OSS及对应0ST,以及上述实施例所提供的任意一个监控Lustre文件系统的装置;
[0034]所述MDS,与其对应的MDT相连,用于读取所述MDT中的数据或向所述MDT中存储数据;
[0035]所述MDT,用于存储元数据信息,所述元数据信息包括所述OST中所存储文件的路径和/或访问权限;
[0036]所述OSS,与其对应的OST相连,用于根据所述MDS发来的路径将对应的文件存储到所述OST中或根据所述MDS发来的路径读取OST中存储的对应文件;
[0037]所述0ST,用于存储文件。
[0038]本发明实施例提供了一种监控Lustre文件系统的装置、方法及系统,由RPM监控包采集Lustre文件系统中元数据存储节点MDT和存储数据存储节点OST的1吞吐量数据,LMT根据RPM监控包采集到的1吞吐量,判断对应的存储节点的1吞吐量是否超出安全水平,如果超出,则向报警模块发送报警命令,报警模块进行报警,通过这种装置,当Lustre文件系统中存储节点的1吞吐量超过安全水平后,自动报警,系统管理员可以及时
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1