一种Parastor200并行存储运行环境问题检查方法与流程

文档序号:12005270阅读:291来源:国知局
本发明涉及一种Parastor200并行存储运行环境问题检查方法。

背景技术:
ParaStor200并行存储系统采用了代表存储技术、网络通信技术以及数据管理技术发展方向的并行体系架构,是一款面向海量非结构化数据处理、拥有自主知识产权的高端存储系统。它可以提供TB/s级的高速带宽和EB级的海量存储空间,能够满足飞机汽车船舶设计、生物基因研究、材料科学研究、天气预报、地震监测、环境监测分析、能源勘探、电子商务、网络游戏、社交与视频分享网站建设、动漫渲染、视频编辑处理等领域中对于存储容量和I/O性能要求极高的应用,可广泛应用于政府、教育、科研、制造、企业、医疗、石油、广电、互联网等行业。MGR表示Parastor200的管理节点,提供统一的控制管理界面,管理员通过该节点管理整个存储系统。oPara表示Parastor200元数据节点,用于管理存储系统的所有索引数据和命名空间,对外提供单一的全局映像,支持多个节点以Active-Active集群模式工作。oStor表示Parastor200数据节点,用于提供数据存储空间,内嵌高性能数据存取引擎,并行处理所有客户端的数据访问请求,支持多个oStor以副本方式(1-3个副本)容错。BMC表示底板管理控制器(Baseboardmanagementcontroller),是主板上的微控制器。Parastor200并行存储在硬件上由管理节点、元数据节点、数据节点、及网络设备等部件组成,由于涉及部件较多,无疑引入了比较多的故障点,而系统运行环境的问题经常会导致存储系统的故障。目前,Parastor存储监控主要通过管理界面查看,能够查看Parastor系统各节点的服务运行状态、实时的IO统计、客户端授权信息等。目前当系统运行环境出现问题时,我们还难以通过管理界面所呈现的信息来进行诊断。同样的现象可能背后有很多不同的诱因,所以有必要对系统运行环境做更细粒度的检查。Parastor200并行存储系统有一定的复杂度,当出现问题时,技术水平一般的现场工程师难以对这些问题进行处理,这时候就需要总部工程师通过电话等方式对现场工程师进行远程指导处理。然而当现场工程师对Parastor缺乏了解,无法对问题做准确的描述时,还需要总部工程师详细的告诉现场工程师做各种现场测试或者是如何截取某部分日志信息发给总部工程师进行诊断。这耽误了大量的时间。

技术实现要素:
针对现有技术的不足,本发明提供一种Parastor200并行存储运行环境问题检查方法。本方法使存储系统debug流程变得非常清晰简单,即使是对Parastor200存储系统完全不了解的工程师也可以到现场处理问题。即便出现现场工程师无法判断的问题,也能够很快的收集到有用的信息供远程的总部工程师分析。本发明的目的是采用下述技术方案实现的:一种Parastor200并行存储运行环境问题检查方法,其改进之处在于,所述方法通过将Parastor200故障检查流程程序化来实现;包括下述步骤:A、检查存储节点网络是否正常,判断是否有丢包现象;B、检查存储节点是否有坏盘和磁盘变成readonly(只读)现象;C、检查存储节点的存储系统服务是否正常;D、检查存储节点时间是否同步;E、触发存储系统信息收集进程收集信息。其中,所述步骤A中,通过flushping检查各存储节点网络是否正常,判断是否有丢包现象:如果无丢包现象则通过,有丢包则报告丢包节点,并提示现场工程师检查该节点并处理,然后再查,直到无丢包现象。其中,所述步骤B中,通过Parastor200管理工具检查是否有坏盘和磁盘变成readonly(只读)现象;如果有有坏盘和磁盘变成readonly(只读)现象,则定位到具体的盘,提示现场工程师进行处理;如果没有则通过。其中,所述步骤C中,通过Parastor200管理工具检查各个存储节点存储系统服务是否正常;如果正常则通过,如果某个节点的存储系统服务出现故障,则提示现场工程师手动启动该节点服务,并触发信息收集程序收集信息供总部工程师进一步检查诱因。其中,所述步骤D中,如果存储节点存储系统服务没有问题,然后检查存储节点时间是否同步;如果同步则通过,并告知现场工程师;如果不同步则检查管理节点时间服务器是否运行正常;如果时间服务器正常,则让各个节点和时间服务器同步时间,同步之后再查,如果时间仍不同步,则让现场工程师检查不同步节点。其中,所述步骤E中,如果存储节点时间同步之后,存储系统仍有故障,则触发存储系统信息收集进程收集日志信息;将收集的日志信息打包压缩,由现场工程师发送给总部工程师进行分析。其中,收集的信息包括:1)Parastor200存储系统配置信息;2)Parastor200存储系统日志,包括管理节点心跳日志、元数据节点日志、数据节点日志和客户端节点日志;3)Parastor200存储管理节点、元数据节点、数据节点、客户端的操作系统日志;4)通过主板bmc芯片获取系统硬件日志;5)时间同步情况、网络状况的检查结果;6)hosts表信息。与现有技术比,本发明达到的有益效果是:本发明提供的Parastor200并行存储运行环境问题检查方法,使存储系统debug流程变得非常清晰简单,即使是对Parastor200存储系统完全不了解的工程师也可以到现场处理问题。即便出现现场工程师无法判断的问题,也能够很快的收集到有用的信息供远程的总部工程师分析。具体实施方式下面对本发明的具体实施方式作进一步的详细说明。本发明主要解决的问题是收集系统运行环境信息,并对简单问题作出初步判断和给出建议,对复杂问题则打包收集到的信息;这样现场工程师可以将这些信息发送给总部工程师等待问题诊断结果。一般情况下,通过这些信息都能够判断问题所在。本发明提供的Parastor200并行存储运行环境问题检查方法包括下述步骤:A、首先,本专利程序通过flushping检查各存储节点网络是否正常,是否有丢包现象。如果无丢包现象则通过,有丢包则报告丢包节点,并提示现场工程师检查该节点并处理,然后再查,直到无丢包现象。B、其次,通过Parastor200管理工具检查是否有坏盘和磁盘变成readonly现象。如果有则定位到具体的盘,提示现场工程师进行处理。如果没有则通过。C、然后,通过Parastor200管理工具检查各个节点存储系统服务是否正常。如果正常则通过,如果某个节点的存储系统服务出现故障,则提示现场工程师手动启动该节点服务,并将触发信息收集程序收集相关信息供总部工程师进一步检查诱因。D、如果存储系统服务没有问题,然后检查存储节点时间是否同步,如果同步则通过,并告知现场工程师,如果不同步则检查管理节点时间服务器是否运行正常,如果时间服务器正常,则让各个节点和时间服务器同步时间,同步之后再查,如果时间仍然不同步,则让现场工程师检查不同步的节点的问题。E、如果时间同步之后,系统仍然有故障,则触发系统信息收集进程,收集的信息包括:1)Parastor200存储系统配置信息;2)Parastor200存储系统日志,包括管理节点心跳日志、元数据节点日志、数据节点日志、客户端节点日志;3)Parastor200存储管理节点、元数据节点、数据节点、客户端的操作系统日志;4)通过主板bmc芯片获取系统硬件日志;5)时间同步情况、网络状况等的检查结果;6)hosts表信息。收集到这些日志后对他们进行打包压缩。由现场工程师发送给总部工程师进行分析。最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1