一种自动巡检检测大规模离线归档系统可靠性的方法与流程

文档序号:15076545发布日期:2018-08-01 01:52阅读:155来源:国知局

本发明属于计算机存储技术领域,涉及一种服务器集群和离线归档技术,具体涉及一种自动巡检检测大规模离线归档系统可靠性的方法,适用于大规模离线归档的场景。



背景技术:

在互联网、物联网、云计算和大数据等快速发展的大环境下,企业每天会产生tb级甚至更大规模的需要归档的数据。由于在很多场景下需要对历史归档数据做在线或离线分析,传统的磁带归档方式无法满足性能的要求。因此,使用磁盘替换磁带成了一种更好的方案,为了尽可能减小大规模物理设备长期运行时导致的高功耗问题,目前业内已经提出了可控制设备上下电和控制磁盘是否工作的节电技术(如,maid等)。控制设备上下电技术可通过硬件控制物理设备开机和关机,可实现远程控制和无人值守,方便对物理设备进行节电控制,但控制范围为单一物理节点,并不能进行整个集群的节电管理;maid技术可控制磁盘的工作时间,使磁盘只有在需要的时候才上电工作,其他时间可处于断电状态,达到省电的目的,但此技术只能对磁盘进行控制,同样不能对整个集群进行节电控制。由于归档系统庞大,且数据需保持的时间久,如何在尽可能节能的前提下持续的保证物理设备和已归档数据的可靠性成为保证系统长期正常运转所必须要考虑的问题。为解决这一问题,我们提出了一种自动巡检的方法来周期性检查硬件设备和归档数据,从而及早发现设备和数据异常,提醒修复系统。对于归档系统,需确保系统整体可以长期正常运转和保证长期归档的数据的可靠性。而对于大规模离线归档系统,节能成为了一个构建系统时必须要考虑的问题。特别对于主要由磁盘介质组成的大规模离线归档系统,一般需要结合服务器、网络设备和磁盘等的上下电控制技术来达到整体的节能减耗要求。方法与传统的节电技术结合,维护了全局上下电信息,并尽可能减少额外的设备上下电操作,有效保证了系统原有的节电特性。



技术实现要素:

本发明要解决的技术问题是:如何在尽可能保证系统节能减耗的前提下检测系统是否长期正常运转和检测数据的可靠性。

为解决上述技术问题,本发明提供了一种自动巡检检测大规模离线归档系统可靠性的方法,采用自动巡检的方式来周期性扫描系统硬件设备和归档数据,并尽可能减少额外的设备上下电操作,以尽可能保持系统原有的能耗要求。

本发明提供的一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于,在大型离线归档系统之上添加了能耗感知模块和检测模块;所述能耗感知模块维护能耗感知表,记录物理设备的上下电状态,为整个集群的上下电调度提供依据;所述检测模块维护扫描历史表,记录物理设备和数据的扫描历史,为制定扫描计划提供支持,并在数据完整性、数据一致性以及通路可用性三个方面对系统进行周期性检查。

具体的,所述能耗感知模块记录物理设备的上下电状态并将相关信息记录在能耗感知表中;物理设备通过网络将自己的上下电状态变更通知能耗感知模块,能耗感知模块将物理设备的上下电状态记录到能耗感知表中;能耗感知表中维护所有物理设备的当前上下电状态以及最后一次状态变更的时间,对全局节电策略提供支持。

具体的,所述检测模块周期性检测物理设备,并检查通路可用性、数据完整性和一致性;检测模块通过心跳周期性扫描集群环境中的所有物理设备,包括交换机、元数据服务器和数据服务器;验证通路是否可用,并对于处于工作状态的数据服务器进行数据完整性和一致性检查,将检查的结果记录在扫描历史表中。

具体的,所述数据完整性检查指的是检查元数据服务器中记录的数据是否依然保存在数据服务器中;所述数据一致性检查指的是检查元数据服务器中记录的数据是否损坏或被篡改;所述通路可用性检查指的是周期性扫描网络和硬件,检测交换设备、存储设备等物理设备是否可连通。

具体的,所述能耗感知表中包含物理设备编号、设备类型、上下电状态、最近状态切换时间信息。

具体的,所述扫描历史表中包含物理设备编号、设备类型、是否连通、最近扫描时间、数据正确性、正确性详情、数据一致性、一致性详情信息。

具体的,所述检测物理设备的过程步骤如下:

步骤一、预设物理设备的检测周期tdetect,检测对象包括服务器、交换机和网络;

步骤二、为每台服务器安装扫描终端软件并随服务器一起启动;

步骤三、根据扫描历史表向当前处于工作状态的服务器发送心跳探测,探测信号中携带路由信息;

步骤四、根据返回信号判断服务器是否可用,以及网络设备的连通性;

步骤五、对于长期处于非工作状态的服务器,若超过了预设的最长未检测时间tmax,则检测模块将其启动,检测服务器是否可以正常提供服务。

具体的,检测模块根据检测周期tdetect检查数据服务器中的归档数据的完整性和一致性;检查方式为优先扫描处于工作状态的数据服务器;如果某数据服务器超过最长未检测时间tmax没有处于工作状态,则启动该服务器进行数据扫描。

具体的,完整性检查过程步骤如下:

步骤一、检测模块确定需要扫描数据的服务器;

步骤二、查询对应的元数据服务器;

步骤三、确定数据服务器上存放了哪些数据,与元数据服务器的扫描结果做对比;

步骤四、若元数据服务器中记录的数据在数据服务器中都能找到,则认为数据是完整的。

具体的,一致性检查过程步骤如下:

步骤一、检测模块确定需要扫描数据的服务器;

步骤二、查询对应的元数据服务器;

步骤三、查询元数据服务器,将元数据服务器中记录的数据的长度与数据服务器中数据的长度进行对比;

步骤四、若长度一致,则认为数据是一致的。

本发明的优点与积极效果在于:

(1)可实时维护集群中所有物理设备的上下电状态信息,为整个集群的上下电优化控制提供依据。

(2)对数据服务器中数据的完整性和一致性进行周期性检查,及时发现集群中不完整或者不一致的数据。

(3)周期性检查交换机、服务器等硬件的可用性和网络的连通性,及早发现物理设备的问题。

附图说明

图1是本发明系统结构图;

图2是能耗感知表;

图3是物理设备检测图;

图4是扫描历史表。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提供了一种自动巡检检测大规模离线归档系统可靠性的方法,用于解决在尽可能保证系统节能减耗的前提下检测系统长期正常运转和检测数据可靠性的问题。本发明所采用的技术主要是:在大型离线归档系统之上添加能耗感知模块和检测模块。能耗感知模块维护能耗感知表,记录物理设备的上下电状态(物理设备可以是服务器,也可以是磁盘等存储设备),为整个集群的上下电调度提供依据,可更好的支持整个集群的节电控制;检测模块维护扫描历史表,记录物理设备和数据的扫描历史,为制定扫描计划提供支持,并在数据完整性、数据一致性以及通路可用性等三个方面对系统进行周期性检查。

能耗感知模块记录物理设备的上下电状态并将相关信息记录在能耗感知表中。物理设备通过网络将自己的上下电状态变更通知能耗感知模块,能耗感知模块将物理设备的上下电状态记录到能耗感知表中。能耗感知表中维护所有物理设备的当前上下电状态以及最后一次状态变更的时间等,可对全局节电策略提供支持。

如图1所示,为本发明的系统结构图,系统在大型离线归档系统之上添加了能耗感知模块和检测模块。能耗感知模块主要维护能耗感知表,记录物理设备的上下电情况。假设数据服务器1当前被设置为工作状态,其余数据服务器设置为非工作状态。能耗感知模块记录下当前服务器状态变更以后通知检测模块集群物理设备的能耗状态有变化。检测模块根据预设的检测周期tdetect确定是否启动物理设备上的数据检查。如果需要启动,则对数据服务器1中保存的数据进行扫描。同时将扫描历史记录到扫描历史表。扫描历史表中会记录每次扫描的物理设备编号、扫描时间以及状态等。如果检查发现数据正确性或一致性有问题,则将详情信息记录在扫描历史表中,便于后续对整个集群中的数据状态进行跟踪。

集群中可能会有数据服务器长时间处于非工作状态,能耗感知模块对设备的最长未检测时间有一个限制tmax(tmax可配置),如果数据服务器的未检测周期超过tmax,则将数据服务器上电,将其转换为工作状态,并对其上的数据进行扫描,扫描完成后将其下电。

如图2所示,为本发明的能耗感知表,用于记录物理设备的上下电状态,表中主要包含物理设备编号、设备类型、上下电状态、最近状态切换时间等信息。

物理设备编号:集群环境中所有物理硬件设备的全局编号,用于识别物理设备,取值为字符串。

设备类型:物理设备的分类,包括计算服务器、元数据服务器、数据服务器、交换机等,取值为字符串。

上下电状态:用于描述物理设备处于工作状态还是断电状态,on表示工作状态,off表示断电状态,取值为on或者off,类型为字符串。

最近状态切换时间:描述最近一次上下电状态变动的时间,例如设备0当前状态为on,被设置为on的时间为2016/12/1112:22:32,取值为字符串。

如图3所示,为本发明的物理设备检测图,包括如下步骤:

步骤一、预设物理设备的检测周期tdetect,检测对象主要包括服务器、交换机和网络等;

步骤二、为每台服务器安装扫描终端软件并随服务器一起启动;

步骤三、根据扫描历史表向当前处于工作状态的服务器发送心跳探测,探测信号中携带路由信息;

步骤四、根据返回信号判断服务器是否可用,以及网络设备的连通性;

步骤五、对于长期处于非工作状态的服务器,若超过了预设的最长未检测时间tmax,则检测模块将其启动,检测服务器是否可以正常提供服务。

如图4所示,为本发明的扫描历史表,用于记录物理设备和数据的扫描历史,表中主要包含物理设备编号、设备类型、是否连通、最近扫描时间、数据正确性、正确性详情、数据一致性、一致性详情等信息。

物理设备编号:集群环境中所有物理硬件设备的全局编号,用于识别物理设备,取值为整数。

设备类型:物理设备的分类,包括计算服务器、元数据服务器、数据服务器、交换机等,取值为字符串。

是否连通:表示物理设备当前是否可以从网络正常访问,y表示可以,n表示不可以,类型为字符串。

最近扫描时间:表示物理设备最近一次被扫描的时间,类型为字符串。

数据正确性:表示存储设备中存储的数据是否正确,y表示正确,n表示不正确,非数据服务器为空,类型为字符串。

正确性详情:对于数据正确的数据服务器,描述扫描过的数据并进行备注;对于数据不正确的数据服务器,描述不正确的数据信息并给出备注。类型为字符串。

数据一致性:表示存储设备中存储的数据是否一致,y表示一致,n表示不一致,非数据服务器为空,类型为字符串。

一致性详情:描述哪些数据处于一致性状态,哪些数据处于不一致状态,非数据服务器为空,类型为字符串。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1