面向大数据平台的Ceph分布式存储监控与调优管理系统的制作方法

文档序号:16630073发布日期:2019-01-16 06:29阅读:172来源:国知局
面向大数据平台的Ceph分布式存储监控与调优管理系统的制作方法

本发明属于云存储技术领域,具体涉及一种面向大数据平台的ceph分布式存储监控与调优管理系统,其重点解决ceph分布式存储系统监控及管理操作复杂及决策数据资源难以挖掘的问题。



背景技术:

ceph是一种现在广泛使用的分布式存储系统,其具有高扩展性、高可靠性、高性能、多副本的特点。ceph集群部署后的运行维护是其推广应用的一大难点,因为其管理维护需通过大量、复杂的命令行实现,对一般信息系统运维人员或使用单位的系统管理员来说,需要接受一段时间的专门培训才能够掌握,技术门槛较高,运行维护成本较高。同时,ceph官方提供的集群运行状态监控命令会产生海量的状态数据,专业领域内的技术人员也需要花大量时间阅读才能分析出集群的运行状态,缺乏直观的状态信息展示,也缺少历史数据的留存,难以形成统计分析数据,更难以与用户单位既有的大数据平台进行接入融合,无法实现业务统一监控管理。

以上两个方面都制约了ceph分布式存储系统在生产环境的推广应用。因此,有必要构建一种面向大数据平台的ceph分布式存储监控管理系统来解决上述问题。



技术实现要素:

(一)要解决的技术问题

本发明要解决的技术问题是:如何提供一种面向大数据平台的ceph分布式存储监控管理系统,以降低技术门槛,提升数据融合效率,实现对分布式存储的全面、便利、高效的监控及管理工作。

(二)技术方案

为解决上述技术问题,本发明提供一种面向大数据平台的ceph分布式存储监控与调优管理系统,所述系统包括:运行监控管理数据库、监控管理模块、状态告警模块、告警状态规则预设模块、性能调优模块、配置管理模块;

所述运行监控管理数据库用于通过数据提取接口提取ceph分布式存储集群的运行状态数据,存储形成数据库,为集群的监控告警及性能调优提供数据支撑;

所述监控管理模块用于通过对运行监控管理数据库中的运行状态数据进行读取分析,对ceph分布式存储集群健康状态进行实时监控,提取代表ceph分布式存储集群健康情况的参数集合,根据所提取的参数集合生成运行监控状态数据,并发送至状态告警模块;

所述告警状态规则预设模块用于针对代表ceph分布式存储集群健康情况的参数,确定其正常状态下的上下阈值范围;

所述状态告警模块用于接收监控管理模块生成的运行监控状态数据,对运行监控状态数据进行分析,将当前的代表ceph分布式存储集群健康情况的参数与告警状态规则预设模块预设的上下阈值范围进行匹配,一旦超过上下阈值范围则触发告警,生成告警信息并通过restful接口提交至大数据平台进行统一的告警,并提供该告警对应的应急处理措施提示;

所述性能调优模块用于通过选取不同节点数、用户规模的ceph分布式存储集群进行部署实施,针对osd_max_write_size、osd_map_cache_size参数形成预制的ceph分布式存储集群性能调优模板库,在ceph分布式存储集群部署初期根据预制的ceph分布式存储集群性能调优模板库进行模板配置,对ceph分布式存储集群性能优化涉及到的osd_max_write_size、osd_map_cache_size参数在合理化范围内进行确定,生成初始调优指令至配置管理模块;在ceph分布式存储集群运行一段时间后,性能调优模块通过对来自监控管理模块的运行监控状态参数进行计算分析,对ceph分布式存储集群性能调优模板库中的osd_max_write_size、osd_map_cache_size参数的具体值,根据运行监控状态参数所反应的当前ceph分布式存储集群的情况进行调整,调整后生成更新的调优指令至配置管理模块;

所述配置管理模块用于接收来自性能调优模块的初始调优指令或更新的调优指令,根据调优指令进行相关参数的下发及配置;

其中,向大数据平台的ceph分布式存储监控与调优管理系统,其特征在于,所述配置管理模块还用于通过人机交互接口接收外部指令来对ceph分布式存储集群进行读操作、写操作、控制osd是否加入ceph分布式存储集群的处理。

其中,所述运行状态数据包括pg数量、osd运行状态数据。

其中,所述运行状态数据包括osd_max_write_size参数当前值、osd_map_cache_size参数当前值。

其中,所述代表ceph分布式存储集群健康情况的参数包括:pgsperosd、osd是否存储将满状态参数。

其中,所述监控管理模块还用于通过restful接口将运行监控状态数据提交给大数据平台进行进一步的数据挖掘处理及数据展示。

(三)有益效果

与现有技术相比较,本发明能够实现对ceph分布式存储系统的高效、低成本、统一的运维管理,显著提升系统的运维管理效率,有效降低ceph分布式存储系统在生产环境中部署应用的技术门槛,有利于系统的大规模推广应用。

附图说明

图1是本发明一个实施例所述的系统逻辑架构图;

图2是本发明一个实施例所述的监控告警流程图;

图3是本发明一个实施例所述的性能调优流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

为了叙述方便,首先结合图1对本发明用到的一些术语进行必要的定义和说明。

cephosd(对象存储设备节点):全称为objectstoragedevice,它主要的功能是存储数据、复制数据、平衡数据、恢复数据、与其它osd间进行心跳检查等,并将一些变化情况上报给cephmonitor。

cephmonitor(集群监控节点):它是ceph集群的监视器,用于维护集群的健康状态,同时维护着ceph集群中的各种map图,如osdmap、monitormap、pgmap和crushmap,这些map统称为clustermap,用于管理集群中的所有成员、关系、属性等信息以及数据的分发等。

pg:归置组,ceph的逻辑存储单元。

osd_max_write_size:osd一次可写入的最大值(mb)。

osd_map_cache_size:保留osdmap的缓存大小(mb)。

pgsperosd:单个osd中的pg数量。

为解决现有技术的问题,本发明提供一种面向大数据平台的ceph分布式存储监控与调优管理系统,如图1所示,所述系统包括:运行监控管理数据库、监控管理模块、状态告警模块、告警状态规则预设模块、性能调优模块、配置管理模块;

所述运行监控管理数据库作为整套系统的基础支撑,用于通过数据提取接口提取ceph分布式存储集群的运行状态数据,存储形成数据库,为集群的监控告警及性能调优提供准确数据支撑;

所述监控管理模块用于通过对运行监控管理数据库中的运行状态数据进行读取分析,对ceph分布式存储集群健康状态进行实时监控,提取代表ceph分布式存储集群健康情况的参数集合,根据所提取的参数集合生成运行监控状态数据,并发送至状态告警模块;

所述告警状态规则预设模块用于针对代表ceph分布式存储集群健康情况的参数,确定其正常状态下的上下阈值范围;

所述状态告警模块用于接收监控管理模块生成的运行监控状态数据,对运行监控状态数据进行分析,将当前的代表ceph分布式存储集群健康情况的参数与告警状态规则预设模块预设的上下阈值范围进行匹配,一旦超过上下阈值范围则触发告警,生成告警信息并通过restful接口迅速提交至大数据平台进行统一的告警,并提供该告警对应的应急处理措施提示;

所述性能调优模块用于通过选取不同节点数、用户规模的ceph分布式存储集群进行部署实施,针对osd_max_write_size、osd_map_cache_size参数形成预制的ceph分布式存储集群性能调优模板库,在ceph分布式存储集群部署初期根据预制的ceph分布式存储集群性能调优模板库进行模板配置,对ceph分布式存储集群性能优化涉及到的osd_max_write_size、osd_map_cache_size参数在合理化范围内进行确定,生成初始调优指令至配置管理模块;在ceph分布式存储集群运行一段时间后,性能调优模块通过对来自监控管理模块的运行监控状态参数进行计算分析,对ceph分布式存储集群性能调优模板库中的osd_max_write_size、osd_map_cache_size参数的具体值,根据运行监控状态参数所反应的当前ceph分布式存储集群的情况进行调整,调整后生成更新的调优指令至配置管理模块;

所述配置管理模块用于接收来自性能调优模块的初始调优指令或更新的调优指令,根据调优指令进行相关参数的下发及配置;

其中,所述配置管理模块还用于通过人机交互接口接收外部指令来对ceph分布式存储集群进行读操作、写操作、控制osd是否加入ceph分布式存储集群的处理。

通过上述系统的技术方案,可实现对ceph分布式存储系统的便利、高效、统一监控与管理,以可视化的管理界面、图形化的信息展示、一体化的运维管理,显著提升运维监管效率,全面满足系统在生产环境的实际管理维护需求。

其中,所述运行状态数据包括pg数量、osd运行状态数据。

其中,所述运行状态数据包括osd_max_write_size参数当前值、osd_map_cache_size参数当前值。

其中,所述代表ceph分布式存储集群健康情况的参数包括:pgsperosd、osd是否存储将满状态参数。

其中,所述监控管理模块还用于通过restful接口将运行监控状态数据提交给大数据平台进行进一步的数据挖掘处理及数据展示。

此外,本发明还提供一种面向大数据平台的ceph分布式存储监控与调优管理方法,所述ceph分布式存储监控与调优管理方法基于ceph分布式存储监控与调优管理方系统来实施,所述系统包括:运行监控管理数据库、监控管理模块、状态告警模块、告警状态规则预设模块、性能调优模块、配置管理模块;

所述方法包括如下步骤:

步骤1:所述性能调优模块通过选取不同节点数、用户规模的ceph分布式存储集群进行部署实施,针对osd_max_write_size、osd_map_cache_size参数形成预制的ceph分布式存储集群性能调优模板库,在ceph分布式存储集群部署初期根据预制的ceph分布式存储集群性能调优模板库进行模板配置,对ceph分布式存储集群性能优化涉及到的osd_max_write_size、osd_map_cache_size参数在合理化范围内进行确定,生成初始调优指令至配置管理模块;

步骤2:所述配置管理模块接收来自性能调优模块的初始调优指令,根据调优指令进行相关参数的下发及配置;

步骤3:所述告警状态规则预设模块针对代表ceph分布式存储集群健康情况的参数,确定其正常状态下的上下阈值范围;

步骤4:所述运行监控管理数据库作为整套系统的基础支撑,通过数据提取接口提取ceph分布式存储集群的运行状态数据,存储形成数据库,为集群的监控告警及性能调优提供准确数据支撑;

步骤5:所述监控管理模块通过对运行监控管理数据库中的运行状态数据进行读取分析,对ceph分布式存储集群健康状态进行实时监控,提取代表ceph分布式存储集群健康情况的参数集合,根据所提取的参数集合生成运行监控状态数据,并发送至状态告警模块;

步骤6:所述状态告警模块接收监控管理模块生成的运行监控状态数据,对运行监控状态数据进行分析,将当前的代表ceph分布式存储集群健康情况的参数与告警状态规则预设模块预设的上下阈值范围进行匹配,一旦超过上下阈值范围则触发告警,生成告警信息并通过restful接口迅速提交至大数据平台进行统一的告警,并提供该告警对应的应急处理措施提示;

步骤7:在ceph分布式存储集群运行一段时间后,性能调优模块通过对来自监控管理模块的运行监控状态参数进行计算分析,对ceph分布式存储集群性能调优模板库中的osd_max_write_size、osd_map_cache_size参数的具体值,根据运行监控状态参数所反应的当前ceph分布式存储集群的情况进行调整,调整后生成更新的调优指令至配置管理模块;

步骤8:所述配置管理模块接收来自性能调优模块的更新的调优指令,根据调优指令进行相关参数的下发及配置。

通过上述系统的技术方案,可实现对ceph分布式存储系统的便利、高效、统一监控与管理,以可视化的管理界面、图形化的信息展示、一体化的运维管理,显著提升运维监管效率,全面满足系统在生产环境的实际管理维护需求。

其中,所述步骤2及步骤8中,配置管理模块还通过人机交互接口接收外部指令来对ceph分布式存储集群进行读操作、写操作、控制osd是否加入ceph分布式存储集群的处理。

其中,所述运行状态数据包括pg数量、osd运行状态数据。

其中,所述运行状态数据包括osd_max_write_size参数当前值、osd_map_cache_size参数当前值。

其中,所述代表ceph分布式存储集群健康情况的参数包括:pgsperosd、osd是否存储将满状态参数。

其中,所述步骤5中,监控管理模块还通过restful接口将运行监控状态数据提交给大数据平台进行进一步的数据挖掘处理及数据展示。

实施例1

监控告警实施例

如图2所示,本实施例为本发明提出ceph分布式存储监控调优管理系统的监控告警工作流程:

步骤1:选取监控管理节点进行系统部署。部署后的系统将能够抓取ceph集群运行数据及状态信息;

步骤2:集群的配置信息及状态信息都存储于运行监控管理数据库中;

步骤3:监控管理模块对数据库中的数据进行计算分析,以获得ceph集群的运行状态,并提供给大数据平台中统一的数据挖掘模块及数据展示模块,用于为用户提供统一的数据分析及高质量的数据展示;

步骤4:状态告警模块负责对监控管理模块分析的数据进行进一步的匹配计算,对告警情况向大数据平台上报的同时,将应急处理措施提交给配置管理模块;

步骤5:配置管理模块对告警模块提交的应急处理配置进行下发,对分布式存储集群进行紧急修复,并将相应处理信息存入运行监控管理数据库。

实施例2

性能调优实施例

如图3所示,本实施例为本发明提出ceph分布式存储监控调优管理系统的性能调优工作流程:

步骤1:选取监控管理节点进行系统部署。部署后的系统将能够抓取ceph集群运行数据及状态信息;

步骤2:集群的配置信息及状态信息都存储于监控管理数据库中;监控管理模块对数据库中的数据进行计算分析,生成运行监控管理数据;

步骤3:性能调优模块通过对运行监控管理数据进行综合计算分析,得出当前集群在pg数等具体参数上的配置最优方案,并生成调优模板,提交至配置管理模块;

步骤4:配置管理模块接收到模板后,对模板内各参数信息进行提取,并下发至分布式存储集群进行调优,同时将对应参数数据存入运行监控管理数据库。

其中,所有状态展示、配置操作、告警提示、调优选择等工作均由大数据平台通过统一接口统一对用户提供服务。

其中,调优模板库及告警规则库均可进行扩展,对模板库及规则库均由大数据平台对外提供统一的升级维护接口。

其中,性能调优特指对ceph集群的特定配置参数进行调整优化,不针对物理存储设备的性能优化。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1