一种高可用的超融合集群监控方法和系统与流程

文档序号：33392439发布日期：2023-03-08 11:38阅读：39来源：国知局

1.本技术涉及服务器集群技术领域，特别是涉及一种高可用的超融合集群监控方法和系统。

背景技术：

2.超融合集群中的监控和/或报警功能是一种能够采集集群状态数据、对外提供监控数据查询和/或发送报警。超融合集群监控的实现需要具备以下功能：采集集群内所有节点的各项监控指标(包括资源利用率、服务运行状态、集群性能指标等)，对外提供监控数据查询，并根据预设的报警规则，触发报警等，通过多种形式发送到对应的目标用户。
3.现有的超融合集群监控系统功能的实现上主要存在以下几个方面问题：
4.第一，监控服务直接部署在超融合集群节点上时，无法将监控服务与超融合集群软件隔离，导致当cpu、内存、磁盘、网络带宽等资源紧张时影响超融合软件自身的稳定性；无法按需配置集群监控需要的存储、计算资源，若集群上所有节点均部署监控服务，将造成资源冗余，并且无法保证多节点上监控数据一致性。
5.第二，监控服务部署直接在超融合集群节点上时，若此节点发生导致数据丢失的严重故障，则集群整体的监控数据也将丢失，由于集群监控服务运行在单节点上，当此节点发生异常整体不可用时，监控服务也将不可用，导致超融合集群的监控功能不稳定。
6.第三，监控数据直接从集群的节点获取时，当需要更改监控数据来源时或者监控数据的提供端变动时，对应的监控服务也需要进行更改适配，不同组件耦合度较高，
7.第四，实际应用中用户往往具有多种监控数据查询和/或报警接收需求，而当前的实现往往只能以固定的方式查询、接收报警，集群监控的数据查询和/或报警不够灵活。

技术实现要素：

8.为了解决现有技术中在集群节点上直接部署监控服务，使得无法按需按需配置监控服务需要的存储、计算资源导致资源浪费，集群监控不稳定，监控数据的查询和/或报警业务不够灵活等问题。本技术提出了一种高可用的超融合集群监控方法和系统。具体地，本技术的第一方面提供了一种高可用的超融合集群监控方法，包括以下步骤：
9.以虚拟机的形式部署监控服务，监控服务内置于虚拟机镜像内；
10.在监控服务部署完成的情况下，按照监控策略预设对应的配置文件；
11.根据所获取的配置文件对超融合集群中的各个节点进行监控，获取监控策略对应的监控数据，并将监控数据进行聚合；
12.建立虚拟机超融合集群的通信，根据配置文件和监控数据提供对应数据查询需求和/或报警业务需求。
13.在上述第一方面的一种可能的实现中，监控服务内置于虚拟机镜像内包括：
14.构建监控服务的容器镜像；
15.在虚拟机操作系统安装完成的情况下，加载监控服务的容器镜像；
16.基于容器镜像将监控服务内置于虚拟机镜像内。
17.在上述第一方面的一种可能的实现中，以虚拟机的形式部署监控服务还包括：
18.预配置生命周期管理服务；
19.在虚拟机启动的情况下，调用生命周期管理服务来通过周期任务控制虚拟机以及虚拟机内部的容器状态。
20.在上述第一方面的一种可能的实现中，调用生命周期管理服务来通过周期任务控制虚拟机以及虚拟机内部的容器状态包括：
21.获取当前检查周期的虚拟机的实时当前状态和虚拟机期望状态；
22.基于虚拟机实时状态和虚拟机期望状态，确定当前检查周期的虚拟机操作指令，虚拟机操作指令至少包括创建虚拟机或开机虚拟机、启动容器或关机虚拟机、删除虚拟机或空值；
23.执行虚拟机指令，以控制虚拟机以及虚拟机内部的容器状态。
24.在上述第一方面的一种可能的实现中，在虚拟机操作指令为空值的情况下，等待进入下一个当前检查周期，重新确定虚拟机操作指令。
25.在上述第一方面的一种可能的实现中，按照监控策略预设对应的配置文件之后，建立监控服务与虚拟机之间的通信，还包括：
26.在超融合集群的节点上配置内部虚拟网桥，内部虚拟网桥预设静态ip；
27.通过静态ip实现部署监控服务的虚拟机与超融合集群的相关服务通信；
28.其中，虚拟机上配置有与宿主机的内部虚拟网桥对应连接的网卡。
29.在上述第一方面的一种可能的实现中，根据所获取的配置文件对超融合集群中的各个节点进行监控，获取监控策略对应的监控数据，并将监控数据进行聚合包括：
30.在超融合集群的节点设置数据采集接口，数据采集接口用于获取监控数据；
31.将配置文件注册至分布式数据库，配置文件至少包括数据采集接口、数据采集配置、报警规则；
32.根据获取接口采集监控策略对应的监控数据，并将监控数据聚合。
33.在上述第一方面的一种可能的实现中，该监控方法还包括：
34.在分布式数据库中的配置文件发生更新的情况下，以热重载的方式更新配置文件。
35.在上述第一方面的一种可能的实现中，根据配置文件和监控数据提供对应数据查询需求和/或报警业务需求包括：通过应用层协议、电子邮件系统、网页端消息显示查询和/或报警业务的结果。
36.本技术的第二方面提供了一种高可用的超融合集群监控系统，应用于如前述的高可用的超融合集群监控方法中，系统包括：
37.部署模块，用于以虚拟机的形式部署监控服务，监控服务内置于虚拟机镜像内；
38.获取模块，用于在监控服务部署完成的情况下，按照监控策略预设对应的配置文件；
39.监控模块，根据所获取的配置文件对超融合集群中的各个节点进行监控，获取监控策略对应的监控数据，并将监控数据进行聚合；
40.处理模块，用于建立虚拟机超融合集群的通信，根据配置文件和监控数据提供对
应数据查询需求和/或报警业务需求。
41.通过本技术提出的技术方案，至少具备以下有益技术效果：
42.1.以虚拟机镜像的形式快捷部署监控服务，用户只需上传虚拟机镜像文件即可一键部署监控服务；以独立监控服务虚拟机的形式实现了与超融合集群其他系统服务计算、存储、网络等资源的隔离；独立部署监控服务的虚拟机运行时，无需考虑监控服务运行在集群内的情况，当监控服出现异常需要排错时，也无需考虑之前时段集群中角色节点变更记录，降低了运维难度；
43.2.通过超融合集群提供的虚拟机高可用功能提升了监控服务稳定性,监控服务虚拟机通过状态机的形式保障虚拟机内监控相关容器的正常运行,基于通过超融合集群提供的分布式存储功能来避免监控数据丢失；
44.4.当需要修改监控数据来源时只需要修改对应的监控数据提供端对应的配置文件即可，实现集群监控与监控数据提供端的解耦；
45.5.可以按需配置多种报警的发送和监控数据的查询方式，例如通过snmp协议、邮件、web页面消息等方式发送查询结果、报警结果；
46.6.当监控服务对应的配置文件发生变动时可以通过热加载的方式应用最新的配置文件，不需要重启监控系统来避免监控数据采集中断。
附图说明
47.通过阅读参照以下附图对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显。
48.图1根据本技术的实施例，示出了一种高可用的超融合集群监控方法的流程示意图；
49.图2根据本技术的一些实施例，示出了虚拟机生命周期管理服务的架构的示意图；
50.图3根据本技术的实施例，示出了一种控制虚拟机以及虚拟机内部的容器状态的方法流程图；
51.图4根据本技术的实施例，示出了一种超融合集群监控数据查询和/或监控报警实现过程示意图；
52.图5根据本技术的实施例，提供了一种超融合集群监控系统的结构示意图。
具体实施方式
53.下面结合具体实施例对本技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本技术，但不以任何形式限制本技术。应当指出的是，对本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变化和改进。这些都属于本技术的保护范围。
54.在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少区域地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
55.针对现有技术存在的上述问题。在本技术提供的一些实施例中，图1示出了一种高可用的超融合集群监控方法的流程示意图。如图1所示，上述高可用的超融合集群监控方法可以包括：
56.步骤100：以虚拟机的形式部署监控服务，监控服务内置于虚拟机镜像内。可以理解的是，监控的部署目的是监控整个超融合集群，通过以虚拟机的形式部署监控服务，可以通过配置虚拟机的存储、计算、网络资源实现监控服务的部署无需额外占据超融合集群自身的资源，实现监控服务和超融合集群的隔离，不需要在部署监控服务时考虑当前超融合集群的实际情况。
57.具体地，将监控服务所需的所有预设组件打包为一个虚拟机镜像文件，通过超融合集群自身具备的虚拟机管理功能，基于超融合集群提供的虚拟机功能完成虚拟机镜像的上传，上传虚拟机镜像并启动虚拟机后，可监控整个超融合集群的监控服务即部署完成。
58.步骤200：在监控服务部署完成的情况下，按照监控策略预设对应的配置文件。可以理解的是，监控数据的来源根据监控策略的设定而定，超融合集群的节点对应的数据为监控数据，通过根据监控策略设定的配置文件保存了监控数据的提供端的相关配置，使得当监控策略改变时，监控数据的提供端与整个监控系统解耦，使得对于集群的监控更加灵活易用。
59.步骤300：根据所获取的配置文件对超融合集群中的各个节点进行监控，获取监控策略对应的监控数据，并将监控数据进行聚合。可以理解的是，配置文件中设定了监控数据的获取方式，采集方式，采集配置以及可能存在的报警规则等，按照监控策略设置的配置文件对监控数据的获取及聚合方式等进行了定义。
60.例如地，当监控数据的聚合的数据量达到一定的阈值时，根据配置文件的报警规则判断是否可以触发阈值的报警业务。
61.步骤400：建立虚拟机超融合集群的通信，根据配置文件和监控数据提供对应数据查询需求和/或报警业务需求。可以理解的是，监控服务虚拟机可以实现与超融合集群内宿主机上各个监控查询指令、报警发送指令等相关服务仍依赖于超融合集群内的相关服务，需要建立虚拟机超融合集群的通信，发送监控查询指令、报警发送指令等，根据配置文件和监控数据向目标用户提供对应数据查询需求和/或报警业务需求。
62.于上述步骤100中，将监控服务内置于虚拟机镜像内包括：
63.构建监控服务的容器镜像；
64.在虚拟机操作系统安装完成的情况下，加载监控服务的容器镜像；
65.基于容器镜像将监控服务内置于虚拟机镜像内。
66.可以理解的是，基于虚拟机镜像来快速部署监控服务，构建监控服务的容器镜像，将监控服务以容器镜像的形式内置在虚拟机镜像内，安装虚拟机操作系统，用户只需上传虚拟机镜像，加载监控服务容器镜像，打包、压缩虚拟机镜像，内置于虚拟机镜像内以虚拟机的形式快速部署监控服务。
67.于上述步骤100中，以虚拟机的形式部署监控服务还包括：预配置生命周期管理服务；在虚拟机启动的情况下，调用生命周期管理服务来通过周期任务控制虚拟机以及虚拟机内部的容器状态。图2根据本技术的一些实施例，示出了虚拟机生命周期管理服务的架构的示意图，实现生命管理周期的基本功能演示。可以理解的是，关于来通过周期任务控制虚
拟机以及虚拟机内部的容器状态的具体实现步骤，将在下文中进行详述。
68.图3根据本技术的一些实施例，示出了一种控制虚拟机以及虚拟机内部的容器状态的方法流程图。如图3所示，调用生命周期管理服务来通过周期任务控制虚拟机以及虚拟机内部的容器状态可以包括：
69.步骤001：获取当前检查周期的虚拟机的实时当前状态和虚拟机期望状态；
70.步骤002：基于虚拟机实时状态和虚拟机期望状态，确定当前检查周期的虚拟机操作指令，虚拟机操作指令至少包括创建虚拟机或开机虚拟机、启动容器或关机虚拟机、删除虚拟机或空值；
71.步骤003:：执行虚拟机指令，以控制虚拟机以及虚拟机内部的容器状态。
72.进一步地，在上述步骤002中，出现虚拟机操作指令为空值的情况下，重复步骤001即等待进入下一个当前检查周期，重新确定虚拟机操作指令。
73.于本技术的一些实施例中，虚拟机状态在数据库中的存储可以包括如下状态：
74.init:初始化、creating:正在创建中、stopped:已停止、starting:正在启动
75.deleting:正在删除、running:正在运行stopping:正在停止等。
76.可以理解的是，基于生命周期管理服务从存储虚拟机状态的数据库中获取当前检查周期的虚拟机的实时当前状态和虚拟机期望状态，可以根据状态的变化趋势对当前检查周期中虚拟机执行的操作进行设定，通过超融合集群提供的虚拟机高可用功能来保障监控服务虚拟机的高可用。
77.监控服务虚拟机通过状态机的形式保障虚拟机内监控相关容器的正常运行。
78.例如地，若虚拟机不存在，但数据库中期望的状态为running，则执行创建虚拟机；
79.若虚拟机处于stopped状态，期望状态为running，则执行开机虚拟机并启动容器镜像的虚拟机操作指令；
80.若虚拟机处于running状态，期望状态为deleted，则关机虚拟机并删除虚拟机；
81.若虚拟机处于其他状态则当前检查周期不指定任何虚拟机操作指令，跳过，进入下一个当前检查周期，重复获取当前检查周期的虚拟机的实时当前状态和虚拟机期望状态，得到对应虚拟机操作指令，使得监控服务虚拟机持续处于高可用状态。
82.于本技术的一些实施例中，生命周期管理服务也可以实现监控服务的异常状态检测与恢复，具体实现方式本领域技术人员可以根据现有的生命周期管理服务的检测和恢复功能来实现，在此不做限定。
83.于本技术的一些实施例中，生命周期管理服务负责监控服务的发现和监控数据查询请求的代理或请求指令，以实现与超融合集群内各服务的通信。
84.于本技术的一些实施例中，建立虚拟机超融合集群的通信还可以包括：
85.在超融合集群的节点上配置内部虚拟网桥，内部虚拟网桥预设静态ip；
86.通过静态ip实现部署监控服务的虚拟机与超融合集群的其他服务通信；
87.其中，虚拟机上配置有与宿主机的虚拟网桥对应连接的网卡。
88.可以理解的是，以虚拟机的形式的监控服务即监控服务虚拟机只运行了监控相关的服务，对于需要执行报警业务发出指令、监控数据查询指令等仍依赖于超融合集群内的相关服务，因此监控服务虚拟机需要通过一个固定的静态ip来与集群内的其他服务通信。
89.可以理解的是，在超融合集群节点配置有与任何物理网口不关联的内部虚拟网
桥，该内部虚拟网桥配置固定的静态ip(例如：169.254.169.254)且开启dhcp服务，为监控服务虚拟机配置另一网卡，并连接到宿主机的内部虚拟网桥，虚拟机将自动获取和静态ip(例如：169.254.169.254)同网段的另一ip，虚拟机即可通过另一ip访问到超融合集群内宿主机上各个相关服务，实现监控服务虚拟机与超融合集群的通信。
90.于本技术的一些实施例中，在分布式数据库中的配置文件发生更新的情况下，以热重载的方式更新配置文件。可以理解的是，当配置文件发生变动时可以通过热加载的方式应用最新的配置文件，不需要重启监控系统来避免监控数据采集中断。
91.于本技术的一些实施例中，根据配置文件和监控数据提供对应数据查询需求和/或报警业务需求包括：通过应用层协议、电子邮件系统、网页端消息显示查询和/或报警业务的结果。可以理解的是，可以灵活地按需配置多种报警的发送和监控数据的查询方式，例如通过snmp协议、邮件、web页面消息等方式。
92.基于前述实施例的描述，本发明提供的技术方案能够实现对于超融合集群的监控方法的实现。以下还将提供具体应用例实现数据查询和/或监控报警功能进行详述。
93.如图4所示，根据本技术的一些实施例，示出了超融合集群监控数据查询和/或监控报警实现过程示意图。
94.以超融合集群的节点a、节点b、节点c为例，节点中设置数据采集接口(exporter)及配置文件，负责根据配置文件从集群内各节点采集监控数据，并根据配置文件指定的方式聚合监控数据；监测已注册到分布式数据库中的配置文件是否发生更新对配置文件进行维护，若发生更新以不会中断服务的热重载的方式实现最新的配置文件生效；根据配置文件评估当前是否存到达到触发阈值的报警，同时向用户提供多种方式的监控数据查询方式以及将触发状态的报警从多个渠道发送给用户。
95.在本发明的一些实施例中，图5根据本技术的一些实施例，提供了一种超融合集群监控系统的结构示意图，应用于前述实施例提供的超融合集群监控方法中。具体地如图5所示，该种超融合集群监控系统可以包括：
96.部署模块1，用于以虚拟机的形式部署监控服务，监控服务内置于虚拟机镜像内；
97.获取模块2，用于在监控服务部署完成的情况下，按照监控策略预设对应的配置文件；
98.监控模块3，根据所获取的配置文件对超融合集群中的各个节点进行监控，获取监控策略对应的监控数据，并将监控数据进行聚合；
99.处理模块4，用于建立虚拟机超融合集群的通信，根据配置文件和监控数据提供对应数据查询需求和/或报警业务需求。
100.可以理解的是，上述功能模块中模型部署模块1至处理模块4所实现的功能，与前述步骤100至步骤400所执行的操作一一对应，在此不做赘述。
101.这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
102.可以理解的是，本发明技术方案的各个方面可以实现为系统、方法或程序产品。因此，本发明技术方案的各个方面可以具体实现为以下形式，即完全的硬件实施方法、完全的软件实施方法(包括固件、微代码等)，或硬件和软件方面结合的实施方法，这里可以统称为“电路”、“模块”或“平台”。
103.本领域的技术人员应该明白，上述本发明的各单元或各模块或各步骤可以用通用的计算设备来实现，它们可以集中在单个的计算设备上，或者分布在多个计算设备所组成的网络上，可选地，它们可以用计算设备可执行的程序代码来实现，从而，可以将它们存储在存储介质中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。
104.尽管本实施例未详尽地列举其他具体的实施方式，但在一些可能的实施方式中，本发明技术方案说明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本发明技术方案中图像拼接方法区域中描述的根据本发明技术方案各种实施例中实施方式的步骤。
105.以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜英杰徐文豪张凯王弘毅
技术所有人：北京志凌海纳科技有限公司
我是此专利的发明人

上一篇：消息提醒方法、装置、设备和计算机可读存储介质与流程
上一篇：用于CLI报告的方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。