一种云环境下网卡故障监控与自动恢复的系统及方法与流程

文档序号:20161960发布日期:2020-03-24 21:06阅读:423来源:国知局
一种云环境下网卡故障监控与自动恢复的系统及方法与流程

本发明涉及云计算技术领域,具体提供一种云环境下网卡故障监控与自动恢复的系统及方法。



背景技术:

随着信息技术和云计算的发展,教育、科学、文化、政府等多个领域开始越来越多地应用云计算技术,云计算平台中的用户数量也在逐渐增多。对于用户而言,安全,可靠,高性能的云资源具有很大的吸引力,用户可以合理安排所需的资源,按需分配,且可以实现动态资源分配,能够高效地在云上开发自身业务。不过要想实现用户服务在任何时候都可以正常运行,尽可能将故障率降低,云团队需要考虑的问题不再仅仅是向用于提供计算、存储、网络资源,更重要的是考虑整个云平台运行的安全性、稳定性。

在各种云环境下的故障中,网络故障占据了突出的位置。网络对于云平台而言无疑起到了至关重要的作用,网卡作为基础设施层的重要设备,需要存在一种保证网卡在复杂情况下也能正常运行的工作机制。在云计算领域,整个平台的可用性保证了用户的使用体验。云环境下的故障问题将极大影响可用性,影响用户体验。其中的网络故障因为情况多而复杂,常常难以处理。

现存的解决方案中,有通过硬件冗余的方式来保证网卡的正常运行,这种方式能够很好地实现一个网卡设备存在故障时自动处理,保障设备整体正常运行,且技术较为成熟,缺点是需要支出额外的费用,特别是在云环境下,所需的网络基础设施花费巨大,单纯通过硬件冗余能够解决问题但显然不是最优的解决方式。



技术实现要素:

本发明的技术任务是针对上述存在的问题,提供一种能够提高云平台服务的容错能力,使平台在硬件故障、操作系统故障等异常情况下,也能告警并通过疏散和迁移的方式保证虚机可用的云环境下网卡故障监控与自动恢复的系统。

本发明进一步的技术任务是提供一种云环境下网卡故障监控与自动恢复的方法。

为实现上述目的,本发明提供了如下技术方案:

一种云环境下网卡故障监控与自动恢复的系统,包括数据采集代理模块、数据存储模块、异常检测模块、告警模块、异常处理模块和恢复检测模块,所述数据采集代理模块与数据存储模块相连接,数据存储模块与异常检测模块相连接,异常检测模块与告警模块相连接,异常处理模块与告警模块相通信,恢复检测模块与异常检测模块、异常处理模块分别连接。

该云环境下网卡故障监控与自动恢复的系统通过以上不同模块之间的通信,可以实现在短时间内迅速发现网卡故障、定位问题、处理问题,实现流水化操作,对于可逆故障而言可以通过该方法自行恢复,对于不可逆故障而言可以自行告警通知管理员,保证云环境的可用性,并可以极大减轻云平台运维人员的工作负担。

作为优选,该云环境下网卡故障监控与自动恢复的系统还包括日志模块,所述日志模块与异常检测模块、告警模块、异常处理模块、恢复检测模块分别连接。

作为优选,所数据采集代理模块运行在计算节点上,用于从计算节点上获取网卡状态信息、日志信息及操作系统网络特征信息,并将获得的信息发送至数据存储模块。

所述数据采集代理模块运行在所有的计算节点上,根据当前系统负载的高低确定采集信息的频率。

作为优选,所述告警模块与异常处理模块通过hook触发连接。

作为优选,所述数据存储模块为时序数据库,发送到数据存储模块中的信息以时序的方式进行存储。

异常检测模块分析数据存储模块的数据,通过对数据的多次处理并和网卡状态的理论正常值做对比分析,判断网卡是否处于正常状态,如果网卡不正常,定位当前网卡不正常的原因。

该云环境下网卡故障监控与自动恢复的系统收集的信息来源可以是网卡接收、发送字节数、网卡接收、发送错误包数量、网卡丢弃包数量、tcp连接状态、udp套接字数量、ping丢包率、系统日志、相关应用程序日志、自定义监控程序日志等。根据网卡业务功能的不同,采取不同的故障处理措施。具体内容包括:将网卡根据业务功能的差异划分为管理网卡、控制网卡、业务网卡、存储网卡等。在出现无法修复的故障时,需要通过疏散或者热迁移等虚机迁移手段保证虚机的可用。

一种云环境下网卡故障监控与自动恢复的方法,该方法基于所述的云环境下网卡故障监控与自动恢复的系统实现,具体包括以下步骤:

s1、待监控计算节点运行数据采集代理模块;

s2、数据采集代理模块动态采集计算节点的网卡状态信息、日志信息及操作系统网络特征信息;

s3、数据采集代理模块将采集到的信息发送至数据存储模块,数据存储模块对信息进行处理后采样并保存;

s4、异常检测模块对数据存储模块的数据进行特征提取,通过对特征比对检测网卡状态是否正常,若异常则定位到具体的故障原因;

s5、异常检测模块检测到异常将异常信息发送至告警模块;

s6、告警模块接收到告警请求发送至异常处理模块,异常处理模块接收到请求后进行异常处理;

s7、恢复检测模块检测异常是否恢复,并将状态同步至异常检测模块。

作为优选,该云环境下网卡故障监控与自动恢复的方法还包括以下步骤:s8、日志模块记录所有异常及恢复操作过程。

作为优选,步骤s3中数据存储模块为时序数据库,使用存储后端保存信息,信息以时序的方式进行存储。

作为优选,步骤s6中使用hook机制,通过发送http请求的方式发送告警信息至异常处理模块。

作为优选,步骤s8中日志模块记录所有异常及恢复操作过程时,日志分级记录,且可自定义日志级别。

与现有技术相比,本发明的云环境下网卡故障监控与自动恢复的方法具有以下突出的有益效果:该云环境下网卡故障监控与自动恢复的方法实现网卡故障监控并自动恢复提高了云平台服务的容错能力,使平台在硬件故障,操作系统故障等异常情况下,也能告警并通过疏散和迁移的方式保证虚机可用,对于可修复问题,自行进行恢复处理;对于不可恢复问题,及时告警通知管理员进行人工干预,保证云环境的可用性,并可以极大减轻云平台运维人员的工作负担,具有良好的推广应用价值。

附图说明

图1是本发明所述云环境下网卡故障监控与自动恢复的系统的架构图。

具体实施方式

下面将结合附图和实施例,对本发明的云环境下网卡故障监控与自动恢复的系统及方法作进一步详细说明。

实施例

如图1所示,本发明的云环境下网卡故障监控与自动恢复的系统,包括数据采集代理模块、时序数据库、异常检测模块、告警模块、异常处理模块、恢复检测模块和日志模块。

数据采集代理模块与时序数据库相连接。数据采集代理模块运行在计算节点上,用于从计算节点上获取网卡状态信息、日志信息及操作系统网络特征信息,并将获得的信息发送至时序数据库。数据采集代理模块根据当前系统负载的高低确定采集信息的频率。信息来源可以是网卡接收、发送字节数、网卡接收、发送错误包数量、网卡丢弃包数量、tcp连接状态、udp套接字数量、ping丢包率、系统日志、相关应用程序日志、自定义监控程序日志等。根据网卡业务功能的不同,采取不同的故障处理措施。具体内容包括:将网卡根据业务功能的差异划分为管理网卡、控制网卡、业务网卡、存储网卡等。在出现无法修复的故障时,需要通过疏散或者热迁移等虚机迁移手段保证虚机的可用。

时序数据库与异常检测模块相连接,发送到数据存储模块中的信息以时序的方式进行存储。

异常检测模块与告警模块相连接,异常处理模块与告警模块相通信。告警模块与异常处理模块通过hook触发连接。

恢复检测模块与异常检测模块、异常处理模块分别连接。异常检测模块分析数据存储模块的数据,通过对数据的多次处理并和网卡状态的理论正常值做对比分析,判断网卡是否处于正常状态,如果网卡不正常,定位当前网卡不正常的原因。

日志模块与异常检测模块、告警模块、异常处理模块、恢复检测模块分别连接。用于记录所有异常及恢复操作过程。

该云环境下网卡故障监控与自动恢复的系统通过以上不同模块之间的通信,可以实现在短时间内迅速发现网卡故障、定位问题、处理问题,实现流水化操作,对于可逆故障而言可以通过该方法自行恢复,对于不可逆故障而言可以自行告警通知管理员,保证云环境的可用性,并可以极大减轻云平台运维人员的工作负担。

本发明的云环境下网卡故障监控与自动恢复的方法,该方法基于所述的云环境下网卡故障监控与自动恢复的系统实现,具体包括以下步骤:

s1、待监控计算节点运行数据采集代理模块。

s2、数据采集代理模块动态采集计算节点的网卡状态信息、日志信息及操作系统网络特征信息。

s3、数据采集代理模块将采集到的信息发送至数据存储模块,数据存储模块对信息进行处理后采样并保存。

数据存储模块为时序数据库,使用存储后端保存信息,信息以时序的方式进行存储。

s4、异常检测模块对数据存储模块的数据进行特征提取,通过对特征比对检测网卡状态是否正常,若异常则定位到具体的故障原因。

s5、异常检测模块检测到异常将异常信息发送至告警模块。

异常检测模块首先对告警模块进行激活,将异常信息发送至告警模块。

s6、告警模块接收到告警请求发送至异常处理模块,异常处理模块接收到请求后进行异常处理。

使用hook机制,通过发送http请求的方式发送告警信息至异常处理模块,并且异常处理模块将处理结果发送消息回执至告警模块。

s7、恢复检测模块检测异常是否恢复,并将状态同步至异常检测模块。如还存在异常将通过告警管理员的方式,进行人工干预。

s8、日志模块记录所有异常及恢复操作过程。

日志模块记录所有异常及恢复操作过程时,日志分级记录,且可自定义日志级别。

以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1