电子装置、云平台异常确认方法及存储介质与流程

文档序号:17441765发布日期:2019-04-17 04:51阅读:209来源:国知局
电子装置、云平台异常确认方法及存储介质与流程

本发明涉及云平台监控领域,尤其涉及一种电子装置、云平台异常确认方法及存储介质。



背景技术:

云平台具有规模大、虚拟化、动态性、实时性等特点,这就要求云平台监测系统必须能够监测大规模资源、监测虚拟资源和动态资源、并实时查看监测报告,以及监测服务的可测量性的特点。而现有的云平台监测系统主要通过将异常抽象为具体的一个或多个直接的监控项,当监控到监控项的数据异常时触发告警。然而,由于很多异常无法直接抽象成具体的监控项,导致无法快速准确地定位故障点,且对发生故障事件的溯源操作难度较大。



技术实现要素:

有鉴于此,本发明提出一种电子装置、云平台异常确认方法及存储介质,能够快速准确地定位故障点,且对发生故障事件的溯源易操作。

首先,为实现上述目的,本发明提出一种电子装置,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的云平台异常确认程序,所述云平台异常确认程序被所述处理器执行时实现如下步骤:

a1、获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;

a2、对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;

a3、确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;

a4、根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。

优选地,在所述步骤a1中,所述监测数据为待监测的虚拟设备对应的待监测项目的运行数据。

优选地,所述步骤a2包括:

根据预先配置的告警策略对监测数据进行实时监测,当监测数据中出现满足预先配置的告警策略的运行数据时,则确定该监测数据为异常运行数据。

优选地,在所述步骤a3中,所述异常运行数据的关联信息包括:监测内容、功能组、监测项目以及虚拟设备的标识信息。

优选地,所述云平台异常确认程序被所述处理器执行时,还实现如下步骤:

根据标记的所述异常运行数据的关联信息,实现对异常运行数据的溯源操作。

此外,为了实现上述目的,本发明还提出一种云平台异常确认方法,所述方法包括如下步骤:

s1、获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;

s2、对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;

s3、确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;

s4、根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。

优选地,在所述步骤s1中,所述监测数据为待监测的虚拟设备对应的待监测项目的运行数据。

优选地,所述步骤s2包括:

根据预先配置的告警策略对监测数据进行实时监测,当监测数据中出现满足预先配置的告警策略的运行数据时,则确定该监测数据为异常运行数据。

优选地,在所述步骤s3中,所述异常运行数据的关联信息包括:监测内容、功能组、监测项目以及虚拟设备的标识信息。

此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有云平台异常确认程序,所述云平台异常确认程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的云平台异常确认方法的步骤。

本发明所提出的电子装置、云平台异常确认方法及存储介质,通过获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。能够快速准确地定位故障点,且对发生故障事件的溯源易操作。

附图说明

图1是本发明提出的电子装置一可选的硬件架构的示意图;

图2是本发明电子装置一实施例中云平台异常确认程序的程序模块示意图;

图3是本发明云平台异常确认方法较佳实施例的实施流程图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

参阅图1所示,是本发明提出的电子装置一可选的硬件架构示意图。本实施例中,电子装置10可包括,但不仅限于,可通过通信总线14相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-14的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

其中,存储器11至少包括一种类型的计算机可读存储介质,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器11可以是电子装置10的内部存储单元,例如电子装置10的硬盘或内存。在另一些实施例中,存储器11也可以是电子装置10的外包存储设备,例如电子装置10上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,存储器11还可以既包括电子装置10的内部存储单元也包括其外包存储设备。本实施例中,存储器11通常用于存储安装于电子装置10的操作系统和各类应用软件,例如云平台异常确认程序等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置10的总体操作。本实施例中,处理器12用于运行存储器11中存储的程序代码或者处理数据,例如运行的云平台异常确认程序等。

网络接口13可包括无线网络接口或有线网络接口,网络接口13通常用于在电子装置10与其他电子设备之间建立通信连接。

通信总线14用于实现组件11-13之间的通信连接。

图1仅示出了具有组件11-14以及云平台异常确认程序的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

可选地,电子装置10还可以包括用户接口(图1中未示出),用户接口可以包括显示器、输入单元比如键盘,其中,用户接口还可以包括标准的有线接口、无线接口等。

可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled触摸器等。进一步地,显示器也可称为显示屏或显示单元,用于显示在电子装置10中处理信息以及用于显示可视化的用户界面。

可选地,在一些实施例中,电子装置10还可以包括音频单元(音频单元图1中未示出),音频单元可以在电子装置10处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将接收的或者存储的音频数据转换为音频信号;进一步地,电子装置10还可以包括音频输出单元,音频输出单元将音频单元转换的音频信号输出,而且音频输出单元还可以提供与电子装置10执行的特定功能相关的音频输出(例如呼叫信号接收声音、消息接收声音等等),音频输出单元可以包括扬声器、蜂鸣器等等。

可选地,在一些实施例中,电子装置10还可以包括警报单元(图中未示出),警报单元可以提供输出已将事件的发生通知给电子装置10。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或者视频输出之外,警报单元可以以不同的方式提供输出以通知事件的发生。例如,警报单元可以以震动的形式提供输出,当接收到呼叫、消息或一些其他可以使电子装置10进入通信模式时,警报单元可以提供触觉输出(即,振动)以将其通知给用户。

在一实施例中,存储器11中存储的云平台异常确认程序被处理器12执行时,实现如下操作:

a1,获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;

需要说明的是,在本实施例中,将各个待监测系统的关键主机抽象为虚拟设备,虚拟设备的属性信息作为标识信息用来表示不同虚拟设备。这里,虚拟设备的属性信息包括:设备简写名、设备描述、所属项目或产品名称、所属功能组、ip地址、操作系统和版本。

可选地,以所述待监测的虚拟设备对应的待监测项目的运行数据作为监测数据。示例性的,监测项目可以包括:主机、应用程序、服务、用户行为、中间件或数据库等。当监测项目为主机时,对应的监测内容可以包括:中央处理器(centralprocessingunit,cpu)总占用率、用户态cpu使用率、内核态cpu使用率、中断cpu使用率、硬盘剩余空间、硬盘使用率、磁盘i/o平均次数、磁盘i/o平均吞吐率、物理内存使用率、交换内存使用率、网络上行速率、网络下行速率等;

具体地,当监测项目为应用程序时,对应的监测内容可以包括:一些关键应用程序的运行数据及访问记录,通过判断这些监测内容来确定应用程序的可用性和质量。例如:关键api调用的次数和响应情况等;

当监测项目为服务时,对应的监测内容可以包括:大型服务软件的运行状态。如:nginx累计请求次数、nginx每秒请求数、nginx活跃连接数、nginx丢弃连接数以及tomcat、mysql、apache的运行状态等;

当监测项目为用户行为时,对应的监测内容包括:访问监测、统一资源定位符(uniformresourcelocator,url)监测、内容监测。访问监测用于获取用户访问速度,url监测包括响应时间、失败率,以了解服务实时访问状态,内容监测用于掌握网页元素变化;

当监测项目为中间件或数据库等时,对应的监测内容包括:i\o吞吐率、cpu使用率、磁盘占用率等数据。

a2、对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;

可选地,根据预先配置的告警策略实现对监测数据的实时监测,当监测数据中出现满足预先配置的告警策略的运行数据时,则确定该监测数据为异常运行数据。

可选地,所述配置的告警策略包括:告警触发条件、告警对象等,告警策略可与产品、策略类型关联。例如:告警触发条件可以为:某个产品中某个设备监测值超过告警门限值时,应产生不同级别的告警。告警触发条件也可以为简单的条件表达式,如:a≥c、a≤c、a>c或a<c,其中a为监测值,c为告警门限值。告警门限值可自定义,且门限值主要针对单个监测数据。可选地,所述配置的告警策略还可以包括告警接收人、告警接收方式等,在此,不做具体限定。

a3、在确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;所述异常运行数据的关联信息包括:监测内容、功能组、监测项目以及虚拟设备的标识信息;

示例性的,在本实施例中,确定虚拟设备a的主机的cpu使用率的监测数据,在确定的时间点b,cpu的使用率超过门限值,则标记主机的cpu使用率的关联信息。此时关联信息包括:虚拟设备a的监测内容为cpu使用率、监测项目为主机监测、功能组为1和虚拟设备的标识信息。当监测到当前cpu使用率异常时,确定异常运行数据的所有上述关联信息,实现对异常运行数据的溯源操作。

可以理解的是,云平台上可能存在多个待监测的虚拟设备,因此当故障事件发生时需要快速定位出现故障事件的虚拟设备时,可以查询所有虚拟设备的标识信息,通过判断每一个标识信息是否被标记为故障事件的关联信息,来确定出现故障事件的虚拟设备,提高了故障事件的查找效率。

具体地,每个虚拟设备包括至少一个功能组,每个所述功能组用于表示所述虚拟设备运行时的一类功能。

a4、根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。

由上述事实施例可知,本发明提出的电子装置,通过获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。能够快速准确地定位故障点,且对发生故障事件的溯源易操作。

此外,本发明的云平台异常确认程序依据其各部分所实现的功能不同,可用具有相同功能的程序模块进行描述。请参阅图2所示,是本发明电子装置一实施例中云平台异常确认程序的程序模块示意图。本实施例中,云平台异常确认程序依据其各部分所实现的功能的不同,可以被分割成获取模块201、第一确定模块202、标记模块203以及第二确定模块204。由上面的描述可知,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述云平台异常确认程序在电子装置10中的执行过程。所述模块201-204所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:

获取模块201用于获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;

第一确定模块202用于对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;

标记模块203用于在确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;

第二确定模块204用于根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。

此外,本发明还提出一种云平台异常确认方法,请参阅图3所示,所述云平台异常确认方法包括如下步骤:

s301,获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;

需要说明的是,在本实施例中,将各个待监测系统的关键主机抽象为虚拟设备,虚拟设备的属性信息作为标识信息用来表示不同虚拟设备。这里,虚拟设备的属性信息包括:设备简写名、设备描述、所属项目或产品名称、所属功能组、ip地址、操作系统和版本。

可选地,以所述待监测的虚拟设备对应的待监测项目的运行数据作为监测数据。示例性的,监测项目可以包括:主机、应用程序、服务、用户行为、中间件或数据库等。当监测项目为主机时,对应的监测内容可以包括:中央处理器(centralprocessingunit,cpu)总占用率、用户态cpu使用率、内核态cpu使用率、中断cpu使用率、硬盘剩余空间、硬盘使用率、磁盘i/o平均次数、磁盘i/o平均吞吐率、物理内存使用率、交换内存使用率、网络上行速率、网络下行速率等;

具体地,当监测项目为应用程序时,对应的监测内容可以包括:一些关键应用程序的运行数据及访问记录,通过判断这些监测内容来确定应用程序的可用性和质量。例如:关键api调用的次数和响应情况等;

当监测项目为服务时,对应的监测内容可以包括:大型服务软件的运行状态。如:nginx累计请求次数、nginx每秒请求数、nginx活跃连接数、nginx丢弃连接数以及tomcat、mysql、apache的运行状态等;

当监测项目为用户行为时,对应的监测内容包括:访问监测、统一资源定位符(uniformresourcelocator,url)监测、内容监测。访问监测用于获取用户访问速度,url监测包括响应时间、失败率,以了解服务实时访问状态,内容监测用于掌握网页元素变化;

当监测项目为中间件或数据库等时,对应的监测内容包括:i\o吞吐率、cpu使用率、磁盘占用率等数据。

s302、对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;

可选地,根据预先配置的告警策略实现对监测数据的实时监测,当监测数据中出现满足预先配置的告警策略的运行数据时,则确定该监测数据为异常运行数据。

可选地,所述配置的告警策略包括:告警触发条件、告警对象等,告警策略可与产品、策略类型关联。例如:告警触发条件可以为:某个产品中某个设备监测值超过告警门限值时,应产生不同级别的告警。告警触发条件也可以为简单的条件表达式,如:a≥c、a≤c、a>c或a<c,其中a为监测值,c为告警门限值。告警门限值可自定义,且门限值主要针对单个监测数据。可选地,所述配置的告警策略还可以包括告警接收人、告警接收方式等,在此,不做具体限定。

s303、在确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;所述异常运行数据的关联信息包括:监测内容、功能组、监测项目以及虚拟设备的标识信息;

示例性的,在本实施例中,确定虚拟设备a的主机的cpu使用率的监测数据,在确定的时间点b,cpu的使用率超过门限值,则标记主机的cpu使用率的关联信息。此时关联信息包括:虚拟设备a的监测内容为cpu使用率、监测项目为主机监测、功能组为1和虚拟设备的标识信息。当监测到当前cpu使用率异常时,确定异常运行数据的所有上述关联信息,实现对异常运行数据的溯源操作。

可以理解的是,云平台上可能存在多个待监测的虚拟设备,因此当故障事件发生时需要快速定位出现故障事件的虚拟设备时,可以查询所有虚拟设备的标识信息,通过判断每一个标识信息是否被标记为故障事件的关联信息,来确定出现故障事件的虚拟设备,提高了故障事件的查找效率。

具体地,每个虚拟设备包括至少一个功能组,每个所述功能组用于表示所述虚拟设备运行时的一类功能。

s304、根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。

由上述事实施例可知,本发明提出的电子装置,通过获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。能够快速准确地定位故障点,且对发生故障事件的溯源易操作。

此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有云平台异常确认程序,所述云平台异常确认程序被处理器执行时实现如下操作:

获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;

对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;

确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;

根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。

需要说明的是,在本实施例中,将各个待监测系统的关键主机抽象为虚拟设备,虚拟设备的属性信息作为标识信息用来表示不同虚拟设备。这里,虚拟设备的属性信息包括:设备简写名、设备描述、所属项目或产品名称、所属功能组、ip地址、操作系统和版本。

可选地,以所述待监测的虚拟设备对应的待监测项目的运行数据作为监测数据。示例性的,监测项目可以包括:主机、应用程序、服务、用户行为、中间件或数据库等。当监测项目为主机时,对应的监测内容可以包括:中央处理器(centralprocessingunit,cpu)总占用率、用户态cpu使用率、内核态cpu使用率、中断cpu使用率、硬盘剩余空间、硬盘使用率、磁盘i/o平均次数、磁盘i/o平均吞吐率、物理内存使用率、交换内存使用率、网络上行速率、网络下行速率等;

具体地,当监测项目为应用程序时,对应的监测内容可以包括:一些关键应用程序的运行数据及访问记录,通过判断这些监测内容来确定应用程序的可用性和质量。例如:关键api调用的次数和响应情况等;

当监测项目为服务时,对应的监测内容可以包括:大型服务软件的运行状态。如:nginx累计请求次数、nginx每秒请求数、nginx活跃连接数、nginx丢弃连接数以及tomcat、mysql、apache的运行状态等;

当监测项目为用户行为时,对应的监测内容包括:访问监测、统一资源定位符(uniformresourcelocator,url)监测、内容监测。访问监测用于获取用户访问速度,url监测包括响应时间、失败率,以了解服务实时访问状态,内容监测用于掌握网页元素变化;

当监测项目为中间件或数据库等时,对应的监测内容包括:i\o吞吐率、cpu使用率、磁盘占用率等数据。

可选地,根据预先配置的告警策略实现对监测数据的实时监测,当监测数据中出现满足预先配置的告警策略的运行数据时,则确定该监测数据为异常运行数据。

可选地,所述配置的告警策略包括:告警触发条件、告警对象等,告警策略可与产品、策略类型关联。例如:告警触发条件可以为:某个产品中某个设备监测值超过告警门限值时,应产生不同级别的告警。告警触发条件也可以为简单的条件表达式,如:a≥c、a≤c、a>c或a<c,其中a为监测值,c为告警门限值。告警门限值可自定义,且门限值主要针对单个监测数据。可选地,所述配置的告警策略还可以包括告警接收人、告警接收方式等,在此,不做具体限定。

示例性的,在本实施例中,确定虚拟设备a的主机的cpu使用率的监测数据,在确定的时间点b,cpu的使用率超过门限值,则标记主机的cpu使用率的关联信息。此时关联信息包括:虚拟设备a的监测内容为cpu使用率、监测项目为主机监测、功能组为1和虚拟设备的标识信息。当监测到当前cpu使用率异常时,确定异常运行数据的所有上述关联信息,实现对异常运行数据的溯源操作。

可以理解的是,云平台上可能存在多个待监测的虚拟设备,因此当故障事件发生时需要快速定位出现故障事件的虚拟设备时,可以查询所有虚拟设备的标识信息,通过判断每一个标识信息是否被标记为故障事件的关联信息,来确定出现故障事件的虚拟设备,提高了故障事件的查找效率。

具体地,每个虚拟设备包括至少一个功能组,每个所述功能组用于表示所述虚拟设备运行时的一类功能。

通过上述分析可知,本发明提出的计算机可读存储介质,通过获取云平台上至少一个待监测的虚拟设备在预定义时间段内的监测数据;对所述监测数据进行异常数据分析,以确定所述监测数据中的异常运行数据;确定出所述监测数据中的异常运行数据后,标记所述异常运行数据的关联信息;根据所述异常运行数据的关联信息,确定云平台的故障并进行告警。能够快速准确地定位故障点,且对发生故障事件的溯源易操作。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1