告警信息的显示方法及装置与流程

文档序号:12837050阅读:442来源:国知局
告警信息的显示方法及装置与流程

本发明涉及通信领域,具体而言,涉及一种告警信息的显示方法及装置。



背景技术:

大数据系统的软、硬件资源布置十分复杂,且经常发生变化,软、硬件资源细分后可以用于多种不同的功能。如图1所示为一种分布式大数据系统布署形式的示意图,大数据集群一般由几十上百台主机构成,考虑到系统整体运行效率、成本、安全性等因素,这些主机多数会采用异地分布式布署,甚至布置在全球不同国家里,每一台主机里会运行多种服务,这些服务又可能隶属于不同的大数据集群。在主机硬件资源方面,随着虚拟化网络的推广应用,同一台主机的cpu、硬盘、内存等资源,也可以灵活分配给不同的软件来使用,这些软件又服务于不同的大数据集群或功能。反之,同一个集群或服务也可能会布署于多台主机,由运行于这些主机的多个不同角色实例形成一个整体服务。这种复杂网状交织的大数据系统,其网络架构特征决定了其告警系统的复杂性。而传统的网管告警系统中,采用告警逐条上报的方式,运维人员看到的告警信息是以表格形式或网络拓扑图上的网元告警形式体现的。告警表格中的一行代表一条告警信息,拓扑图上的网元颜色异常代表这个网元故障,这样的告警信息是碎片化的零散信息,当告警信息很多时,运维人员将难以从宏观角度发现系统运行的问题,也不容易发现告警之间的关联关系。在实际运维过程中,由于运维人员的角色职责不同,其所关心的告警领域也不同,例如有些运维人员只关心某个集群,而不关心其它集群;有些运维人员只关心某个机房里的设备运行情况,而不关心其它城市的运行情况;有些运维人员只关心特定的某几台主机的it运维情况,而不关心这些主机服务于哪些集群或软件。这些大数据运维特性使得运维人员需要经常 筛选和组织自己关心的告警内容,这一告警筛选及重组过程不仅效率低下,而且容易出错或遗漏。

因此,现有的告警系统无法适应大数据分布式环境下的告警处理要求,造成系统维护困难,故障排查时间长,不易发现批量告警的深层次原因及关联关系,不易从宏观角度了解大数据系统全局运行情况。而系统在实际运行中,如果将零散的碎片化告警信息进行结构化整理,则可以发现大多数告警信息是具有明显关联特征的,例如有多条看似无关的告警信息均指向某一机房,则我们应该可以直观地想到检查该机房的问题,如检查该机房的传输干扰、供电波动、接地异常、人为破坏等方面,而不是先去纠结单条告警信息如何处理。

针对相关技术中,无法从宏观角度了解大数据系统的全局运行情况导致的故障排查时间长,系统维护困难的问题,尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种告警信息的显示方法及装置,以至少解决相关技术中的上述技术问题。

根据本发明的一个方面,提供了一种告警信息的显示方法,包括:告警统一平台获取网络内系统网元的告警信息;所述告警统一平台将所述告警信息进行结构化处理,其中,该结构化处理包括:获取所述告警信息的属性信息;所述告警统一平台控制终端显示结构化处理后的告警信息。

可选地,所述告警统一平台控制终端显示结构化处理后的告警信息,包括:所述告警统一平台控制终端显示至少以下信息:告警名称、告警码、指标参数、所属主机名、主机ip地址、所属集群名称、服务名称、角色实例名称、地理位置信息、安装机架信息、发生时间、确认时间、告警历史操作。

可选地,所述告警统一平台控制终端显示结构化处理后的告警信息之前,所述方法还包括:对获取到的告警信息中的冗余信息进行筛 选过滤;将过滤后的告警信息存入指定数据库。

可选地,所述告警统一平台控制终端显示结构化处理后的告警信息,包括:所述告警统一平台控制终端采用多种不同维度显示结构化处理后的告警信息。

可选地,所述维度至少包括以下之一:集群、主机、服务、角色、进程、地区、机房、机架。

可选地,至少通过以下方式之一获取所述告警信息的属性信息:

从数据库表结构中获取;用户手工输入。

可选地,告警统一平台获取网络内系统网元的告警信息,包括:

所述告警统一平台获取以下至少之一信息:告警名称、告警码、指标参数。

根据本发明的另一个方面,还提供了一种告警信息的显示装置,应用于告警统一平台,包括:获取模块,用于获取网络内系统网元的告警信息;处理模块,用于将所述告警信息进行结构化处理,其中,该结构化处理包括:获取所述告警信息的属性信息;控制模块,用于控制终端显示结构化处理后的告警信息。

可选地,所述控制模块,用于控制终端显示至少以下信息:告警名称、告警码、指标参数、所属主机名、主机ip地址、所属集群名称、服务名称、角色实例名称、地理位置信息、安装机架信息、发生时间、确认时间、告警历史操作。

根据本发明的另一个方面,还一种告警信息的显示系统,包括:告警统一平台、终端,其中,所述告警统一平台,用于获取网络内系统网元的告警信息,并将所述告警信息进行结构化处理,进而控制终端显示结构化处理后的告警信息,其中,该结构化处理包括:获取所述告警信息的属性信息。

通过本发明,通过告警统一平台获取网络内系统网元的告警信息,并将所述告警信息进行结构化处理,进而控制终端显示结构化处理后 的告警信息,其中,该结构化处理包括:获取所述告警信息的属性信息,采用上述技术方案,解决了相关技术中,无法从宏观角度了解大数据系统的全局运行情况导致的故障排查时间长,系统维护困难的问题,进而能够根据显示信息快速掌握分布式大数据系统的整体运行情况和故障信息,进行系统维护及故障排查和处理。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为相关技术中一种分布式大数据系统布署形式示意图;

图2是根据本发明实施例的告警信息的显示方法的流程图;

图3是根据本发明实施例的告警信息的显示装置的结构框图;

图4是根据本发明实施例的告警信息的显示系统的结构框图;

图5为根据本发明实施例3的大数据告警可视化方法的系统示意图;

图6为根据本发明实施例3的大数据告警结构化信息示意图;

图7为根据本发明实施例的告警功能模块示意图;

图8为根据本发明第一实施例的告警显示效果示意图;

图9为根据本发明第二实施例所示的三维立体告警示意图;

图10为根据本发明第三实施例所示的告警示意图;

图11为根据本发明第四实施例所示的告警示意图;

图12为根据本发明第五实施例所示的告警示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

实施例1

在本实施例中提供了一种告警信息的显示方法,图2是根据本发明实施例的告警信息的显示方法的流程图,如图2所示,该流程包括如下步骤:

步骤s202,告警统一平台获取网络内系统网元的告警信息;

步骤s204,告警统一平台将告警信息进行结构化处理,其中,该结构化处理包括:获取告警信息的属性信息;

步骤s206,告警统一平台控制终端显示结构化处理后的告警信息。

通过上述各个步骤,通过告警统一平台获取网络内系统网元的告警信息,并将所述告警信息进行结构化处理,进而控制终端显示结构化处理后的告警信息,其中,该结构化处理包括:获取所述告警信息的属性信息,采用上述技术方案,解决了相关技术中,无法从宏观角度了解大数据系统的全局运行情况导致的故障排查时间长,系统维护困难的问题,进而能够根据显示信息快速掌握分布式大数据系统的整体运行情况和故障信息,进行系统维护及故障排查和处理。

可选地,步骤s202和步骤s204的执行顺序是可以互换的,即可以先执行步骤s204,然后再执行s202。

在本发明实施例中,所述告警统一平台控制终端显示结构化处理后的告警信息,包括:所述告警统一平台控制终端显示至少以下信息:告警名称、告警码、指标参数、所属主机名、主机ip地址、所属集群名称、服务名称、角色实例名称、地理位置信息、安装机架信息、发生时间、确认时间、告警历史操作。

在本发明实施例中,所述告警统一平台控制终端显示结构化处理后的告警信息之前,所述方法还包括:对获取到的告警信息中的冗余信息进行筛选过滤;将过滤后的告警信息存入指定数据库。

在本发明实施例中,所述告警统一平台控制终端显示结构化处理后的告警信息,包括:所述告警统一平台控制终端采用多种不同维度显示结构化处理后的告警信息。

在本发明实施例中,所述维度至少包括以下之一:集群、主机、服务、角色、进程、地区、机房、机架。

在本发明实施例中,至少通过以下方式之一获取所述告警信息的属性信息:从数据库表结构中获取;用户手工输入。

在本发明实施例中,告警统一平台获取网络内系统网元的告警信息,包括:所述告警统一平台获取以下至少之一信息:告警名称、告警码、指标参数。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种告警信息的显示装置,应用于告警统一平台,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的告警信息的显示装置的结构框图,如图3所示,该装置包括:

获取模块30,用于获取网络内系统网元的告警信息;

处理模块32,用于将所述告警信息进行结构化处理,其中,该结构化处理包括:获取所述告警信息的属性信息;

控制模块34,用于控制终端显示结构化处理后的告警信息。

通过上述各个模块的综合作用,获取网络内系统网元的告警信息,并将所述告警信息进行结构化处理,进而控制终端显示结构化处理后的告警信息,其中,该结构化处理包括:获取所述告警信息的属性信息,采用上述技术方案,解决了相关技术中,无法从宏观角度了解大数据系统的全局运行情况导致的故障排查时间长,系统维护困难的问题,进而能够根据显示信息快速掌握分布式大数据系统的整体运行情况和故障信息,进行系统维护及故障排查和处理。

可选地,控制模块34,用于控制终端显示至少以下信息:告警名称、告警码、指标参数、所属主机名、主机ip地址、所属集群名称、服务名称、角色实例名称、地理位置信息、安装机架信息、发生时间、确认时间、告警历史操作。

图4是根据本发明实施例的告警信息的显示系统的结构框图,如图4所示,该系统包括:

告警统一平台40、终端42,所述告警统一平台40,用于获取网络内系统网元的告警信息,并将所述告警信息进行结构化处理,进而控制终端42显示结构化处理后的告警信息,其中,该结构化处理包括:获取所述告警信息的属性信息。

通过本发明,获取网络内系统网元的告警信息,并将所述告警信息进行结构化处理,进而控制终端显示结构化处理后的告警信息,其中,该结构化处理包括:获取所述告警信息的属性信息,采用上述技术方案,解决了相关技术中,无法从宏观角度了解大数据系统的全局运行情况导致的故障排查时间长,系统维护困难的问题,进而能够根 据显示信息快速掌握分布式大数据系统的整体运行情况和故障信息,进行系统维护及故障排查和处理。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明实施例3的主要目的在于解决现有的大数据管理系统中,无法向维护人员提供便捷高效的告警显示方式,进而导致系统异常时无法快速判断故障原因,使得业务中断或受影响时间长的问题。

为实现上述目的,本发明实施例3提供了一种大数据管理系统的告警可视化方法。所述系统包括大数据管理系统自身的主机、机架,以及其所管理的各种大数据系统网元和操作维护终端。图5为根据本发明实施例3的大数据告警可视化方法的系统示意图。

所述大数据系统网元包括物理概念上的主机、机架,以及逻辑概念上的集群、服务、角色实例、软件进程。

所有物理或逻辑部件的告警独立上报给系统的统一告警平台,经由统一告警平台分析处理,判断告警关联性,补充完善告警信息,形成结构化的告警信息模块。图6为根据本发明实施例3的大数据告警结构化信息示意图。

告警模块化的属性信息通常分布在多个不同的数据库表结构中,甚至可能没有电子化的数据记录,例如所在机架编号或机房楼层等信息,这些信息则需要进行手工补充完整。告警统一平台可提供系统资源的属性扫描,对于网元缺少的属性进行进行提示,以便让网管人员及时将网元属性信息补充完整。

统一告警平台对可能存在冗余的告警上报条目进行筛选过滤,将过滤后的告警信息存入告警数据库,该数据库可以是新建一个专用的数据库,也可以是对现有告警数据库的补充。该告警数据库中的每一 条告警信息都具备完善的属性信息,每条告警都可以方便地关联到具体的物理和逻辑部件上,并在系统维护终端上以可视化的方式直观显示。显示时采用多种不同维度的结合方式,以便于进行故障定位和排查。所述告警平台,还用于告警的反向操作,即由网管系统向网元发送告警相关指令,例如由网管系统发起告警确认/反确认,告警删除/恢复,告警阈值设定等。

所述告警显示的方式,由网管系统提供一种默认的显示方式,例如默认的显示方式是以集群和主机两种属性为显示维度,配合色块和数字进行告警级别与数量的显示。告警的显示方式除了提供默认方式以外,也可以由用户按照需要进行指定。用户可以指定的维度包括但不限于:集群、主机、服务、角色、进程、地区、机房、机架。维度选择时,至少选择两个主要维度,也可以再选择一个次要维度。

实施例4

在某大数据告警系统中,采用图5所示方法进行告警可视化,网元经过各自的传输链路,将告警或运行指标信息发送告警统一平台。告警统一平台对接收到的告警或指标信息进行结构化整理,结构化的告警信息示意如图6所示。经过结构化处理的告警信息具备全面的属于,包括基础告警信息、逻辑资源、物理资源、阈值设置、手工录入的信息等内容,这些内容构成告警可视化的基础信息。统一告警平台对可能存在冗余的告警条目进行筛选过滤,将过滤后的告警信息存入告警数据库,使得每条告警可以方便地关联到具体的物理和逻辑部件上,并在系统维护终端上以可视化的方式直观显示。显示时采用多种不同维度的结合方式,以便于进行故障定位和排查。所述告警平台,还用于告警的反向操作,即由网管系统向网元发送告警相关指令,例如由网管系统发起告警确认/反确认,告警删除/恢复,告警阈值设定等。

在本实施例中,以集群和主机为主要维度进行告警显示,以主机所在地理位置为次要维度,其告警显示方式的示意图如图7所示。其中的两个主要维度不重复,次要维度允许重复。

按照本实施例,在操作维护终端上显示的实际告警信息示例如图8所示。用不同标识的方块标识出告警级别,当告警数量多于1个时,在方块上用数字标识告警数量,当点击任一方块时,可在右部显示出告警详情,当某一方块下包含多条告警信息时,可以翻页查看全部告警详情。

本实施例是以两维平面效果进行展示,用户也可以选择采用三维显示效果,具体请参见第二实施例。以下所述实施例的告警可视化方法与第一实施例相同,示意图参见图5。以下所述实施例的告警信息结构化方法与第一实施例相同,结构化的告警信息如图6所示。以下实施例与第一实施例的不同之处,在于可视化展示的最终表现形式上的差异。

在终端展示时,在竖直坐标轴上使用三维立体方柱,方柱的高度表示告警的数量或占比,方柱表面的不同标识表示告警的类型,如图9所示。当点击任一方柱时,在其旁边可以显示与该方柱相当的全部告警。两个水平方向,仍可以按默认方式或由用户手工指定。

从机房、机架、主机的维度,以实物逻辑拓扑图的形式体现系统告警。示例如图10所示,实际应用中可以以不同的颜色来区分告警或指标的类型,图10中未具体示出,例如,可以是主机主机名1-4,主机3-7,主机4-4,以及主机4-2对应的告警等级为严重,主机1-2,主机2-3,主机3-2对应的是次要严重等,本发明实施例对此不作限定。

从集群、主机的维度,以实物逻辑拓扑图的形式体现系统告警的示例如图11所示,实际应用中可以以不同的颜色来区分告警或指标的类型,图11中未示出。

以地域为主要维度的形式体现系统告警的示例如图12所示,每个地域模块中以统计清单的形式体现该地区所属部件的告警或运行指标情况。

从本发明实施例可以看出,维护终端上可以以二维、三维或地图 的方式展示集群、主机、服务、机架、机房等领域的告警或指标信息,类似地,户手还可以动指定其它领域的显示类型,例如软件的角色实例、进程、cpu分配、硬盘分配、内存分配等,告警显示方式与上述二维或三维方式相同,只是统计领域上有差异,例如三维视图中的三个坐标轴分别表示机架、服务、告警数量和等级,以适应不同运维人员的需求。用户还可以指定告警的时间段,用以显示历史告警的统计信息。

实施例5

本发明实施例5使得用户能够根据显示信息快速掌握分布式大数据系统的整体运行情况和故障信息,进行系统维护及故障排查和处理。所述大数据告警可视化系统包括以下步骤:

网元上报告警信息或运行指标到告警统一平台,上报内容包括告警名称、告警码、指标参数等信息。

告警统一平台根据接收到的告警信息,将信息属性补充完整,形成结构化的告警数据。这些数据包括但不限于:告警名称、告警码、指标参数、所属主机名、主机ip地址、所属集群名称、服务名称、角色实例名称、地理位置信息、安装机架信息、发生时间、确认时间、告警历史操作等。

告警统一平台将经过结构化处理的告警信息存入告警数据库,供操作维护终端读取。

操作维护终端按照自动刷新或手工刷新的方式,从告警统一平台中提取告警信息,默认提供两种告警显示方式,一种是以传统列表形式体现的逐条告警,另一种是以集群和主机为主要维度,以地域为次要维度的可视化告警显示界面,用户也可以手工指定其它显示方式,并可以保存该设置,在下次登录后以修改后的方式来展示。操作维护终端上,以任一方式对告警进行操作后,例如进行告警确认,则操作后的数据同步到统一告警平台,当以其它形式展示告警信息时,获取最新修改过的数据,以保证数据的一致性。

综上所述,借助于本发明实施例的技术方案,解决了现有技术中告警信息零散,无法宏观了解系统运行情况,告警筛选过程复杂,容易遗漏或产生差错等问题,简化了告警查看方式,提高了告警的监控能力,减少了对人工操作和技能水平的依赖。

本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:

s1,告警统一平台获取网络内系统网元的告警信息;

s2,告警统一平台将告警信息进行结构化处理,其中,该结构化处理包括:获取告警信息的属性信息;

s3,告警统一平台控制终端显示结构化处理后的告警信息。

可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明, 对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1