告警分析的方法和装置的制造方法

文档序号:10666321阅读:649来源:国知局
告警分析的方法和装置的制造方法
【专利摘要】本发明涉及一种告警分析的方法和装置。所述方法包括以下步骤:获取业务数据中的告警;将告警相关信息格式化为对应业务模块的时间窗的数据;将得到的业务模块关系绘制得到访问链路;将所述告警、时间窗的数据、访问链路和业务模块进行对应存储;对所述业务模块所对应的告警进行分类,得到告警类型;对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路;生成包含时间窗、告警类型、降维后的访问链路的告警结果。上述告警分析的方法和装置,可有效降低告警量,省掉了告警分析和定位,直达处理告警,节省了告警处理时间,提高了告警处理效率。
【专利说明】
告警分析的方法和装置
技术领域
[0001]本发明涉及业务告警领域,特别是涉及一种基于业务的告警分析的方法和装置。
【背景技术】
[0002]随着互联网技术的发展,网络已成为人们生活的一部分,给人们的生活带来了很多便利。为了满足用户的需求,服务提供者提供了各种各样的业务服务。业务服务在网络运行过程中常常出现故障,为了便于对业务服务进行管理,往往通过故障告警的方式来定位故障点。随着业务服务种类的增多,业务告警越来越复杂,告警监控系统会收到海量的告警信息,其中包含大量的无用告警信息,很难找到告警根源信息,以及难以准确快速的根据告警根源信息定位告警对应的故障处,对故障进行修复,告警处理效率低。

【发明内容】

[0003]基于此,有必要针对难以快速准确定位告警根源信息所对应的故障位置而导致告警处理效率低的问题,提供一种告警分析的方法和装置,能提高告警处理效率。
[0004]—种告警分析的方法,包括以下步骤:
[0005]获取业务数据中的告警;
[0006]将告警相关信息格式化为对应业务模块的时间窗的数据;
[0007]将得到的业务模块关系绘制得到访问链路;
[0008]将所述告警、时间窗的数据、访问链路和业务模块进行对应存储;
[0009]对所述业务模块所对应的告警进行分类,得到告警类型;
[0010]对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路;
[0011]生成包含时间窗、告警类型、降维后的访问链路的告警结果。
[0012]—种告警分析的装置,包括:
[0013]获取模块,用于获取业务数据中的告警;
[0014]格式化模块,用于将告警相关信息格式化为对应业务模块的时间窗的数据;
[0015]绘制模块,用于将得到的业务模块关系绘制得到访问链路;
[0016]存储模块,用于将所述告警、时间窗的数据、访问链路和业务模块进行对应存储;
[0017]类型确定模块,用于对所述业务模块所对应的告警进行分类,得到告警类型;
[0018]降维处理模块,用于对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路;
[0019]生成模块,用于生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果O
[0020]上述告警分析的方法和装置,通过获取业务数据中的告警,将告警相关信息格式化为对应的时间窗的数据,获取业务模块所对应的访问链路,并确定告警类型,生成包括时间窗的数据、告警类型、降维后的访问链路的告警结果,告警结果中包含了告警的描述、告警类型、发生时间等,可有效降低告警量,省掉了告警分析和定位,直达处理告警,节省了告警处理时间,提高了告警处理效率。
【附图说明】
[0021]图1为一个实施例中告警分析的方法的流程图;
[0022]图2为业务模块的层级结构示意图;
[0023]图3为降一维后的层级结构示意图;
[0024]图4为降维处理后的访问链路示意图;
[0025]图5为另一个实施例中告警分析的方法的流程图;
[0026]图6为一个实施例中对业务模块所对应的告警进行分类,得到告警类型的具体流程图;
[0027]图7为具体应用的告警分析的方法流程图示意图;
[0028]图8为一个实施例中告警分析的装置的结构框图;
[0029]图9为另一个实施例中告警分析的装置的结构框图;
[0030]图10为一个实施例中类型确定模块的内部结构框图;
[0031]图11为终端的内部结构示意图;
[0032]图12为服务器的内部结构示意图。
【具体实施方式】
[0033]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0034]图1为一个实施例中告警分析的方法的流程图。如图1所示,一种告警分析的方法,包括以下步骤:
[0035]步骤102,获取业务数据中的告警。
[0036]具体的,业务数据是指各种业务服务产生的数据,海量的业务数据分布在网络中。以分钟级或秒级为单元获取业务数据中的告警,也就是获取预设分钟或秒时间内业务数据中的告警。该预设分钟可为I分钟、3分钟、5分钟等。预设秒可为30秒、60秒、120秒等。告警是指业务模块的某些运营指标不符合规定的标准,例如磁盘使用100%等。业务模块是指一个IP(Internet Protocol,网际协议)或一组IP的集合。
[0037]步骤104,将告警相关信息格式化为对应业务模块的时间窗的数据。
[0038]具体的,告警相关信息是指表示告警的相关参数,例如变更、网络故障等。变更可是指业务服务功能变更、或者IP地址变更等。将告警相关信息以分钟级或秒级为单元格式化为对应业务模块的时间窗的数据,即将告警相关信息记录为某个时间窗内的告警事件。时间窗是指根据需要定义的时间段,例如定义5分钟为一个时间窗,将一天分为288个时间窗。也可定义10分钟为一个时间窗,将一天分为144个时间窗等。
[0039]步骤106,将得到的业务模块关系绘制得到访问链路。
[0040]具体的,通过IP抓包方式将业务模块之间关系进行汇聚,然后绘制得到访问链路。访问链路是指同一业务模块不重复出现的一条访问关系链,如业务模块A->业务模块B-〉业务模块C等。业务模块关系是指业务模块之间的访问关系,即IP访问关系,如IP1->IP2,业务模块A->业务模块B。
[0041]步骤108,将该告警、时间窗的数据、访问链路和业务模块进行对应存储。
[0042]本实施例中,步骤108包括:将该告警和时间窗的数据与业务模块标识对应存储;将该访问链路与业务模块标识对应存储。业务模块标识是用于唯一表示业务模块的,如IP地址等。将告警和时间窗的数据与业务模块标识对应存储,然后将访问链路与业务模块标识对应存储,因一个业务模块可能出现在多个访问链路中,将访问链路与业务模块标识对应存储可避免重复存储告警和时间窗数据,节省存储空间。告警、业务模块、时间窗和访问链路的存储结构可采用第一表存放访问链路和访问链路标识,第二表存放业务模块标识和访问链路标识,第三表存放业务模块标识和告警内容。告警内容是一个字符型数组,告警内容分为288个点,每个点代表一个时间窗,每个时间窗存多种告警类型,每种告警类型支持存int 255的一个最大数值。
[0043]在其他实施例中,也可将告警、时间窗的数据、访问链路和业务模块一起对应存储。一起存储数据集中,查找方便。
[0044]步骤110,对该业务模块所对应的告警进行分类,得到告警类型。
[0045]具体的,告警类型可包括长期告警、波动告警和关联告警。长期告警是指一段时间内持续发生的告警。波动告警是指突发的告警,但与其他业务模块没有关系。关联告警是指突发的告警,且与其他业务模块有关系。告警类型中关联告警级别最高,波动告警级别次之,长期告警级别再次之。
[0046]步骤112,对该业务模块所对应的访问链路进行降维处理,得到降维后的访问链路。
[0047]本实施例中,对业务模块所对应的访问链路进行降维处理,得到降维后的访问链路的步骤包括:判断该业务模块所对应的访问链路中在当前告警的时间窗内是否有告警,若有,则保留有告警的链路,若无,则过滤无告警的链路,得到降维后的访问链路。
[0048]如图2所示,业务常见的是四层访问结构,以业务模块A为例,整个网络的拓扑复杂度为O(N~3),业务模块A为接入层,D、E、F为逻辑层,H、1、J、K为缓存层,L、M为数据库层。形成的访问链路有A->D->H->L,A->D->1->L等,如图2中箭头走向。
[0049]将告警策略从业务模块A的告警m,调整为从业务模块A->业务模块D的告警m,当告警m发生时筛选A->D相关的访问链路,原有的四层业务链路拓扑复杂度降为O (N~2),如图3所示,然后进行判断当前告警的时间窗内,业务模块D后面的访问关系中其他业务模块是否有告警,有告警则保留链路,无告警则过滤链路,遇到非告警的业务模块都可以降一维。每降一次,可能出现误差的几率就大一次,最低可以降至O (I),但是一般不超过降2次,如图4所示,降维处理后的最后的访问链路为A->D->1->L及A->D->1->M。
[0050]通过降维处理可降低原有复杂的访问链路,快速降维到可以精准定位的少量访问链路,提升告警定位效率。
[0051]步骤114,生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果。
[0052]上述告警分析的方法,通过获取业务数据中的告警,将告警相关信息格式化为对应的时间窗的数据,获取业务模块所对应的访问链路,并确定告警类型,生成包括时间窗的数据、告警类型、降维后的访问链路的告警结果,告警结果中包含了告警的描述、告警类型、发生时间等,可有效降低告警量,省掉了告警分析和定位,直达处理告警,节省了告警处理时间,提高了告警处理效率。
[0053]在一个实施例中,在该生成包含时间窗、告警类型、降维后的访问链路的告警结果的步骤之后,该告警分析的方法还包括:对生成的告警结果进行提示。通过提示告警结果,方便用户或研发人员或维护人员进行故障修复。
[0054]进一步的,在一个实施例中,对生成的告警结果进行提示的步骤包括:展示该告警结果。
[0055]具体的,可将告警结果展示在终端或服务器上。该终端可为手机、个人计算机、平板电脑、个人数字助理等。
[0056]在其他实施例中,对生成的告警结果进行提示的步骤包括:将该告警结果以即时通信信息和/或电子邮件和/或短信形式进行发送。
[0057]在一个实施例中,在生成包含时间窗、告警类型、降维后的访问链路的告警结果的步骤之后,对生成的告警结果进行提示之前,上述告警分析的方法还包括:根据告警类型对告警结果进行原因汇总处理。此外,若告警结果有相应以往的处理方式,也可将以往的处理方式和告警结果一起以即时通信信息和/或电子邮件和/或短信形式进行发送。
[0058]图5为另一个实施例中告警分析的方法的流程图。如图5所示,一种告警分析的方法包括以下步骤:
[0059]步骤502,获取业务数据中的告警。
[0060]具体的,业务数据是指各种业务服务产生的数据,海量的业务数据分布在网络中。以分钟级或秒级为单元获取业务数据中的告警,也就是获取预设分钟或秒时间内业务数据中的告警。该预设分钟可为I分钟、3分钟、5分钟等。预设秒可为30秒、60秒、120秒等。告警是指业务模块的某些运营指标不符合规定的标准,例如磁盘使用100%等。业务模块是指一个IP(Internet Protocol,网际协议)或一组IP的集合。
[0061]步骤504,将告警相关信息格式化为对应业务模块的时间窗的数据。
[0062]具体的,告警相关信息是指表示告警的相关参数,例如变更、网络故障等。变更可是指业务服务功能变更、或者IP地址变更等。将告警相关信息以分钟级或秒级为单元格式化为对应业务模块的时间窗的数据,即将告警相关信息记录为某个时间窗内的告警事件。时间窗是指根据需要定义的时间段,例如定义5分钟为一个时间窗,将一天分为288个时间窗。也可定义10分钟为一个时间窗,将一天分为144个时间窗等。
[0063]步骤506,将得到的业务模块关系绘制得到访问链路。
[0064]具体的,通过IP抓包方式将业务模块之间关系进行汇聚,然后绘制得到访问链路。访问链路是指同一业务模块不重复出现的一条访问关系链,如业务模块A->业务模块B-〉业务模块C等。业务模块关系是指业务模块之间的访问关系,即IP访问关系,如IP1->IP2,业务模块A->业务模块B。
[0065]步骤508,从该绘制得到的访问链路中筛选出核心访问链路。
[0066]具体的,核心访问链路是指预先设定的访问链路,该预先设定的访问链路能准确的反映告警根源和影响范围等。
[0067]将绘制得到的访问链路与预先设定的访问链路进行对比可得到核心访问链路。
[0068]步骤510,将该告警、时间窗的数据、核心访问链路和业务模块进行对应存储。
[0069]本实施例中,步骤510包括:将该告警和时间窗的数据与业务模块标识对应存储;将核心访问链路与业务模块标识对应存储。业务模块标识是用于唯一表示业务模块的,如IP地址等。将告警和时间窗的数据与业务模块标识对应存储,然后将访问链路与业务模块标识对应存储,因一个业务模块可能出现在多个访问链路中,将访问链路与业务模块标识对应存储可避免重复存储告警和时间窗数据,节省存储空间。告警、业务模块、时间窗和核心访问链路的存储结构可采用第一表存放访问链路和核心访问链路标识,第二表存放业务模块标识和核心访问链路标识,第三表存放业务模块标识和告警内容。告警内容是一个字符型数组,告警内容分为288个点,每个点代表一个时间窗,每个时间窗存多种告警类型,每种告警类型支持存int 255的一个最大数值。
[0070]在其他实施例中,也可将告警、时间窗的数据、访问链路和业务模块一起对应存储。一起存储数据集中,查找方便。
[0071]步骤512,对该业务模块所对应的告警进行分类,得到告警类型。
[0072]具体的,告警类型可包括长期告警、波动告警和关联告警。长期告警是指一段时间内持续发生的告警。波动告警是指突发的告警,但与其他业务模块没有关系。关联告警是指突发的告警,且与其他业务模块有关系。告警类型中关联告警级别最高,波动告警级别次之,长期告警级别再次之。
[0073]步骤514,对该业务模块所对应的核心访问链路进行降维处理,得到降维后的核心访问链路。
[0074]本实施例中,对业务模块所对应的核心访问链路进行降维处理,得到降维后的访问链路的步骤包括:判断该业务模块所对应的访问链路中在当前告警的时间窗内是否有告警,若有,则保留有告警的链路,若无,则过滤无告警的链路,得到降维后的访问链路。
[0075]步骤516,生成包含时间窗的数据、告警类型、降维后的核心访问链路以及受告警所影响的业务模块的告警结果。
[0076]上述告警分析的方法,通过获取业务数据中的告警,将告警相关信息格式化为对应的时间窗的数据,获取业务模块所对应的访问链路,并确定告警类型,生成包括时间窗的数据、告警类型、降维后的核心访问链路的告警结果,告警结果中包含了告警的描述、告警类型、发生时间、受告警所影响的业务模块等,可有效降低70%告警量,省掉了告警分析和定位,直达处理告警,节省了告警处理时间30%以上,提高了告警处理效率。
[0077]图6为一个实施例中对业务模块所对应的告警进行分类,得到告警类型的具体流程图。如图6所示,该对业务模块所对应的告警进行分类,得到告警类型的步骤包括:
[0078]步骤602,获取预定时间内该业务模块所对应的告警失败率。
[0079]具体的,接收到告警后,获取预定时间内该告警的失败率。预定时间可根据需要设定,如24小时。告警的失败率是指统计预定数量告警中失败的次数或百分比等,例如100次告警,95次成功,5次失败,则告警的失败率的值为5。告警失败率分布为正态分布。
[0080]步骤604,根据该告警失败率计算平均值及标准差。
[0081]告警失败率呈正态分布,则在正态分布中在正态分布中σ代表标准差,μ代表均值X= μ即为图像的对称轴。多次计算得到告警失败率,然后计算多次告警失败率的平均值及标准差。
[0082]步骤606,判断该告警失败率是否小于阈值,该阈值是根据平均值和标准差得到的。
[0083]具体的,阈值可根据平均值和标准差得到的,例如,阈值可为平均值加上3倍标准差。3倍标准差即采用3sigma原则,3sigma原则即为数值分布在(μ—σ,μ + σ)中的概率为0.6526 ;数值分布在(μ —2 σ,μ +2 σ )中的概率为0.9544 ;数值分布在(μ —3 σ,μ+3σ )中的概率为0.9974。
[0084]步骤608,若告警失败率小于阈值,则判定该业务模块所对应的告警为长期告警。
[0085]步骤610,若告警失败率大于或等于阈值,则进一步判断设定的历史相同时间窗内是否也发生过告警。
[0086]步骤612,若在设定的历史相同时间窗内发生过告警,则判定该业务模块所对应的告警为长期告警。
[0087]步骤614,若在设定的历史相同时间窗内未发生过告警,则以该业务模块为根,根据该业务模块进行深度搜索。
[0088]具体的,可采用深度为2的深度进行搜索。
[0089]步骤616,判断搜索到的其他业务模块在当前相同时间窗内是否有非长期告警发生,若是,则执行步骤618,若否,执行步骤620。
[0090]步骤618,判定该业务模块所对应的告警为关联告警。
[0091]步骤620,判定该业务模块所对应的告警为波动告警。
[0092]通过对告警类型进行确定可提醒使用者针对告警类型及时处理告警。
[0093]为了进一步说明告警分析的方法流程,以图7所示实施例进行描述。如图7所示,告警分析的方法流程包括:
[0094](I)将千万级的业务数据上报,以分钟级对业务数据进行处理转化为业务最细力度分钟告警。
[0095](2)将告警相关信息,如变更,网络故障等,每分钟格式化为对应业务模块的时间窗的数据。
[0096](3)将时间窗的数据和告警基于业务模块进行格式存储。
[0097](4) IP抓包汇聚业务模块关系,每天绘制成访问链路,将访问链路基于业务模块进行格式存储。
[0098]具体的,IP抓包汇聚业务模块关系,即抓取业务模块访问关系。
[0099](5)每天从访问链路中筛选核心访问链路,将核心访问链路也基于业务模块进行格式存储。
[0100](6)将经过格式存储的时间窗的数据、告警、访问链路所对应的业务模块进行告警分类,得到告警类型可为长期告警、波动告警或关联告警。
[0101](7)将经过告警分类后的业务模块所对应的访问链路进行告警链路降维处理。
[0102](8)生成包含时间窗的数据、告警类型、降维后的访问链路等信息的告警结果。
[0103]在⑶之后,还包括:根据告警类型对告警结果进行原因汇总处理。此外,若告警结果有相应以往的处理方式,也可将以往的处理方式和告警结果一起以即时通信信息和/或电子邮件和/或短信形式进行发送。
[0104](9)将告警结果展示给计算机、手机、或以即时通信信息、电子邮件、短信等方式提示告警结果。
[0105]图8为一个实施例中告警分析的装置的结构框图。如图8所示,该告警分析的装置,包括获取模块810、格式化模块820、绘制模块830、存储模块840、类型确定模块850、降维处理模块860和生成模块870。其中:
[0106]获取模块810用于获取业务数据中的告警。
[0107]具体的,业务数据是指各种业务服务产生的数据,海量的业务数据分布在网络中。以分钟级或秒级为单元获取业务数据中的告警,也就是获取预设分钟或秒时间内业务数据中的告警。该预设分钟可为I分钟、3分钟、5分钟等。预设秒可为30秒、60秒、120秒等。告警是指业务模块的某些运营指标不符合规定的标准,例如磁盘使用100%等。业务模块是指一个IP(Internet Protocol,网际协议)或一组IP的集合。
[0108]格式化模块820用于将告警相关信息格式化为对应业务模块的时间窗的数据。
[0109]具体的,告警相关信息是指表示告警的相关参数,例如变更、网络故障等。变更可是指业务服务功能变更、或者IP地址变更等。将告警相关信息以分钟级或秒级为单元格式化为对应业务模块的时间窗的数据,即将告警相关信息记录为某个时间窗内的告警事件。时间窗是指根据需要定义的时间段,例如定义5分钟为一个时间窗,将一天分为288个时间窗。也可定义10分钟为一个时间窗,将一天分为144个时间窗等。
[0110]绘制模块830用于将得到的业务模块关系绘制得到访问链路。
[0111]具体的,通过IP抓包方式将业务模块之间关系进行汇聚,然后绘制得到访问链路。访问链路是指同一业务模块不重复出现的一条访问关系链,如业务模块A->业务模块B-〉业务模块C等。业务模块关系是指业务模块之间的访问关系,即IP访问关系,如IP1->IP2,业务模块A->业务模块B。
[0112]存储模块840用于将该告警、时间窗的数据、访问链路和业务模块进行对应存储。
[0113]具体的,存储模块840将该告警和时间窗的数据与业务模块标识对应存储,以及将该访问链路与业务模块标识对应存储。业务模块标识是用于唯一表示业务模块的,如IP地址等。将告警和时间窗的数据与业务模块标识对应存储,然后将访问链路与业务模块标识对应存储,因一个业务模块可能出现在多个访问链路中,将访问链路与业务模块标识对应存储可避免重复存储告警和时间窗数据,节省存储空间。告警、业务模块、时间窗和访问链路的存储结构可采用第一表存放访问链路和访问链路标识,第二表存放业务模块标识和访问链路标识,第三表存放业务模块标识和告警内容。告警内容是一个字符型数组,告警内容分为288个点,每个点代表一个时间窗,每个时间窗存多种告警类型,每种告警类型支持存int 255的一个最大数值。
[0114]在其他实施例中,也可将告警、时间窗的数据、访问链路和业务模块一起对应存储。一起存储数据集中,查找方便。
[0115]类型确定模块850用于对该业务模块所对应的告警进行分类,得到告警类型。
[0116]具体的,告警类型可包括长期告警、波动告警和关联告警。长期告警是指一段时间内持续发生的告警。波动告警是指突发的告警,但与其他业务模块没有关系。关联告警是指突发的告警,且与其他业务模块有关系。告警类型中关联告警级别最高,波动告警级别次之,长期告警级别再次之。
[0117]降维处理模块860用于对该业务模块所对应的访问链路进行降维处理,得到降维后的访问链路。
[0118]本实施例中,降维处理模块860还用于判断该业务模块所对应的访问链路中在当前告警的时间窗内是否有告警,若有,则保留有告警的链路,若无,则过滤无告警的链路,得到降维后的访问链路。
[0119]生成模块870用于生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果。
[0120]上述告警分析的装置,通过获取业务数据中的告警,将告警相关信息格式化为对应的时间窗的数据,获取业务模块所对应的访问链路,并确定告警类型,生成包括时间窗的数据、告警类型、降维后的访问链路的告警结果,告警结果中包含了告警的描述、告警类型、发生时间等,可有效降低告警量,省掉了告警分析和定位,直达处理告警,节省了告警处理时间,提高了告警处理效率。
[0121]图9为另一个实施例中告警分析的装置的结构框图。如图9所示,该告警分析的装置,除了包括获取模块810、格式化模块820、绘制模块830、存储模块840、类型确定模块850、降维处理模块860和生成模块870,还包括筛选模块880、汇总模块882和提示模块890。其中:
[0122]筛选模块880用于从该绘制得到的访问链路中筛选出核心访问链路。具体的,核心访问链路是指预先设定的访问链路,该预先设定的访问链路能准确的反映告警根源和影响范围等。将绘制得到的访问链路与预先设定的访问链路进行对比可得到核心访问链路。
[0123]存储模块840还用于将该告警、时间窗的数据、核心访问链路和业务模块进行对应存储。
[0124]具体的,存储模块840将该告警和时间窗的数据与业务模块标识对应存储;将核心访问链路与业务模块标识对应存储。业务模块标识是用于唯一表示业务模块的,如IP地址等。将告警和时间窗的数据与业务模块标识对应存储,然后将访问链路与业务模块标识对应存储,因一个业务模块可能出现在多个访问链路中,将访问链路与业务模块标识对应存储可避免重复存储告警和时间窗数据,节省存储空间。
[0125]在其他实施例中,也可将告警、时间窗的数据、访问链路和业务模块一起对应存储。一起存储数据集中,查找方便。
[0126]类型确定模块850还用于对该业务模块所对应的告警进行分类,得到告警类型。具体的,告警类型可包括长期告警、波动告警和关联告警。长期告警是指一段时间内持续发生的告警。波动告警是指突发的告警,但与其他业务模块没有关系。关联告警是指突发的告警,且与其他业务模块有关系。告警类型中关联告警级别最高,波动告警级别次之,长期告警级别再次之。
[0127]降维处理模块860还用于对该业务模块所对应的核心访问链路进行降维处理,得到降维后的核心访问链路。
[0128]本实施例中,降维处理模块860还用于判断该业务模块所对应的访问链路中在当前告警的时间窗内是否有告警,若有,则保留有告警的链路,若无,则过滤无告警的链路,得到降维后的访问链路。
[0129]生成模块870还用用于生成包含时间窗的数据、告警类型、降维后的核心访问链路以及受告警所影响的业务模块的告警结果。
[0130]汇总模块882用于根据该告警类型对该告警结果进行原因汇总处理。
[0131]提示模块890用于在该生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果之后,对生成的告警结果进行提示。
[0132]该提示模块890还用于展示该告警结果。具体的,可将告警结果展示在终端或服务器上。
[0133]在其他实施例中,提示模块890还用于将该告警结果以即时通信信息和/或电子邮件和/或短信形式进行发送。此外,若告警结果有相应以往的处理方式,也可将以往的处理方式和告警结果一起以即时通信信息和/或电子邮件和/或短信形式进行发送。
[0134]上述告警分析的装置,通过获取业务数据中的告警,将告警相关信息格式化为对应的时间窗的数据,获取业务模块所对应的访问链路,并确定告警类型,生成包括时间窗的数据、告警类型、降维后的核心访问链路的告警结果,告警结果中包含了告警的描述、告警类型、发生时间、受告警所影响的业务模块等,可有效降低70%告警量,省掉了告警分析和定位,直达处理告警,节省了告警处理时间30%以上,提高了告警处理效率。
[0135]图10为一个实施例中类型确定模块的内部结构框图。如图10所示,该类型确定模块850包括获取单元1010、计算单元1020、判断单元1030、判定单元1040和搜索单元1050。其中:
[0136]获取单元1010用于获取预定时间内该业务模块所对应的告警失败率。具体的,接收到告警后,获取预定时间内该告警的失败率。预定时间可根据需要设定,如24小时。告警的失败率是指统计预定数量告警中失败的次数或百分比等,例如100次告警,95次成功,5次失败,则告警的失败率的值为5。告警失败率分布为正态分布。
[0137]计算单元1020用于根据该告警失败率计算平均值及标准差。多次计算得到告警失败率,然后计算多次告警失败率的平均值及标准差。
[0138]判断单元1030用于判断该告警失败率是否大于阈值,该阈值是根据平均值和标准差得到的。
[0139]判定单元1040用于若告警失败率小于阈值,则判定该业务模块所对应的告警为长期告警。
[0140]若告警失败率大于或等于阈值,则该判断单元1040还用于进一步判断设定的历史相同时间窗内是否也发生过告警。
[0141]若在设定的历史相同时间窗内发生过告警,贝Ij判定单元1040还用于判定该业务模块所对应的告警为长期告警。
[0142]搜索单元1050用于若在设定的历史相同时间窗内未发生过告警,则以该业务模块为根,根据该业务模块进行深度搜索。
[0143]该判断单元1030还用于判断搜索到的其他业务模块在当前相同时间窗内是否有非长期告警发生。
[0144]该判定单元1040还用于当判断出搜索到的其他业务模块在当前相同时间窗内有非长期告警发生时,则判定该业务模块所对应的告警为关联告警,以及当判断出搜索到的其他业务模块在当前相同时间窗内没有非长期告警发生时,则判定该业务模块所对应的告警为波动告警。
[0145]图11为终端的内部结构示意图。如图11所示,该终端包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,终端的存储介质存储有操作系统,还包括一种告警分析的装置,该告警分析的装置用于实现一种告警分析的方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存为存储介质中的告警分析的装置的运行提供环境,网络接口用于与服务器进行网络通信。
[0146]图12为服务器的内部结构示意图。如图12所示,该服务器包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,该服务器的存储介质存储有操作系统、数据库和告警分析的装置,数据库中业务数据等,该告警分析的装置用于实现一种告警分析的方法。该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存为存储介质中的告警分析的装置的运行提供环境。该服务器的网络接口用于据以与外部的终端通过网络连接通信,比如接收终端发送的请求以及向终端返回数据等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0147]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)等。
[0148]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
【主权项】
1.一种告警分析的方法,包括以下步骤: 获取业务数据中的告警; 将告警相关信息格式化为对应业务模块的时间窗的数据; 将得到的业务模块关系绘制得到访问链路; 将所述告警、时间窗的数据、访问链路和业务模块进行对应存储; 对所述业务模块所对应的告警进行分类,得到告警类型; 对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路; 生成包含时间窗、告警类型、降维后的访问链路的告警结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括: 从所述绘制得到的访问链路中筛选出核心访问链路; 将所述告警、时间窗的数据、核心访问链路和业务模块进行对应存储; 对所述业务模块所对应的告警进行分类,得到告警类型; 对所述业务模块所对应的核心访问链路进行降维处理,得到降维后的核心访问链路;生成包含时间窗的数据、告警类型、降维后的核心访问链路以及受告警所影响的业务模块的告警结果。3.根据权利要求1所述的方法,其特征在于,所述将所述告警、时间窗的数据、访问链路和业务模块进行对应存储的步骤包括: 将所述告警和时间窗的数据与业务模块标识对应存储; 将所述访问链路与业务模块标识对应存储。4.根据权利要求1所述的方法,其特征在于,所述对所述业务模块所对应的告警进行分类,得到告警类型的步骤包括: 获取预定时间内所述业务模块所对应的告警失败率; 根据所述告警失败率计算平均值及标准差; 判断所述告警失败率是否小于阈值,所述阈值是根据平均值和标准差得到的; 若告警失败率小于阈值,则判定所述业务模块所对应的告警为长期告警; 若告警失败率大于或等于阈值,则进一步判断设定的历史相同时间窗内是否也发生过告警; 若在设定的历史相同时间窗内发生过告警,则判定所述业务模块所对应的告警为长期告警; 若在设定的历史相同时间窗内未发生过告警,则以所述业务模块为根,根据所述业务模块进行深度搜索; 判断搜索到的其他业务模块在当前相同时间窗内是否有非长期告警发生,若是,则判定所述业务模块所对应的告警为关联告警,若否,则判定所述业务模块所对应的告警为波动告警。5.根据权利要求1所述的方法,其特征在于,对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路的步骤包括: 判断所述业务模块所对应的访问链路中在当前告警的时间窗内是否有告警,若有,则保留有告警的链路,若无,则过滤无告警的链路,得到降维后的访问链路。6.根据权利要求1所述的方法,其特征在于,在所述生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果的步骤之后,所述方法还包括: 根据所述告警类型对所述告警结果进行原因汇总处理; 和/或对生成的告警结果进行提示。7.根据权利要求6所述的方法,其特征在于,所述对生成的告警结果进行提示的步骤包括: 展示所述告警结果; 或者,将所述告警结果以即时通信信息和/或电子邮件和/或短信形式进行发送。8.一种告警分析的装置,其特征在于,包括: 获取模块,用于获取业务数据中的告警; 格式化模块,用于将告警相关信息格式化为对应业务模块的时间窗的数据; 绘制模块,用于将得到的业务模块关系绘制得到访问链路; 存储模块,用于将所述告警、时间窗的数据、访问链路和业务模块进行对应存储; 类型确定模块,用于对所述业务模块所对应的告警进行分类,得到告警类型; 降维处理模块,用于对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路; 生成模块,用于生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果。9.根据权利要求8所述的装置,其特征在于,所述装置还包括: 筛选模块,用于从所述绘制得到的访问链路中筛选出核心访问链路; 所述存储模块还用于将所述告警、时间窗的数据、核心访问链路和业务模块进行对应存储; 所述类型确定模块还用于对所述业务模块所对应的告警进行分类,得到告警类型; 所述降维处理模块还用于对所述业务模块所对应的核心访问链路进行降维处理,得到降维后的核心访问链路; 所述生成模块还用用于生成包含时间窗的数据、告警类型、降维后的核心访问链路以及受告警所影响的业务模块的告警结果。10.根据权利要求8所述的装置,其特征在于,所述存储模块还用于将所述告警和时间窗的数据与业务模块标识对应存储,以及将所述访问链路与业务模块标识对应存储。11.根据权利要求8所述的装置,其特征在于,所述类型确定模块包括: 获取单元,用于获取预定时间内所述业务模块所对应的告警失败率; 计算单元,用于根据所述告警失败率计算平均值及标准差; 判断单元,用于判断所述告警失败率是否大于阈值,所述阈值是根据平均值和标准差得到的; 判定单元,用于若告警失败率小于阈值,则判定所述业务模块所对应的告警为长期告馨.1=I , 若告警失败率大于或等于阈值,则所述判断单元还用于进一步判断设定的历史相同时间窗内是否也发生过告警; 若在设定的历史相同时间窗内发生过告警,则判定单元还用于判定所述业务模块所对应的告警为长期告警; 搜索单元,用于若在设定的历史相同时间窗内未发生过告警,则以所述业务模块为根,根据所述业务模块进行深度搜索; 所述判断单元还用于判断搜索到的其他业务模块在当前相同时间窗内是否有非长期告警发生; 所述判定单元还用于当判断出搜索到的其他业务模块在当前相同时间窗内有非长期告警发生时,则判定所述业务模块所对应的告警为关联告警,以及当判断出搜索到的其他业务模块在当前相同时间窗内没有非长期告警发生时,则判定所述业务模块所对应的告警为波动告警。12.根据权利要求8所述的装置,其特征在于,所述降维处理模块还用于判断所述业务模块所对应的访问链路中在当前告警的时间窗内是否有告警,若有,则保留有告警的链路,若无,则过滤无告警的链路,得到降维后的访问链路。13.根据权利要求8所述的装置,其特征在于,所述装置还包括: 汇总模块,用于根据所述告警类型对所述告警结果进行原因汇总处理; 和/或提示模块,用于在所述生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果之后,对生成的告警结果进行提示。14.根据权利要求13所述的装置,其特征在于,所述提示模块还用于展示所述告警结果; 或者,所述提示模块还用于将所述告警结果以即时通信信息和/或电子邮件和/或短信形式进行发送。
【文档编号】H04L12/24GK106034044SQ201510122958
【公开日】2016年10月19日
【申请日】2015年3月19日
【发明人】曹凤龙, 聂鑫, 梁定安, 黄兆鹏, 霍特, 杨波, 陶凛然, 赵子青, 黄伟俊, 黄浩宇
【申请人】深圳市腾讯计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1