一种工单风暴控制方法、装置及系统与流程

文档序号:12828880阅读:341来源:国知局
一种工单风暴控制方法、装置及系统与流程

本发明涉及通信网网络管理技术领域,特别涉及一种工单风暴控制方法、装置及系统。



背景技术:

随着数据业务带动的通信业务需求爆炸性增长,以及网络规模日益扩大与复杂化,尤其4g快速建网进一步增加网络的复杂性、异构性及扁平化,一个故障或某一未知原因可能引发大量告警短时间内迅猛出现,形成告警风暴,造成网管系统性能迅速下降甚至系统崩溃等严重影响。另外,随着电信行业网络管理智能化、集中化的趋势,网管系统从设备采集告警后,大部分告警经过智能预处理自动透传到一线故障处理人员(仅保留少部分无法智能预处理告警派到预处理人员进行人工处理后再派给故障处理人员),故障处理人员通过专门设备或专用手机软件获取工单信息进行故障处理,这种情况下告警风暴会产生大量工单短时间内透传到一线故障处理人员,告警风暴演变成工单风暴,影响故障处理人员正常处理故障(如获取工单手机软件吊死、无法定位故障等),增加其工作量。因此,通过有效的方法对工单风暴进行控制、使故障处理人员快速定位处理故障对保障通信网络稳定、安全地提供优质服务有着重要的意义。

因为工单风暴存在着工单量大,短时间内迅猛派发的特点,需要对其进行有效控制才能快读定位、处理故障。目前的方案中,通过告警风暴的控制,减少派单告警,能一定程度减少工单量。目前网管层面通过丢弃部分告警或减少告警上报、增加线程并发运行提高处理能力、告警关联压缩等方法对告警风暴进行控制。另外,告警关联压缩的控制方法指通过告警合并压缩减少告警量,从而控制告警风暴。总的来说,这些方法都是通过网管层面的策略来对告警风暴进行控制,避免网管系统性能快速下降甚至系统崩溃,同时也可能一定程度减少了工单量。但这些方法主要针对解决告警风暴造成网管性能快速下降甚至 系统崩溃的问题,却不能完全避免工单风暴的产生,如增加线程并发运行提高处理能力没有减少告警量或工单量、另外一些减少告警量的方案并非针工单量控制也不一定能减少到理想的工单量,而工单风暴也无法简单套用告警风暴的控制方法进行控制。

另外,目前直接对工单风暴的控制方法主要有告警手工抑制派单以及工单系统后台删单。前者是指出现告警风暴时,告警处于等待派单状态,监控人员可手工对告警进行抑制派单避免变成工单风暴;后者指告警风暴在告警派单后形成工单风暴,可通过工单系统后台删单来解决工单风暴的问题。可是这些方案没有实现智能化,而派单告警量大且时间集中,人的反应时延和系统处理时延使得派单前难以通过人工及时抑制所有风暴告警;派单后工单系统后台手动删单,一方面删单没有准则难以操作,批量删除工单风暴的工单的同时难以保证每个故障能有工单跟进,另一方面已经下派可能影响故障处理人员正常处理故障(如删单前工单手机软件可能已经吊死、删单后工单缺失无法定位故障等)。



技术实现要素:

本发明要解决的技术问题是提供一种工单风暴控制方法、装置及系统,用以解决现有工单风暴控制方法及时性差、可操作性差、智能化程度低,影响故障处理效率的问题。

为了解决上述技术问题,本发明实施例提供一种工单风暴控制方法,包括:

将获取的告警进行派单标识的匹配,获取需要派单的第一告警;

在预设维度上,根据预设检测时间间隔、对所述第一告警在预设检测时间段内即将产生的派单量进行统计,得到一统计结果;

根据所述统计结果,判断是否存在工单风暴;

若存在工单风暴,则生成将派往第一处理人员的工单改变流向到第二处理人员的处理命令。

进一步地,所述预设维度为地区名称、设备厂家和网络分类三元组组合的维度。

进一步地,所述预设检测时间间隔为告警的最短派单时延,预设检测时间段的时长大于或等于预设检测时间间隔的时长。

进一步地,所述在预设维度上,根据预设检测时间间隔、对所述第一告警在预设检测时间段内即将产生的派单量进行统计,得到一统计结果的步骤具体为:

获取对所述第一告警根据预设关联压缩规则进行关联压缩,得到的关联压缩结果;

获取所述第一告警的追加逻辑规则;

根据所述关联压缩结果和所述追加逻辑规则,判断得到若所述第一告警在预设检测时间段内产生派单,则将所述第一告警对应所属的预设维度上的派单量加一;

在达到预设检测间隔对应的检测时刻时,获取在预设检测时间段内的预设维度上的统计结果。

进一步地,所述根据所述统计结果,判断是否存在工单风暴的步骤具体为:

将所述统计结果与设定的当前统计周期内的预定阈值时间段内的阈值门限进行比较,得到一比较结果;

若所述比较结果表明所述统计结果大于所述阈值门限,则证明在所述预设检测时间段内存在工单风暴。

进一步地,所述工单风暴控制方法还包括:

获取上一统计周期内的预设阈值时间段内的派单量样本;

根据所述派单量样本,确定当前统计周期内的预定阈值时间段内的阈值门限。

进一步地,所述根据所述派单量样本,确定当前统计周期内的预定阈值时间段内的阈值门限的步骤具体为:

根据公式:t=max{ti,tmin}得到当前统计周期内的预定阈值时间段内的阈值门限;其中,

t为当前统计周期内的预定阈值时间段内的阈值门限,tmin为预设的最低门限阈值,ti为由上一统计周期内的预设阈值时间段内的派单量样本得到的参考阈值;其中,

ti=a×(μ+bs),a为放大系数,b为标准差系数,μ为上一统计周期内的预定阈值时间段内的派单量样本的平均值,s为上一统计周期内的预定阈值时间 段内的派单量样本的标准差。

进一步地,所述工单风暴控制方法还包括:

若存在工单风暴,则生成工单风暴告警。

进一步地,所述工单风暴告警包括:告警标题、省份、地区名称、设备厂家、网络分类、产生时间、工单风暴检测时间段、工单风暴下统计的预计派单量和当前工单风暴的阈值门限中的一种或多种。

本发明实施例提供一种工单风暴控制装置,包括:

派单告警获取模块,用于将获取的告警进行派单标识的匹配,获取需要派单的第一告警;

统计模块,用于在预设维度上,根据预设检测时间间隔、对所述第一告警在预设检测时间段内即将产生的派单量进行统计,得到一统计结果;

判断模块,用于根据所述统计结果,判断是否存在工单风暴;

工单风暴处理模块,用于若存在工单风暴,则生成将派往第一处理人员的工单改变流向到第二处理人员的处理命令。

进一步地,所述统计模块包括:

第一获取单元,用于获取对所述第一告警根据预设关联压缩规则进行关联压缩,得到的关联压缩结果;

第二获取单元,用于获取所述第一告警的追加逻辑规则;

统计单元,用于根据所述关联压缩结果和所述追加逻辑规则,判断得到若所述第一告警在预设检测时间段内产生派单,则将所述第一告警对应所属的预设维度上的派单量加一;

第三获取单元,用于在达到预设检测间隔对应的检测时刻时,获取在预设检测时间段内的预设维度上的统计结果。

进一步地,所述判断模块包括:

比较单元,用于将所述统计结果与设定的当前统计周期内的预定阈值时间段内的阈值门限进行比较,得到一比较结果;

判断单元,用于若所述比较结果表明所述统计结果大于所述阈值门限,则证明在所述预设检测时间段内存在工单风暴。

进一步地,所述工单风暴控制装置还包括:

样本获取模块,用于获取上一统计周期内的预设阈值时间段内的派单量样本;

阈值确定模块,用于根据所述派单量样本,确定当前统计周期内的预定阈值时间段内的阈值门限。

进一步地,所述工单风暴控制装置还包括:

告警生成模块,用于若存在工单风暴,则生成工单风暴告警。

本发明实施例提供一种工单风暴控制系统,包括:

采集装置、告警关联压缩预处理装置、工单派发装置、工单风暴控制装置、人机交互装置和显示装置;其中,

采集装置,用于进行告警的采集;

告警关联压缩预处理装置,用于对采集的告警根据预设关联压缩规则进行关联压缩,得到关联压缩结果,并将关联压缩结果推送给工单风暴控制装置;

工单派发装置,用于进行派单标识及告警追加逻辑的生成,并将派单标识及告警追加逻辑推送给工单风暴控制装置;

工单风暴控制装置,用于获取采集装置采集的告警,并根据告警关联压缩预处理装置和工单派发装置的推送信息,进行工单风暴检测;

显示装置,用于显示工单风暴控制装置的检测结果;

人机交互装置,用于对采集装置、告警关联压缩预处理装置、工单派发装置、工单风暴控制装置和显示装置进行控制;

其中,工单风暴控制装置包括:

派单告警获取模块,用于将获取的告警进行派单标识的匹配,获取需要派单的第一告警;

统计模块,用于在预设维度上,根据预设检测时间间隔、对所述第一告警在预设检测时间段内即将产生的派单量进行统计,得到一统计结果;

判断模块,用于根据所述统计结果,判断是否存在工单风暴;

工单风暴处理模块,用于若存在工单风暴,则生成将派往第一处理人员的工单改变流向到第二处理人员的处理命令。

本发明的有益效果是:

上述方案,通过对告警进行派单量的统计预测,在统计结果表明存在工单 风暴时,动态改变工单流向,避免大量工单派到一线故障处理人员,实现了工单风暴的及时、智能控制。

附图说明

图1表示本发明实施例一的工单风暴控制方法的总体流程图;

图2表示判断是否存在工单风暴的方法的流程示意图;

图3表示本发明实施例二的工单风暴控制方法的总体流程图;

图4表示对是否存在工单风暴进行检测及检测完成后的控制流程;

图5表示本发明实施例的工单风暴控制装置的模块示意图;

图6表示本发明实施例的工单风暴控制系统的组成结构示意图;

图7表示工单风暴检测及控制的文件导入界面示意图;

图8表示工单风暴检测及控制的列表选择界面示意图;

图9表示工单风暴控制系统的工作步骤示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。

本发明针对现有工单风暴控制方法及时性差、可操作性差、智能化程度低,影响故障处理效率的问题,提供一种工单风暴控制方法、装置及系统。

实施例一

如图1所示,本发明实施例一的工单风暴控制方法,包括:

步骤11,将获取的告警进行派单标识的匹配,获取需要派单的第一告警;

步骤12,在预设维度上,根据预设检测时间间隔、对所述第一告警在预设检测时间段内即将产生的派单量进行统计,得到一统计结果;

步骤13,根据所述统计结果,判断是否存在工单风暴;

步骤14,若存在工单风暴,则生成将派往第一处理人员的工单改变流向到第二处理人员的处理命令;

需要说明的是,该第一处理人员为一线故障处理人员,该第二处理人员为预处理人员。

需要说的是,在进行派单量的统计预测时,首先要筛选出需要进行派单的告警。通常情况下,因采集的每个告警中均包含“派单标识”这个字段,但是当采集到告警后,每个告警中的“派单标识”这个字段并未记录内容,这时需要对采集的这些告警进行派单规则的匹配,如果匹配得到该告警需要进行派单,则将该告警的“派单标识”字段填充为“是”,否则,将该告警的“派单标识”字段填充为“否”,然后利用派单标识进行告警是否派单的筛选,此处筛选出来的应该是“派单标识”字段填充为“是”的所有告警。

需要说明的是,该预设维度为地区名称、设备厂家和网络分类三元组组合的维度,因为地区名称、设备厂家和网络分类每个属性均具有多个取值,所以本发明中在进行派单量的统计预测时,会首先依据地区名称、设备厂家和网络分类设置多个维度,例如,维度1:广州-厂家a-lte无线网络、维度2:深圳-厂家a-lte无线网络、维度3:广州-厂家b-3g网络等,在需要进行派单告警的统计时,将该告警与地区名称、设备厂家和网络分类进行对应,以匹配到与之对应的维度。

还需要说明的是,所述工单风暴控制方法中,关于预设检测时间间隔(t1)的选取可参考最短派单时延(立即派单告警,即派单时延为0的告警除外),t1的选取需小于等于各类告警派单时延中的最短派单时延才能保证各类告警派单前进行流向改变的控制,同时考虑检测消耗系统资源,t1应取尽可能长,因此,优选地,可将t1设为最短派单时延;而预设检测时间段(t2)在确定时,需使t2大于等于t1才能保证检测的时间段没有遗漏,优选地可将t2设为与t1相等。

可选地,所述步骤12在实现时,具体包括:

步骤121,获取对所述第一告警根据预设关联压缩规则进行关联压缩,得到的关联压缩结果;

步骤122,获取所述第一告警的追加逻辑规则;

步骤123,根据所述关联压缩结果和所述追加逻辑规则,判断得到若所述第一告警在预设检测时间段内产生派单,则将所述第一告警对应所属的预设维度上的派单量加一;

步骤124,在达到预设检测间隔对应的检测时刻时,获取在预设检测时间段内的预设维度上的统计结果。

需要说明的是,步骤12实现的主要是对派单量的估计,派单量的估计为模拟下一个检测时间段的告警派单,从而获取派单量的统计结果,具体为根据告警预计派单时间进行统计,若某告警的预计派单时间在下一个检测时间段内,则将该告警所属的地区名称、设备厂家、网络分类维度在下一个检测时间段的计数加一;另外,若网管部署了衍生规则,某些告警会关联压缩或衍生出新的告警、原告警以子告警形式附加到衍生告警中,该情况下的对派单量的统计按衍生告警的预计派单时间加一(原生告警因作为子告警不单独派单故不对其进行统计);此外,若网管部署了追加规则,某些告警会追加到之前已派工单中不再单独派单,该情况下不统计即将追加的告警也不改变其流向。

步骤12实现的是提前对将要派发的工单进行统计,以此来防止工单风暴的发生,例如预设检测时间间隔为10分钟,预设检测时间段的长度也为10分钟,假设从早晨六点到十二点进行工单风暴的检测,则这一时间段的检测时刻分别为6:00、6:10、6:20、…、12:00,且每个检测时刻统计得到的是此检测时刻到下个检测时刻之间将要产生的派单,例如:在8:00统计的为8:00到8:10这个时间段内将要产生的派单,当检测结果表明将要派发的工单量大于派单的预值门限时,则需要进行工单风暴的告警。

需要说明的是,在得到统计结果后,需根据该统计结果对是否要发生工单风暴进行判断,具体地,所述步骤13的具体实现方式为:

步骤131,将所述统计结果与设定的当前统计周期内的预定阈值时间段内的阈值门限进行比较,得到一比较结果;

步骤132,若所述比较结果表明所述统计结果大于所述阈值门限,则证明在所述预设检测时间段内存在工单风暴。

需要说明的是,该阈值门限可以根据历史派单情况进行计算得到,可选地,获取阈值门限的步骤具体包括:

获取上一统计周期内的预设阈值时间段内的派单量样本;

根据所述派单量样本,确定当前统计周期内的预定阈值时间段内的阈值门限。

具体地,所述根据所述派单量样本,确定当前统计周期内的预定阈值时间段内的阈值门限的步骤为:

根据公式:t=max{ti,tmin}得到当前统计周期内的预定阈值时间段内的阈值门限;其中,

t为当前统计周期内的预定阈值时间段内的阈值门限,tmin为预设的最低门限阈值(为了防止采集出现问题导致计算出来的ti特别小,导致频繁出现工单风暴的误告,进行预设的最低门限阈值的设定),ti为由上一统计周期内的预设阈值时间段内的派单量样本得到的参考阈值;其中,

ti=a×(μ+bs),a为放大系数,b为标准差系数,μ为上一统计周期内的预定阈值时间段内的派单量样本的平均值,s为上一统计周期内的预定阈值时间段内的派单量样本的标准差。

在实际应用中,可以利用一个月为周期来进行阈值门限的制定,并且考虑到一天内工单变化的周期性,每个维度一天可分几个阈值时间段(这里的阈值时间段跟检测时间段不同,阈值时间段是一个阈值的生效时间段。优选地可将一天分成2-3个阈值时间段)设置不同的阈值(阈值门限则为检测时间段内的派单量门限),优选地,可以取前一个月的统计数据进行分析。

对采用上述方法获取阈值门限的过程举例说明如下:统计维度是广州-a厂家-lte无线,检测时间间隔和检测时间段均为10min,阈值时间段6:00a.m-9:00a.m(一共有18个十分钟,每个10min广州-a厂家-lte无线的预计派单量为一个样本),前一个月为4月有30天,则共有18×30=540个样本组成样本集合,根据这540个数据算出对应均值和标准差。再根据公式t=max{ti,tmin}和公式ti=a×(μ+bs)便可计算出广州-a厂家-lte无线5月份6:00a.m-9:00a.m的阈值门限t。

所述阈值门限计算中,关于放大系数a、标准差系数b的选取,可根据统计数据灵活设定。a可以线性放大阈值,b可以通过样本集合的标准差调整阈值的大小,即通过线性放大波动程度来调整阈值的大小。正常情况下,优选地a取1。为了减少误告,可将b取大一点,优选地b可以取5以上。关于最小门限值tmin的选取,可以对所有维度统一设置一个值如20(跟网络规模相关),用于保证不会因采集出问题导致门限过低引起频繁工单风暴的误告。

所述阈值门限计算中,可以将一天分成多个阈值时间段设置阈值,如每天早上夜间工程结束开始派单,积累了夜间没有派单的告警,该时间段工单量会 特别多,可以将这个时间段设成一个阈值时间段;积累告警全部派单后,派单量恢复正常,可设第二个阈值时间段。为了方便维护,阈值时间段不宜设置太多,优选地一天可设置2-3个阈值时间段。

所述阈值门限计算可以通过程序根据历史数据自动计算生成,也可以通过人工导出历史数据报表计算。优选地,一个月重新计算一次阈值进行更新,以自适应一年不同月份工单量的周期性变化;此外,遇到节假日封网、omc(操作维护中心)割接等场景可以根据同类历史数据计算更新阈值。

如图2所示,本实施例进行判断是否存在工单风暴的主要流程为:

基于告警派单标识、地区名称、设备厂家、网络分类告警四元组进行统计,具体先对采集后的告警匹配派单规则,得到是否派单的派单标识,通过派单标识筛选出需要派单的告警;对筛选出来要派单的告警根据与故障对应性强的地区名称、设备厂家、网络分类三元组组合成的维度按检测时间间隔进行检测时段内预计派单量的统计;若某个检测时段内某维度的统计量大于预先设定的阈值则判定该时间段该维度即将存在工单风暴;否则,认为该时间段该维度没有工单风暴。

还需要说明的是,该工单风暴控制方法的生效时间为告警派单时间,若夜间工程期间停止派单,则不进行工单风暴的检测与控制。

本发明上述方案,在检测到即将发生工单风暴时,调整工单流向,避免了工单全部流向一线故障处理人员,造成故障处理人员工作量繁重,或造成工单漏处理的问题。

实施例二

如图3所示,本发明实施例二的工单风暴控制方法,包括:

步骤31,将获取的告警进行派单标识的匹配,获取需要派单的第一告警;

步骤32,在预设维度上,根据预设检测时间间隔、对所述第一告警在预设检测时间段内即将产生的派单量进行统计,得到一统计结果;

步骤33,根据所述统计结果,判断是否存在工单风暴;

步骤34,若存在工单风暴,则生成将派往第一处理人员的工单改变流向到第二处理人员的处理命令;

步骤35,若存在工单风暴,则生成工单风暴告警。

需要说明的是,若检测到即将产生工单风暴,则需要将该工单风暴以告警的方式通知网络管理人员,该工单风暴告警包括但不限于是:告警标题、省份、地区名称、设备厂家、网络分类、产生时间、工单风暴检测时间段、工单风暴下统计的预计派单量和当前工单风暴的阈值门限中的一种或多种;需要说明的是,当再次检测预计派单量的统计结果低于阈值门限时工单风暴告警消除。

监控人员看到工单风暴告警,可经过预处理后告知工单预处理人员,描述告警的基本信息以及可能原因;也可按相应流程报障。所述改变工单风暴流向为将原来派往一线故障处理人员的工单动态改变流向到预处理人员,原来派往预处理人员的工单不变,同时为工单风暴下的工单的工单内容中添加工单风暴标识通知预处理人员该工单为工单风暴下产生。

如图4所示,对是否存在工单风暴进行检测及检测完成后的控制流程具体为:

采集告警;

根据采集的告警,进行工单风暴检测,判断是否存在工单风暴,如果存在工单风暴,则上报工单风暴告警通知监控人员,并将原来派往一线故障处理人员的工单动态改变流向到预处理人员;然后人工仲裁、人工预处理告警是否由网络故障、网络异常引起,如果是由网络故障、网络异常引起,则针对故障派少量工单到故障处理人员,并拦截其它工单,如果不是由网络故障、网络异常引起,正常派单到故障处理人员,优选地,设置批量派发功能将工单批量派到对应的一线故障处理人员;

如果不存在工单风暴,则按原来流程进行正常派单,最后进行闭环处理。

本发明采用告警四元组的工单风暴控制方法,该方法能通过系统自动执行实现工单风暴智能检测;采用基于动态调整工单流向的控制方法,能实现系统在派单前及时智能控制,成为工单风暴形成的最后防线,有效控制工单风暴的形成,避免其对故障处理人员处理故障的影响、减轻其工作量。

实施例三

如图5所示,本发明实施例三提供一种工单风暴控制装置,包括:

派单告警获取模块51,用于将获取的告警进行派单标识的匹配,获取需要派单的第一告警;

统计模块52,用于在预设维度上,根据预设检测时间间隔、对所述第一告警在预设检测时间段内即将产生的派单量进行统计,得到一统计结果;

判断模块53,用于根据所述统计结果,判断是否存在工单风暴;

工单风暴处理模块54,用于若存在工单风暴,则生成将派往第一处理人员的工单改变流向到第二处理人员的处理命令。

其中,所述预设维度为地区名称、设备厂家和网络分类三元组组合的维度;所述预设检测时间间隔为告警的最短派单时延,预设检测时间段的时长大于或等于预设检测时间间隔的时长。

可选地,所述统计模块52具体包括:

第一获取单元,用于获取对所述第一告警根据预设关联压缩规则进行关联压缩,得到的关联压缩结果;

第二获取单元,用于获取所述第一告警的追加逻辑规则;

统计单元,用于根据所述关联压缩结果和所述追加逻辑规则,判断得到若所述第一告警在预设检测时间段内产生派单,则将所述第一告警对应所属的预设维度上的派单量加一;

第三获取单元,用于在达到预设检测间隔对应的检测时刻时,获取在预设检测时间段内的预设维度上的统计结果。

可选地,所述判断模块53具体包括:

比较单元,用于将所述统计结果与设定的当前统计周期内的预定阈值时间段内的阈值门限进行比较,得到一比较结果;

判断单元,用于若所述比较结果表明所述统计结果大于所述阈值门限,则证明在所述预设检测时间段内存在工单风暴。

需要说明的是,所述工单风暴控制装置还包括:

样本获取模块,用于获取上一统计周期内的预设阈值时间段内的派单量样本;

阈值确定模块,用于根据所述派单量样本,确定当前统计周期内的预定阈值时间段内的阈值门限。

可选地,所述阈值确定模块具体用于:

根据公式:t=max{ti,tmin}得到当前统计周期内的预定阈值时间段内的阈 值门限;其中,

t为当前统计周期内的预定阈值时间段内的阈值门限,tmin为预设的最低门限阈值,ti为由上一统计周期内的预设阈值时间段内的派单量样本得到的参考阈值;其中,

ti=a×(μ+bs),a为放大系数,b为标准差系数,μ为上一统计周期内的预定阈值时间段内的派单量样本的平均值,s为上一统计周期内的预定阈值时间段内的派单量样本的标准差。

可选地,所述工单风暴控制装置还包括:

告警生成模块,用于若存在工单风暴,则生成工单风暴告警。

其中,工单风暴告警包括:告警标题、省份、地区名称、设备厂家、网络分类、产生时间、工单风暴检测时间段、工单风暴下统计的预计派单量和当前工单风暴的阈值门限中的一种或多种。

需要说明的是,该工单风暴控制装置是与上述工单风暴控制方法相对应的装置,上述工单风暴控制方法的所有实现方式均适用于该工单风暴控制装置实施例,也能达到相同的技术效果。

实施例四

如图6所示,本发明实施例提供一种工单风暴控制系统,包括:

采集装置61、告警关联压缩预处理装置62、工单派发装置63、工单风暴控制装置64、人机交互装置65和显示装置66;其中,

采集装置61,用于进行告警的采集;

告警关联压缩预处理装置62,用于对采集的告警根据预设关联压缩规则进行关联压缩,得到关联压缩结果,并将关联压缩结果推送给工单风暴控制装置;

工单派发装置63,用于进行派单标识及告警追加逻辑的生成,并将派单标识及告警追加逻辑推送给工单风暴控制装置;

工单风暴控制装置64,用于获取采集装置采集的告警,并根据告警关联压缩预处理装置和工单派发装置的推送信息,进行工单风暴检测;

显示装置66,用于显示工单风暴控制装置的检测结果;

人机交互装置65,用于对采集装置61、告警关联压缩预处理装置62、工单派发装置63、工单风暴控制装置64和显示装置66进行控制;

其中,工单风暴控制装置64包括:

派单告警获取模块,用于将获取的告警进行派单标识的匹配,获取需要派单的第一告警;

统计模块,用于在预设维度上,根据预设检测时间间隔、对所述第一告警在预设检测时间段内即将产生的派单量进行统计,得到一统计结果;

判断模块,用于根据所述统计结果,判断是否存在工单风暴;

工单风暴处理模块,用于若存在工单风暴,则生成将派往第一处理人员的工单改变流向到第二处理人员的处理命令。

结合具体应用场景,对所述工单风暴控制系统进行详细说明如下:

各个装置按照图6的方式建立接口,需要说明的是,此处采集装置61指厂家网管上层的采集装置61,这六个装置均可以通过软件编程的方式实现。

采集装置61与告警关联压缩预处理装置62、工单派发装置63、工单风暴控制装置64及显示装置66连接,供各个装置获取告警使用。

告警关联压缩预处理装置62与采集装置61、工单风暴控制装置64、工单派发装置63、人机交互装置65、显示装置66连接,它从采集装置61、人机交互装置65分别获取告警和关联压缩或预处理规则,对告警根据规则进行关联压缩和预处理,将关联压缩和预处理后的结果传给工单风暴控制装置64进行预计派单量计数以及工单风暴检测、传给工单派发装置63进行告警工单派发、传给显示装置66显示压缩结果、预处理状态。

工单风暴控制装置64与采集装置61、告警关联压缩预处理装置62、工单派发装置63、人机交互装置65、显示装置66连接,它从采集装置61、告警关联压缩预处理装置62、工单派发装置63、人机交互装置65分别获取告警、告警的关联压缩情况和派单规则匹配结果、追加情况,以及工单风暴的检测规则,从而进行工单风暴的检测,将检测的结果传给工单派发装置63改变派单流向、传给人机交互装置65输出统计报表、传给显示装置66显示工单风暴告警。

工单派发装置63与采集装置61、告警关联压缩预处理装置62、工单风暴控制装置64、人机交互装置65、显示装置66连接,它从采集装置61、告警关联压缩预处理装置62、工单风暴控制装置64、人机交互装置65分别获取关联压缩及预处理结果、工单风暴检测结果、是否启用改变工单流向(人机交互装 置65),进行派单规则的匹配、工单追加及派单服务,并将追加结果通知工单风暴控制装置64以便其进行工单风暴检测,将派单结果传给显示装置66显示派单状态,另外可通过人机交互装置65对部分告警进行人工派单。

人机交互装置65与告警关联压缩预处理装置62、工单风暴控制装置64、工单派发装置63、显示装置66连接,它可以配置工单风暴检测规则(如阈值)及停用或启用工单风暴检测功能、配置告警关联压缩及预处理规则、停用或启用派单流向改变功能、设置告警显示过滤条件等,从工单风暴控制装置64获取预计派单量的统计结果输出统计报表供检测阈值设计参考,以及人工派单或对派到预处理人员的工单进行转派一线故障处理人员或报结等。其中,人机交互装置65的工单风暴检测及控制相关部分参考界面如图7和图8所示,其中,图7的界面为文件导入界面70,图8的界面为列表选择界面80。人机交互装置65中把规则名称、维度、阈值生效时间段、阈值、风暴告警标识(工单风暴发生后是否产生工单风暴告警)、风暴派单标识(工单风暴发生后是否改变工单流向)定义成一个规则,可以查询、新增、删除、导出规则;其中,可输入相关信息字段进行规则查询,查询后可对规则进行编辑、删除和导出;新增规则可以一条一条新增,也可以用文件导入功能先下载模板填写多条规则,点击选择、校验再点击导入进行批量导入;点击保存保存所做的变更、取消则不保存所做的变更;另外,还能导出历史统计报表用于阈值设定的参考,报表形式如表1所示。

表1历史统计报表

显示装置66与采集装置61、工单风暴控制装置64、告警关联压缩预处理装置62、工单派发装置63、人机交互装置65连接,过滤并显示采集装置61中的告警,显示工单风暴告警,从告警关联压缩预处理装置62、工单派发装置63 获取告警关联压缩和预处理的状态、工单派发状态进行显示,通过人机交互装置65设置告警显示过滤条件等。

本发明系统的工作流程如下:采集装置61采集告警供其它模块使用;告警关联压缩预处理装置62、工单派发装置63分别从采集装置61获取告警进行关联压缩、预处理,及派单规则匹配、产生工单追加逻辑、等待工单派发;工单风暴控制装置64从采集装置61获取告警、从告警关联压缩预处理装置62获取告警关联压缩结果、从工单派发装置63获取派单规则匹配结果和工单追加的逻辑,进而进行工单风暴检测;并将检测的结果传给工单派发装置63调整工单流向,若检测到工单风暴传给显示装置66上报工单风暴告警;工单派发装置63获取告警关联压缩预处理装置62关联压缩及预处理结果、从工单风暴控制装置64获取检测结果进行工单追加及派发;人机交互装置65对派往预处理人员的工单转派一线故障处理人员或直接报结,此外还能进行人工派单、从工单风暴控制装置64获取预计派单量统计结果输出相关报表、对各个装置进行设置等操作;显示装置66可对各个装置的告警及处理状态进行显示。

本发明的工单风暴控制系统的工作步骤如图9所示,具体如下:

步骤91:采集装置61从厂家网管采集告警,其它装置从采集装置61获取告警,获取的形式可以是采集装置61推送也可以是其它装置定时获取。

步骤92:告警关联压缩预处理装置62从采集装置61获取告警检测是否有告警等待关联压缩或预处理,若有则对其进行关联压缩及预处理,将关联压缩结果推送工单风暴控制装置64进行风暴检测,将关联压缩及预处理结果推送工单派发装置63等待追加工单或派单。

步骤93:工单派发装置63从采集装置61获取告警,并对告警进行派单规则的匹配得到是否派单的派单标识,将派单标识推送工单风暴控制装置64,接着检测是否有告警等待派单,有则将告警匹配追加规则,将追加逻辑推送工单风暴控制装置64。

步骤94:工单风暴控制装置64判断是否到达检测时间点,若到则从采集装置61获取告警,从告警关联压缩预处理装置62获取关联压缩结果,从工单派发装置63获取告警派单标识和追加逻辑;工单风暴控制装置64根据告警及其派单标识筛选出要派单告警,根据关联压缩结果及追加逻辑进行工单风暴检测。 将检测的结果推送给显示装置66上报工单风暴告警、推送给工单派发装置63动态改变工单流向,将统计及检测结果推送人机交互装置65生成历史统计报表。

步骤95:工单派发装置63从告警关联压缩预处理装置62获取关联压缩及预处理结果;从工单风暴控制装置64获取检测结果,根据检测结果动态调整工单流向,若没有风暴按原流程派单,若有风暴则将相关告警从派往一线故障处理人员改为预处理人员;工单派发装置63等待告警到达派单时间派发或追加工单。

步骤96:人机交互装置65对等待预处理工单进行预处理后转派到一线故障处理人员或报结工单,当工单派发装置63资源等信息不全或出现问题无法自动派单时,或有告警出现漏派时,相关人员可以通过人机交互装置65人机交互装置65手动派单或补单;人机交互装置65人机交互装置65能从工单风暴控制装置64获取统计及检测结果,生成历史统计报表以供导出统计阈值,此外,可通过人机交互装置65设置各个装置的规则。

上述人工派单步骤为可选步骤,当不需人工派单时可由步骤95实现智能自动派单。

步骤97:显示装置66定期主动获取其它装置的信息或接受其它装置推送信息,进而显示当前告警信息,以及告警的各种状态。显示装置66从工单风暴控制装置64获取检测结果,显示工单风暴告警通知监控人员。

上述采集装置61、告警关联压缩预处理装置62、工单风暴控制装置64、工单派发装置63、人机交互装置65、显示装置66的操作为不同装置并行进行(但依照上述流程存在一定时序性)。

本发明主要实现的是:根据告警派单标识、地区名称、设备厂家、网络分类告警四元组对告警的预计派单量进行统计,超过阈值则判定存在风暴,实现工单风暴的智能检测;根据预计派单量历史数据的均值和标准差自适应设定工单风暴阈值,并且一天不同时段设置不同阈值适应周期性变化,确保工单风暴阈值随时间变化的有效性;根据工单风暴检测结果,动态改变工单流向,避免大量工单派到一线故障处理人员,实现工单风暴及时、智能控制。

与现有技术相比,本发明对工单风暴实现智能、及时、有效控制,自适应程度高,容易实现与操作,适应性广,具有以下优点:

第一,本发明对工单风暴实现了针对性、有效性的检测与控制,采用基于告警四元组的工单风暴检测方法,通过派单标识筛选要派单告警进行预计派单量统计,准确预估工单量;通过以地区名称、设备厂家、网络类型作为维度进行统计,与故障对应性强、实现针对故障的精确控制。

第二,本发明自适应性强,通过对历史预计派单量均值和标准差自适应设定工单风暴阈值,并且一天不同时段可采用不同阈值,使阈值能适应工单量随时间的周期变化、适应封网或网络变更引起的工单量变化(变更后新的数据产生新的阈值),确保工单风暴阈值的有效性。

第三,本发明克服现有工单控制方法智能性差、及时性差的问题,采用基于告警四元组的工单风暴检测方法实现系统智能检测,通过动态改变工单流向的控制方法实现系统智能、及时控制,减少一线故障处理人员处理的工单量。

第四,本发明灵活性强,在工单风暴场景下,通过工单风暴告警通知监控人员,通过预处理人员人工仲裁、预处理后转派工单给一线故障处理人员,使一线故障处理人员快速定位故障,同时避免盲目抑制工单造成遗漏派单,灵活性强、提高了工单人工拦截率、提高故障处理效率。

第五,本发明可行性强,容易实现,由于采用系统智能检测、智能改变工单流向进行控制,无需系统短时间内响应大量的手工抑制派单指令或人工后台删单,简化了工单风暴控制的人工流程;本发明可通过软件系统实现,成本低廉、简易可行。

第六,本发明适应性广,能对各个专业、各种种类告警引起的工单风暴进行检测及控制;此外,本发明适用于各大厂家告警,可推广应用于各通信运营商。

以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1