基于日志、流量和业务访问的业务系统运行状态智能研判系统的制作方法

文档序号:21031945发布日期:2020-06-09 20:14阅读:320来源:国知局
基于日志、流量和业务访问的业务系统运行状态智能研判系统的制作方法

本发明涉及数据监测领域,尤其涉及基于日志、流量和业务访问的业务系统运行状态智能研判系统。



背景技术:

首先基于传统架构设计开发的综合网管系统,在信息通信网络资源设备数量急剧上升,对网络设备管理、运行可靠性提出了更高的要求,已出现了数据采集、查询和处理的性能瓶颈;且应用部署、升级和扩展方面比较复杂,对监控对象的变化适应性差等问题。

其次随着电力业务的迅猛发展,电力核心业务系统的正常、稳定运行是公司业务正常运行的关键。这对网络运行环境和业务系统整体监测提出了更高的要求。

当前综合网管系统在网络运行状态监测和业务系统运行监测上未实现智能研判,主要体现在以下两个方面:

1.在大批量告警出现情况下,仅能通过预先配置归集策略进行归集判断,对未配置策略的设备无法实现告警归集,即无法实现全网动态告警归集,这严重影响监控人员对告警的研判工作;

2.在业务系统监测上无法智能诊断分析组件监测、流程异常监测、接口吞吐量监测的异常情况和故障定位。

现有业务系统运行状态监测及故障预测,主要包括以下两方面技术路线:

(1)基于故障历史的故障预测方法。基于故障历史的故障预测方法全部基于如下假设:系统已经被正常配置,程序也是可以正确执行的(如果不能正确执行则为错误,而非故障),因此系统出现故障往往是因为存在外界扰动,此类扰动必然使系统存在时间以及空间的周期性变化。导致故障的发生在时间以及类型上必然存在某种周期性,该方法则利用该特性对即将发生的故障进行预测。所以,基于故障历史概率分布的故障预测模型试图通过对历史故障时间间隔进行分析得到即将发生的故障在时间上的概率分布。通常此类方法会在系统非运行时利用故障历史信息对未来故障的发生进行可靠性预测,并将分析结果运用于系统运行时的故障预测中。

(2)基于状态监控的故障预测方法。此类方法目的在于通过监控系统状态的手段实现故障预测。通常,系统从出现异常到失效是一系列事件联合作用的结果。其中,当系统出现异常后,会产生边界效应,该方法即通过探测边界效应来判定系统是否即将出现差错。当系统检测到边界状态,则说明系统即将演化出失效等问题,而后根据模型预测出故障产生的时间以及类型。此类方法的故障预测时间δtl较短,但故障发生时间窗口δtp也很短,因此准确性较高,但难点在与要构建准确的模型的业务导入通常不足,并具有很高的构建成本,所以该方法没有得到大规模推广使用。



技术实现要素:

本发明的目的提供于基于日志、流量和业务访问的业务系统运行状态智能研判系统,着眼于对关键的业务系统运行日志、中间件运行日志、业务流程运行信息进行汇总整合,利用大数据智能分析方法,挖掘不同的日志模式与业务系统故障、性能低下等现象之间的关联关系,形成关键业务系统运行状态智能研判模型,利用研判模型,实现对业务系统、中间件及业务流程的潜在故障的提前预测及预警。从而,能够有效提升信息网络及关键业务的保障能力、降低业务系统运行风险。

为实现上述目的,本发明提供了基于日志、流量和业务访问的业务系统运行状态智能研判系统,重构综合网管系统技术架构,包括:

利用多种数据库构建分布式数据存储平台;

利用kafka分布式部署环境将分布式数据存储平台内的数据,实现数据统一采集,集中推送,并送至综合网管系统;

所述综合网管系统构建应用系统端口监控和物理存储监控系统,以及显示系统;

根据获取的数据,对关键的业务系统运行日志、中间件运行日志、业务流程运行信息进行汇总整合,利用大数据智能分析方法,挖掘不同的日志模式与业务系统故障、性能低下现象之间的关联关系,形成关键业务系统运行状态智能研判模型。

在本发明的一个优选实施例中,所述智能研判模型选用随机森林算法,通过对历史数据的学习,识别不同类型的数据表现,选取最优的分类算法,并应用于新数据,对新数据的情况进行判别。

在本发明的一个优选实施例中,所述数据包括但不限于网络的上行流量、下行流量、tcp连接数、日志行数、输入字节数、输出字节数、响应状态、模型id、轮次数据。

在本发明的一个优选实施例中,所述应用系统端口监控和物理存储监控系统包括物理存储监控、业务系统监控、故障告警溯源,并构建资源数据采集接口规范,对构建典型应用系统的状态监控试点。

在本发明的一个优选实施例中,所述kafka替换综合网管原来使用的activemq对综合网管系统的采集和规则引擎进行重构,使用kafka作为消息队列。

在本发明的一个优选实施例中,所述数据库包括hbase数据库,hbase在物理架构方面设计成一个依靠大数据平台hadoophdfs的全分布式的存储集群,并基于hadoop的mapreduce网格计算框架;合理的设计hbase数据库表使其满足海量指标数据的分布式存储备份和高效查询分析。

在本发明的一个优选实施例中,利用微服务架构重构数据传输系统,所述数据传输系统包括设备资源指标采集模块,设备资源指标推送模块,以及指标入库模块。

与现有技术相比,本发明的有益效果是:

本发明着眼于对关键的业务系统运行日志、中间件运行日志、业务流程运行信息进行汇总整合,利用大数据智能分析方法,挖掘不同的日志模式与业务系统故障、性能低下等现象之间的关联关系,形成关键业务系统运行状态智能研判模型,利用研判模型,实现对业务系统、中间件及业务流程的潜在故障的提前预测及预警。从而,能够有效提升信息网络及关键业务的保障能力、降低业务系统运行风险。

附图说明

图1为本发明的工作原理框图。

图2为本发明的智能研判训练模型流程图。

图3为本发明的智能研判模型应用流程图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。

实施例1:

请参图1所示,图1为本发明的工作原理框图。

在本实施方式中,基于日志、流量和业务访问的业务系统运行状态智能研判系统,重构综合网管系统技术架构,包括:利用多种数据库构建分布式数据存储平台;

利用kafka分布式部署环境将分布式数据存储平台内的数据,实现数据统一采集,集中推送,并送至综合网管系统;

所述综合网管系统构建应用系统端口监控和物理存储监控系统,以及显示系统;

根据获取的数据,对关键的业务系统运行日志、中间件运行日志、业务流程运行信息进行汇总整合,利用大数据智能分析方法,挖掘不同的日志模式与业务系统故障、性能低下现象之间的关联关系,形成关键业务系统运行状态智能研判模型。

更具体地,包括以下几大块:

1、微服务云架构和海量数据存储技术研究;

首先了解目前电力公司的资源池和大数据平台的应用情况并重新对综合网管进行分布式架构设计,将综合网管的核心功能进行拆分(拆分模块有设备资源指标采集,设备资源指标推送,指标入库三大模块;设计是基于国网uap3.0开发平台和微服务框架,三大模块都是独立的服务,再结合web端进行监控,配置,展示功能高效运行),并使用微服务架构进行设计,提高网管系统的可移植性,减少系统功能之间的耦合度,使服务更灵活。

其次基于国网大数据平台研究hbase分布式部署、开发和类sql查数据库表使其满足海量指标数据的分布式存储备份和高效查询分析,通过研究基于hbase的高可靠性、高性能、面向列、可伸缩的分布式化存储系统,并应用于综合网管采集数据存储,提升数据读写效率,同时为综合网管大数据应用提供数据支持。

2、云架构上进行高吞吐量消息处理技术研究,实现数据统一采集,集中推送功能;

基于国网大数据平台研究kafka分布式部署环境和步骤,使用kafka替换综合网管原来使用的activemq对综合网管系统的采集和规则引擎进行重构,使用kafka作为消息队列,在分布式环境中管理监控数据的生产者和消费者,提升综合网管系统的消息处理的实时性和吞吐量。

进一步研究各种监控资源数据采集协议,并根据协议在新的架构下研发采集配置功能和数据采集功能完善并优化完监控资源设备台账信息的管理和数据采集功能,通过该功能的研发验证关键技术研究成果,并进一步完善综合网管数据采集监控体系。

3、基于云架构研发应用系统端口监控和物理存储监控功能;

梳理综合网管系统管理范围内的应用系统端口使用情况和监控范围并制定相应的监控规则,在云架构下开发端口信息采集、规则判断程序;研究物理存储设备数据采集协议(物理存储设备数据采集协议就是snmp,针对不同设备型号的设备有不同的oid,我们做到了可配置方式进行采集),并根据该协议在新的架构下研发采集配置功能和数据采集功能完成物理存储设备台账信息的管理和设备监控功能。通过以上功能的研发验证关键技术研究成果,完善综合网管监控体系。

4、信息网络故障溯源技术研究及功能模块研发

利用网络设备的syslog日志、snmp运行状态信息,结合ip网络不同层次网络报文的发送特点,实现对网络设备上下位关系、接口连接关系的故障智能诊断和自动精准定位,从而能够正确分析出网络告警之间的关联及从属关系,定位到真正的“根源告警”,极大减少告警数量,提升网络运维工作的效率和质量

5、应用系统流量负载监控技术研究及功能模块研发

针对当前应用系统流量负载不受监控的问题,通过挖掘低层次网络协议运行状态信息与应用层端口流量之间的关系,找到稳定、可信的网络传输层接口流量的统计方法,实现对应用系统流量的智能监控及告警

6、关键业务系统运行状态智能研判技术研究、原型研发及试点验证

对关键的业务系统运行日志、中间件运行日志、业务流程运行信息进行汇总整合,利用大数据智能分析方法,挖掘不同的日志模式与业务系统故障、性能低下等现象之间的关联关系,形成关键业务系统运行状态智能研判模型,利用研判模型,实现对业务系统、中间件及业务流程的潜在故障的提前预测及预警。基于技术研究成果,开展关键业务系统运行状态智能研判模块原型软件研发,并在两个典型的业务系统监测中进行试点应用。

实施例2:

参照图2和图3给出了智能研判模型的构成过程。

智能研判模型选用随机森林算法,通过对历史数据的学习,识别不同类型的数据表现,选取最优的分类算法,并应用于新数据,对新数据的情况进行判别。

智能研判算法包括两部分内容,第一部分为模型训练算法,第二部分为模型应用算法。智能研判算法是典型的分类问题,通过对历史数据的学习,识别不同类型的数据表现,选取最优的分类算法,并应用于新数据,对新数据的情况进行判别。因数据标签存在不均衡问题,本模型选用随机森林分类算法。

智能研判算法,是建立在一定的数据变化会引起响应状态的变化,响应状态的变化具有一定的延迟性,这一假设前提下。算法主要使用了随机森林分类算法。

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

随机森林把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用。

随机森林分类非常简单,易于实现,计算开销也很小,计算结果精准度高,具体有以下几方面的优点:

1)对于很多种资料,可以产生高准确度的分类器;

2)可以处理大量的输入变数;

3)可以在决定类别时,评估变数的重要性;

4)在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计;

5)包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度;

6)提供一个实验方法,可以去侦测variableinteractions;

7)对于不平衡的分类资料集来说,它可以平衡误差;

8)计算各例中的亲近度,对于数据挖掘、侦测离群点(outlier)和将资料视觉化非常有用;

9)使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料;

10)学习过程快速。

如图2所示,智能研判算法涉及的数据表较多,各表之间通过模型id、轮次两个字段进行匹配关联,形成最终的宽表,其中响应状态作为因变量,其他字段均为自变量。

智能研判算法属于机器学习算法,需要定时进行学习,以保证模型能更好的捕获数据特征。在算法启动初期,将以图2的流程进行运转。

模型训练完成后,则可应用于新数据,对新数据的响应状态进行判别,将以图3的流程进行运转。

如图2,在进行训练过程中,智能研判算法训练模型所需数据具体包括:从上行流量预测结果表、下行流量预测结果表、日志表数据、端口表数据、时长状态表等五张表中,分别提取出上行流量、下行流量、tcp连接数、日志行数、输入字节数、输出字节数、响应状态、模型id、轮次等数据,根据每张表的模型id、轮次两个字段进行关联匹配,构建宽表,作为随机森林算法的输入变量。模型在训练时,尽可能选择更大的数据量进入模型,同时需要对测试集与训练集的划分比例进行调试,以保证模型有更高的准确率。

模型训练完成后,进行存储,以方便调用。可以考虑每周或每月运行一次让模型进行学习,以保证能捕获数据的全部特征,更好的对新数据进行分类。

智能研判算法训练模型配置内容涉及到配置文件rule.ini的[date]、[database]、[hbase]三个模块。

[date]主要是用来配置读取hbase数据库数据时,从何时开始取数据(倒数多少天前),同时,数据量获取的上限是多少。

[database]主要是用来配置获取上行/下行流量预测结果数据的oracle数据表时,oracle数据库地址端口等相关信息。

[hbase]主要是配置日志表数据、端口表数据、时长状态表的hbase数据库的地址端口信息。

如图3,应用模型所需数据所需数据具体包括:从上行流量预测结果表、下行流量预测结果表、日志表数据、端口表数据等四张表中,分别提取出上行流量、下行流量、tcp连接数、日志行数、输入字节数、输出字节数、模型id、轮次等数据,根据每张表的模型id、轮次两个字段进行关联匹配,构建宽表,作为应用模型的输入变量。

宽表构建完成后,调用已训练完成的分类模型,对数据进行分类即可。

智能研判算法应用模型配置内容涉及到配置文件rule.ini的[date]、[database]、[hbase]三个模块。

[date]主要是用来配置读取hbase数据库数据时,从何时开始取数据(倒数多少天前),同时,数据量获取的上限是多少。

[database]主要是用来配置获取上行/下行流量预测结果数据,以及智能研判分类结果数据写入oracle数据表时,oracle数据库的地址端口等相关信息。

[hbase]主要是配置日志表数据、端口表数据的hbase数据库的地址端口信息。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1