基于流量分析的电力应用性能监控系统的制作方法

文档序号:12375922阅读:172来源:国知局

本发明涉及电力应用技术领域,尤其涉及一种基于流量分析的电力应用性能监控系统,主要适用于实现数据采集、监控和分析,以及时帮助解决故障。



背景技术:

随着近几年云数据、大数据等技术的快速发展,国家电网公司正逐步将分散在各区域、省公司的业务系统集中一级部署,这种方式大大的降低了系统建设投资,提高了业务系统运维效率,同时也给分部及省级运维人员的管理工作带来了新的挑战。对于一级部署的业务系统,由于系统核心服务器部署在总部,分部及省级运维人员针对终端用户反应的网络中断、应用慢、系统宕机等问题根本无从定位。而对于现有二级部署的业务系统,由于网络设备、服务器、软件应用系统等越来越多,错综复杂的关联关系,使得应用系统精细化运维也面临着前所未有的挑战。各分部、省公司由于地域、网络配置、管理运维等因素的差异,导致终端用户对网络中断、应用卡顿、响应速度慢等问题无从定位,影响最终用户的应用体验。同时,现有二级部署的业务系统也缺乏相应的应用系统精细化运维的工具和手段。

典型的案例有以下两个:某地区的协同办公系统使用时非常慢,要等好几分钟,严重影响日常办公,而分部的协同办公系统是国网一级部署,信息运维人员需要与国网协同办公系统运维服务中心的相关人员进行联合调试,由于地理空间的隔离、运维流程不通畅以及必要诊断工具的缺失,该问题的原因定位困难,反馈时间长和服务体验非常差,最终在一定程度上提高了系统的响应时长;某分部员工在使用经济法律系统(经济法律系统部署在该分部所属地)的时候,反映经济法律系统中的某一个模块响应非常慢。经济法律系统运维管理员解决问题的过程非常冗长:先与网络管理员沟通,确保该用户终端的网络没有问题,再排查经济法律系统是整体都比较慢,还是仅仅是该模块比较慢,发现确实只有该模块比较慢,然后去查看中间件所在主机以及中间件本身的负载情况,最终定位到是由于该模块对数据库的查询SQL语句设计不合理,随着数据的增多,该SQL语句执行效率越来越低,最终导致该模块的使用越来越慢。整个诊断过程没有工具支撑,问题定位只能靠运维人员的自身经验一点一点慢慢排查。这些情况的发生,给一级部署和二级部署系统的运维方式以及运维手段方面的短板敲响了警钟。

针对一级部署的业务系统,分部及省级运维人员虽然不需要将关注点放在系统硬件故障以及应用软件故障上,但需要从终端用户的应用体验角度分析网络及应用性能,譬如,HTTP错误、服务器响应时间等信息,为分部及省级运维人员提供一个真实的、可量化的应用系统性能实时监控分析数据,以帮助实现应用故障的预判、分析和定位。通过对电力行业相关规范的了解以及资料的检索,发现电力行业并没有针对应用系统应用感知和性能分析的专用平台或工具。



技术实现要素:

本发明的目的是克服现有技术中存在的故障预判、分析和定位困难的缺陷与问题,提供一种可以实现数据采集、监控和分析,帮助及时解决故障的基于流量分析的电力应用性能监控系统。

为实现以上目的,本发明的技术解决方案是:一种基于流量分析的电力应用性能监控系统,该监控系统包括数据采集探针模块、数据引擎服务模块、应用服务模块、应用呈现模块;

所述数据采集探针模块,用于将业务系统的网络流量数据镜像到数据采集探针的主机内,并对业务系统的应用性能指标进行提取、计算及展现;

所述数据引擎服务模块,用于对数据采集探针进行管理和任务调度,以及对从数据采集探针获取的网络流量数据进行网络流量分析处理和协议还原处理;

所述应用服务模块,用于对数据引擎服务模块处理后的数据进行关联分析,通过访客IP、访问量、响应时间、业务返回码、请求URL、后台SQL语句进行分类统计分析;

所述应用呈现模块,用于根据应用服务模块统计的数据分析结果,从用户体验可视化、网络流量可视化、应用性能可视化三个方面对业务系统的应用性能进行全面呈现。

所述数据采集探针模块包括多个数据采集探针,数据采集探针分布式部署在业务系统的核心交换设备上或网络出口处。

所述核心交换设备包括交换机。

所述数据引擎服务模块包括任务调度引擎、冲突检测引擎、流量分析引擎、协议还原引擎以及报表引擎;

所述任务调度引擎,用于对检测任务进行调度;

所述冲突检测引擎,用于对检测任务进行冲突检测;

所述流量分析引擎,用于通过L4层流量分析技术,对从数据采集探针获取的业务系统的网络流量数据进行分析处理;

所述协议还原引擎,用于通过L7层协议还原技术,对从数据采集探针获取的业务系统的网络流量数据进行协议还原处理;

所述报表引擎,用于根据处理结果生成报表。

所述应用服务模块包括指标计算与存储模块、应用组件关联分析模块以及故障智能分析模块;

所述指标计算与存储模块,用于对应用性能分析指标进行计算与分析会话进行存储;

所述应用组件关联分析模块,用于对业务系统的各独立组件的性能分析结果进行关联;

所述故障智能分析模块,用于对故障点进行定位。

所述应用呈现模块包括用户体验可视化模块、网络流量可视化模块以及应用性能可视化模块;

所述用户体验可视化模块,是指以Apdex应用性能指数、平均响应时间为指标,从用户所属地理位置、所属网段、操作系统、浏览器、时间分布以及访问次数多个角度反映最终用户体验指标,并定位故障影响的用户范围;

所述网络流量可视化模块,用于查看业务服务器的网络流量统计分析数据、分析网络流量中的攻击流量、对网络流量中的异常操作流量进行统计和操作还原;

所述应用性能可视化模块,是指在业务仪表板中以应用拓扑图形式呈现应用服务的业务逻辑和依赖关系,并实时呈现各业务组件的关键性能指标,以及定位各业务组件时段内的运行情况。

所述Apdex应用性能指数的测算是指,Apdex对应用中发生的任务进行采样,按其响应时间把采样划分到相应的满意度区间并计数后通过Apdex指数公式进行测算,所述满意度区间包括满意、容忍、失望,所述Apdex指数公式为:Apdex指数=(1×满意样本个数+0.5×容忍样本个数)÷样本总数,其中,一个满意样本得分为1,一个容忍样本得分为0.5,一个失望样本得分为0。

所述网络流量统计分析数据,包括总流量、总数据包、响应延时、响应时延峰值、连接成功或连接失败次数、异常关闭连接数、发送TCP零窗口次数、发送错包率、发送或接受流量速率;

所述攻击流量,包括系统溢出攻击、DDOS攻击、SQL注入攻击、跨站脚步攻击、暴力破解攻击;

所述异常操作流量,包括对包含敏感信息页面的频繁访问、异常时间访问。

所述在业务仪表板中以应用拓扑图形式呈现应用服务的业务逻辑和依赖关系是指:通过对网络数据包3–7层深入分析,结合应用逻辑拓扑结构,在业务仪表板中以应用拓扑图形式呈现应用服务的业务逻辑和依赖关系;

所述关键性能指标,包括关键URL请求时长、关键SQL语句执行时长;

所述定位各业务组件时段内的运行情况是指:通过时间轴技术,对近一个月内的每分钟运行情况进行定位。

所述数据采集探针模块、数据引擎服务模块、应用服务模块和应用呈现模块采用松耦合的方式,通过API接口连接。

与现有技术相比,本发明的有益效果为:

由于本发明一种基于流量分析的电力应用性能监控系统中该监控系统包括数据采集探针模块、数据引擎服务模块、应用服务模块、应用呈现模块,数据采集探针模块、数据引擎服务模块、应用服务模块和应用呈现模块采用松耦合的方式,通过API接口连接,这样的设计能够实现多因素关联分析,不仅包括链路质量、流量分布、硬件、系统性能分析,还包括前台数据请求、后台数据查询等性能监控,实现对整体业务处理过程的性能分析,快速确认故障,减少和避免“应用不可用”和“应用太慢”的性能问题;同时,本系统采用智能旁路监听分析技术,实现完全Agentless,无需在应用服务器和用户端安装插件,不会对当前架构造成任何影响,在获得用户真实网络访问行为的相关数据包后,通过数据包解包及7层应用协议深度解码技术,实现网络及应用性能的监控与故障定位;另外,本系统基于先进的网络数据包协议还原技术,充分利用网络镜像数据包,帮助企业IT部门从网络流量分析和应用系统视角出发,建立全方位的应用性能管理监控平台,基于网络数据包协议还原技术的端到端性能分析可对一次业务交互的1–6个关键节点进行性能关联分析。因此,本发明不仅可以实现数据采集、监控和分析,帮助及时解决故障,而且操作简便、可靠性高。

附图说明

图1是本发明的结构示意图。

具体实施方式

以下结合附图说明和具体实施方式对本发明作进一步详细的说明。

参见图1,一种基于流量分析的电力应用性能监控系统,该监控系统包括数据采集探针模块、数据引擎服务模块、应用服务模块、应用呈现模块;

所述数据采集探针模块,用于将业务系统的网络流量数据镜像到数据采集探针的主机内,并对业务系统的应用性能指标进行提取、计算及展现;

所述数据引擎服务模块,用于对数据采集探针进行管理和任务调度,以及对从数据采集探针获取的网络流量数据进行网络流量分析处理和协议还原处理;

所述应用服务模块,用于对数据引擎服务模块处理后的数据进行关联分析,通过访客IP、访问量、响应时间、业务返回码、请求URL、后台SQL语句进行分类统计分析;

所述应用呈现模块,用于根据应用服务模块统计的数据分析结果,从用户体验可视化、网络流量可视化、应用性能可视化三个方面对业务系统的应用性能进行全面呈现。

所述数据采集探针模块包括多个数据采集探针,数据采集探针分布式部署在业务系统的核心交换设备上或网络出口处。

所述核心交换设备包括交换机。

所述数据引擎服务模块包括任务调度引擎、冲突检测引擎、流量分析引擎、协议还原引擎以及报表引擎;

所述任务调度引擎,用于对检测任务进行调度;

所述冲突检测引擎,用于对检测任务进行冲突检测;

所述流量分析引擎,用于通过L4层流量分析技术,对从数据采集探针获取的业务系统的网络流量数据进行分析处理;

所述协议还原引擎,用于通过L7层协议还原技术,对从数据采集探针获取的业务系统的网络流量数据进行协议还原处理;

所述报表引擎,用于根据处理结果生成报表。

所述应用服务模块包括指标计算与存储模块、应用组件关联分析模块以及故障智能分析模块;

所述指标计算与存储模块,用于对应用性能分析指标进行计算与分析会话进行存储;

所述应用组件关联分析模块,用于对业务系统的各独立组件的性能分析结果进行关联;

所述故障智能分析模块,用于对故障点进行定位。

所述应用呈现模块包括用户体验可视化模块、网络流量可视化模块以及应用性能可视化模块;

所述用户体验可视化模块,是指以Apdex应用性能指数、平均响应时间为指标,从用户所属地理位置、所属网段、操作系统、浏览器、时间分布以及访问次数多个角度反映最终用户体验指标,并定位故障影响的用户范围;

所述网络流量可视化模块,用于查看业务服务器的网络流量统计分析数据、分析网络流量中的攻击流量、对网络流量中的异常操作流量进行统计和操作还原;

所述应用性能可视化模块,是指在业务仪表板中以应用拓扑图形式呈现应用服务的业务逻辑和依赖关系,并实时呈现各业务组件的关键性能指标,以及定位各业务组件时段内的运行情况。

所述Apdex应用性能指数的测算是指,Apdex对应用中发生的任务进行采样,按其响应时间把采样划分到相应的满意度区间并计数后通过Apdex指数公式进行测算,所述满意度区间包括满意、容忍、失望,所述Apdex指数公式为:Apdex指数=(1×满意样本个数+0.5×容忍样本个数)÷样本总数,其中,一个满意样本得分为1,一个容忍样本得分为0.5,一个失望样本得分为0。

所述网络流量统计分析数据,包括总流量、总数据包、响应延时、响应时延峰值、连接成功或连接失败次数、异常关闭连接数、发送TCP零窗口次数、发送错包率、发送或接受流量速率;

所述攻击流量,包括系统溢出攻击、DDOS攻击、SQL注入攻击、跨站脚步攻击、暴力破解攻击;

所述异常操作流量,包括对包含敏感信息页面的频繁访问、异常时间访问。

所述在业务仪表板中以应用拓扑图形式呈现应用服务的业务逻辑和依赖关系是指:通过对网络数据包3–7层深入分析,结合应用逻辑拓扑结构,在业务仪表板中以应用拓扑图形式呈现应用服务的业务逻辑和依赖关系;

所述关键性能指标,包括关键URL请求时长、关键SQL语句执行时长;

所述定位各业务组件时段内的运行情况是指:通过时间轴技术,对近一个月内的每分钟运行情况进行定位。

所述数据采集探针模块、数据引擎服务模块、应用服务模块和应用呈现模块采用松耦合的方式,通过API接口连接。

本发明的原理说明如下:

本设计一种基于流量分析的电力应用性能监控系统,可从识别出的所有业务交易中筛选出感兴趣的交易作为关键交易,对关键交易设置不同的监控指标,详细查看这类关键交易的平均响应时间、Apdex性能指标、并发用户数、错误率、返回码等各项指标及告警情况。另外,本设计具有故障定位和智能预警功能,系统支持阈值、持续时间与Apdex指数的复合指标告警,同时,系统还提供基线告警功能,可根据历史数据自动生成参考基准线,主动标识触发告警的应用组件,帮助运维人员快速识别、定位故障信息与故障原因。性能基线来源于用户的历史性能数据表现,根据内部建模算法建立,此外,用户可自定义基线的灵敏度以匹配实际业务特点。

实施例:

参见图1,一种基于流量分析的电力应用性能监控系统,该监控系统包括数据采集探针模块、数据引擎服务模块、应用服务模块、应用呈现模块,上述模块之间都是分开的,采用松耦合的方式,通过API接口连接,修改其中一个模块不会影响其它模块;

所述数据采集探针模块,包括多个数据采集探针,数据采集探针分布式部署在业务系统的核心交换设备(核心交换设备包括交换机)上或网络出口处,用于将业务系统的网络流量数据镜像到数据采集探针的主机内,并对业务系统的应用性能指标进行提取、计算及展现;本模块采用旁路部署,主动获取网络流量数据,部署简单,用户无需进行繁琐的应用配置,也无需考虑在服务器端安装Agent软件,只需为数据采集探针设备提供镜像流量导入即可,通常将数据采集探针部署在用户的业务系统核心交换设备上,或是网络出口处;本系统提供一个涵盖链路质量、流量分布、硬件设备性能、软件应用系统性能、终端用户体验等多个因素在内的自动关联分析报告,降低IT运维工作量,提升网络及应用性能;

所述数据引擎服务模块,用于对分布式部署的数据采集探针进行集中管理和任务调度,以及对从数据采集探针获取的网络流量数据进行网络流量分析处理和协议还原处理;所述数据引擎服务模块包括任务调度引擎、冲突检测引擎、流量分析引擎、协议还原引擎以及报表引擎;所述任务调度引擎,用于对检测任务进行调度;所述冲突检测引擎,用于对检测任务进行冲突检测;所述流量分析引擎,用于通过L4层流量分析技术,对从数据采集探针获取的业务系统的网络流量数据进行分析处理,能够精确到年、月、周、日、时的网络流量统计信息提取,包括总流量、总数据包、响应延时、响应时延峰值、连接成功/失败次数、异常关闭连接数、发送TCP零窗口次数、发送错包率、发送/接收流量速率等各种详细数据交互信息;所述协议还原引擎,用于通过L7层协议还原技术,对从数据采集探针获取的业务系统的网络流量数据进行协议还原处理,通过L7层协议还原技术,跟踪会话及交易,实时获取L7层的业务类型、交易量、成功率、响应时间、返回码等关键指标;所述报表引擎,用于根据处理结果生成报表;这些统计信息为应用呈现模块分析提供了详尽的数据依据;

所述应用服务模块,用于对数据引擎服务模块处理后的数据进行关联分析,通过访客IP、访问量、响应时间、业务返回码、请求URL、后台SQL语句进行分类统计分析;所述应用服务模块包括指标计算与存储模块、应用组件关联分析模块以及故障智能分析模块;所述指标计算与存储模块,用于对应用性能分析指标进行计算与分析会话进行存储;所述应用组件关联分析模块,用于对业务系统的各独立组件(Weblogic、数据库等)的性能分析结果进行关联;所述故障智能分析模块,用于根据上述信息对具体故障点进行定位;

所述应用呈现模块,用于根据应用服务模块统计的数据分析结果,从用户体验可视化、网络流量可视化、应用性能可视化三个方面对业务系统的应用性能进行全面呈现,为业务系统故障定位提供数据支持;所述应用呈现模块包括用户体验可视化模块、网络流量可视化模块以及应用性能可视化模块;

所述用户体验可视化模块,是指以Apdex应用性能指数、平均响应时间为主要指标,从用户所属地理位置、所属网段、操作系统、浏览器、时间分布以及访问次数多个角度真实反映最终用户体验指标,能够快速并定位故障影响的用户范围;同时,系统可以指定“关键页面”监控,通过对最受关注页面(服务)统计、关键页面访问量统计、关键页面响应时间监控、RTT、HTTP错误、页面大小等的统计,为用户体验的提升以及业务系统的扩容、改造提供数据支持;

所述Apdex应用性能指数的测算主要包括以下步骤:在网络中运行的任何一个应用(Web、数据库、E-mail等),它的响应时间决定了其应用性能和用户的满意程度,基于“响应性”,Apdex定义了三个用户满意度区间:

满意:这样的响应时间让用户感到愉快,例如少于3秒;

容忍:慢了一点,但还可以接受,继续这一应用过程,例如3~12秒;

失望:太慢了,受不了了,用户决定放弃这一应用,例如超过12秒;

“满意”、“容忍”、“失望”这三个区间通过响应时间数值“T”来划分,T值代表着用户对应用性能满意的响应时间界限或者说是“门槛”,也就是第一个区间“满意”的底线,如3秒,满意区间就是0~3秒;响应时间超过T值用户就有些不满了,下一个区间“容忍”的界限值则是T和4T,即3~12秒之间为容忍区间;响应时间再长用户就开始考虑放弃了,最后一个区间“失望”的响应时间则大于4T,即多于12秒;

之后,Apdex对应用中发生的任务进行采样,并且按其响应时间把采样划分到相应的满意度区间,计数后再用一个公式计算Apdex指数,实际上,这个公式的意义在于:一个满意样本得分为1,一个容忍样本得分为0.5,一个失望样本得分为0,因此,公式可以写成:Apdex指数=(1×满意样本个数+0.5×容忍样本个数)÷样本总数,这样,采样结果被量化为一个0到1之间的数值即“Apdex指数”,0代表没有满意用户,1则代表所有用户都满意,经过统计,Apdex把这个数值与用户满意程度一一对应,对于应用性能的Apdex评分与用户的体验紧密关联,为管理者提供了一种通过应用性能量化值评估用户满意度的方法;

所述网络流量可视化模块,可直观的查看业务服务器,如数据服务器、WEB服务器等业务服务器的网络流量统计分析数据,所述网络流量统计分析数据包括总流量、总数据包、响应延时、响应时延峰值、连接成功或连接失败次数、异常关闭连接数、发送TCP零窗口次数、发送错包率、发送或接受流量速率等各种详细数据信息,这些统计信息为因为网络质量造成的应用系统性能下降提供故障分析与定位数据,同时,系统可对网络流量中的攻击流量进行分析,包括系统溢出攻击、DDOS攻击、SQL注入攻击、跨站脚步攻击、暴力破解攻击等,也能对网络流量中的异常操作流量进行统计和操作还原,包括对包含敏感信息页面的频繁访问、异常时间访问等;

所述应用性能可视化模块,可通过对网络数据包3–7层深入分析,结合应用逻辑拓扑结构,在业务仪表板中以应用拓扑图形式直观呈现应用服务的业务逻辑和依赖关系,并实时呈现(每分钟)各业务组件(主机)的关键性能指标,包括关键URL请求时长、关键SQL语句执行时长等;借助时间轴技术,还可以快速对最近一个月内的每分钟运行情况进行定位,方便回放故障演变过程。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1