信息系统一体化运维监控服务预警平台及其实现方法

文档序号:7781080阅读:12062来源:国知局
信息系统一体化运维监控服务预警平台及其实现方法
【专利摘要】本发明涉及IT系统【技术领域】,具体公开了一种信息系统一体化运维监控服务预警平台及其实现方法;包括:数据采集层;用于被监控设备基础数据的采集;数据处理层;用于对所述数据采集层收集到的所述基础数据进行处理;数据表现层;用于用户处理后的数据展示;信息系统一体化运维监控服务预警平台管理系统:用于对所述平台进行管理,所述系统贯穿于所述数据采集层、所述数据处理层以及所述数据表现层三个层面,对所述数据采集层、所述数据处理层和所述数据表现层三个层面进行统一配置和管理。本发明具有精细化、自动化、智能化、一体化IT运维监控的功能,提升了大型企业信息科技运行维护能力。
【专利说明】信息系统一体化运维监控服务预警平台及其实现方法
【技术领域】
[0001]本发明涉及IT系统【技术领域】,尤其是涉及一种信息系统一体化运维监控服务预警平台及其实现方法。
【背景技术】
[0002]信息技术(Information Technology,简称IT),是主要用于管理和处理信息所采用的各种技术的总称。它主要是应用计算机科学和通信技术来设计、开发、安装和实施信息系统及应用软件。它也常被称为信息和通信技术(Information and CommunicationsTechnology, ICT)。信息技术的研究包括科学,技术,工程以及管理等学科。信息技术的应用包括计算机硬件和软件,网络和通讯技术,应用软件开发工具等。在企业、学校和其它组织中,信息技术体系结构是一个为达成战略目标而采用和发展信息技术的综合结构。它包括管理和技术的成分。其管理成分包括使命、职能与信息需求、系统配置和信息流程;技术成分包括用于实现管理体系结构的信息技术标准、规则等。
[0003]IT运维监控(也称:IT综合管理系统)是一系列IT管理产品的统称,它所包含的产品功能强大、易于使用、解决方案齐全,可一站式满足用户的各种IT管理需求。IT运维监控具有性能稳定、用户界面友好、跨平台、易实施、易集成等特点,可极大地简化IT设施和业务系统的监控管理、提高用户的IT管理效率、通过故障预警和快速定位,确保用户的网络设备和业务系统的正常运行,特别适合于电信、电力、教育、服务机构、金融/银行、医疗、交通、政府等众多行业客户。越来越多的客户都在考虑或采纳业务集中的方案。然而业务系统集中后,不仅增加运行维护的工作强度,而且会使集中的系统变得更加繁杂。有效的系统和应用监控体系成为了解业务资源的使用状况,及时发现可能导致系统故障的隐患,实现系统运营保障的关键。另一方面,借助于集中监控解决方案,用户能够正确和及时地了解系统的运行状态,发现影响整体系统运行的瓶颈,帮助系统人员进行必要的系统优化和配置变更,甚至为系统的升级和扩容提供依据。强有力的监控和诊断工具还可以帮助运行维护人员快速地分析出应用故障原因,把他们从繁杂重复的劳动中解放出来。维护人员快速地分析出应用故障原因,把他们从繁杂重复的劳动中解放出来。因此,很多客户的IT部门提出建立集中IT管理系统的需求,监控的内容包括网络、服务器、数据库、中间件和应用。通过集中监控系统及时发现系统中的故障,减少故障处理时间。主要适用于具有一定IT规模基础的单位和部门,如电力、银行、证券、电信、政府、医疗、教育、保险、广电、铁路、民航、烟草、军工以及大中型企业用户等。
[0004]国际大型的枢纽机场,大多历经多次改扩建工程,其信息系统的规模也在快速扩张。目前,以首都机场IT系统为例,已经发展成为网络覆盖面积数百万平方米,服务器规模高达300余台,终端和网络设备规模达到5000台,且涵盖集成、离港、航显、安检信息、商业、数据中心、0A、ERP等多个核心业务系统,服务用户超过万人以上的大型多源异构信息系统。
[0005]随着机场IT规模持续扩大,业务应用的不断增加,服务用户对象的日益增多,IT运维管理人员逐渐面临着三大难题:[0006]①设备和业务种类繁多,各类资料信息分散,导致一线运维人员无法在第一时间及时准确地定位故障,无法整体掌控网络和系统运行情况,且二线管理人员无法了解未来网络及系统运行的趋势;
[0007]②核心机房分布于多个不同航站楼内多个地点,部署范围广泛,设备繁杂,对于大批量网络设备、主机服务器、应用系统没有一个统一的监控平台,不能制定统一的故障预警管理策略,故障预警效率低,业务恢复时间慢;
[0008]⑧对核心业务系统是否正常运行没有高效的检测手段,无法预知风险以便提前采取措施。
[0009]现有IT运维监控系统大部分基于网络管理系统发展而来,通过部署在需要监控的IT系统所在局域网内运行主机上的监控客户端,连续监视主机上的数据库和重要系统资源,根据预先设定的重要的指标以及门限阀值,自动检测瓶颈问题和潜在的问题,同时对事件主动做出反应,当应用程序出现问题可以发送事件到管理员控制台。管理员借助于其数据展现端,可以在最终终端用户受到影响之前发现问题。其架构如下:
[0010]通用网管系统逻辑模型在纵向上分成三个组成部分;
[0011]1.首先是底层的网络管理平台,包括监控前端和监控客户端,提供基本的网络管理服务如轮询,数据采集,事件(SNMP Trap, Syslog)处理,网络管理数据库维护等服务。
[0012]网络管理平台的功能可概括地表述为:监控前端按照用户指定的周期间隔主动轮询并采集IT系统运行状况;网络阈值轮询与性能管理;网络事件(SNMP Trap,SYSLOG方式采集)、IT系统性能数据、IT系统异常数据的采集和预处理。
[0013]i1.其次,网络管理平台向上为设备管理平台,主要负责:设备配置轮询与存储;设备的日常统一维护操作;变更管理;资产管理;软件分发与版本管理;第二层拓扑结构发现与显示;设备图形化配置界面;设备故障诊断工具;网络级协议资源响应时间侦测。
[0014]值得注意的是,部分网管平台不存在设备管理平台,而是由数据汇总端代替。数据汇总端仅汇总监控客户端和监控前端采集到的性能数据和故障告警数据,上报到数据展示端展示。数据汇总端不具备设备管理平台应有的监控前端统一维护、统一配置的自动化、图形化配置工具和界面。
[0015]ii1.最后,最上层为监控数据展示层,提供如下的功能:告警数据和性能数据的展示;某种图形化的数据展示和趋势展示;事件的智能相关性处理引擎,事件处理关系型数据库。
[0016]根据分析上述通用网管系统的架构,现有的通用网管系统存在如下缺陷:
[0017]1.监控前端的缺点:
[0018]现有网管系统中,监控前端部署在被监控服务器中,采用“主动采集IT系统运行情况”的模式进行工作。在该工作模式下,一旦监控前端出现工作异常、内存泄露甚至溢出等错误,往往导致监控前端占用被监控服务器的资源过高,影响被监控服务器的正常运行,为核心业务系统服务带来风险。
[0019]同上,一旦监控前端工作异常,无法将被监控服务器的性能信息和故障信息实时地通知到监控数据展示层,从而影响监控效果。
[0020]在现有网管系统中,监控前端通常具备数据存储能力。这种数据存储能力若出现问题,会导致监控前端出现异常,进而影响监控效果。而且这种数据存储如出现问题,通常无法自动地从错误中恢复,需要人为干预之后才能从错误中恢复,加重了系统管理员的负担。
[0021]I1.数据汇总端的缺点:
[0022]在现有网管系统中,数据汇总段与监控客户端和监控前端存在3种交互,即配置数据、性能数据和异常信息数据的交互。数据汇总端仅起到以上3种数据上传下发的任务,不具备数据持久化的能力,没有后台数据库的支持。
[0023]II1.数据展示端的缺点:
[0024]在现有网管系统中,数据展示端仅起到显示性能数据和异常数据的作用,无法将性能数据和异常数据与企业业务流程充分融合,以显示业务流程的故障、瓶颈。由于数据展示端缺乏多维度分析的功能,故无法对业务流程中的关键节点做出故障趋势预测。
[0025]在现有网管系统中,数据展示段不能以图形化的方式提供被监控主机和被监控服务的配置、管理功能。顾名思义,数据展示端仅仅是一个监控数据和性能数据的展示平台,而非一个一体化的,集“监视、管理、控制、分析、预测”为一体的协同式IT运维监控平台。
[0026]上述存在的问题,仅仅依靠某个工具或个人,已经不能完全胜任如此巨大的工作量,无法满足业务紧迫性的要求。如何设计一套完整的一体化IT运维监控管理解决方案,来解决国际大型机场信息系统的监测和维护的问题,是一项亟待解决的技术难题。
[0027]目前还没有有效的方案来解决上述问题。

【发明内容】

[0028]本发明所解决的技术问题是提供一种信息系统一体化运维监控服务预警平台及其实现方法,本发明一体化IT运维监控模型以松耦合体系为基础进行架构,采取多层次、模块化结构,实现“监视、管理、控制”三个方面协同的闭环处理过程;主要用于在大型企业内部IT系统集中运维模式下,基于以业务为中心、流程为导向的指导思想,实现精细化、自动化、智能化、一体化IT运维监控的功能,最终提升大型企业信息科技运行维护能力。
[0029]信息系统一体化运维监控服务预警平台项目的总体目标旨在确保首都机场信息系统核心业务系统稳定运行的基础上,以BSM为理论指导,建立“以业务为中心、以流程为导向、以自动工具为手段”的信息系统一体化运维监控服务预警平台,覆盖IT运维管理全生命周期的所有阶段:“感知问题、影响评估、隔离问题、诊断问题、修复问题(自动/手工)”,最终提升公司的信息科技运行维护能力。
[0030]信息系统一体化运维监控服务预警平台的主要目标是加大对首都机场各遗留及专有监控系统的整合力度,提高IT运控中心(SOCC)对其他机场分支机构IT系统监管能力,进一步完善监控、响应、处理、报告、反馈和跟踪机制,实现全空港范围内基础设施和主要应用系统生产运行情况的全面监控,提高运行管理的全面控制能力。在此基础上,进一步优化监控策略,实现对设备及服务项全面、细粒度的监测,预警和管理,主要包含以下方面:打造多平台环境下安全稳定高效的检测代理及检测工具;在实现对系统、设备、网络、机房环境等监控基础上,重点加强对核心应用系统的监控,预警和管理,以可视化的方式向运维人员提供一览式的IT服务健康状况视图;构建一体化监控平台,统一管理和展现各种监控资源,实现集中告警方式,全面、及时掌握系统整体运行状态,快速定位故障、缩短处理时间。[0031 ] 为了解决上述技术问题,本发明提供了 一种信息系统一体化运维监控服务预警平台,包括:
[0032]数据采集层;用于被监控设备基础数据的采集,通过编写不同的系统检查插件与外围系统对接,获取所述基础数据。
[0033]数据处理层;用于对所述数据采集层收集到的所述基础数据进行处理,所述处理包括合并事件、抑制原始事件信息、过滤分析和相关性分析和趋势预测,对所述处理后的数据进行加工并产生报警信息;所述平台对所述基础数据进行实时处理;
[0034]数据表现层;用于用户处理后的数据展示,所述展示的内容包括视图、报表和查询内容;
[0035]一体化运维监控及服务预警平台管理系统:用于对所述平台进行管理,所述管理包括系统管理和数据管理;所述系统管理用于系统级数据的管理,包括统一用户管理、平台参数管理、健康自检和任务控制;所述数据管理用于对系统业务数据的组织管理,包括告警规则管理、服务器管理、监控项管理、检测命令管理、视图管理、报表管理和采集模板管理;
[0036]所述系统贯穿于所述数据采集层、所述数据处理层以及所述数据表现层三个层面,对所述数据采集层、所述数据处理层和所述数据表现层三个层面进行统一配置和管理;
[0037]所述系统包括监控前端、数据汇总端、数据展示端和监控平台服务端;
[0038]所述监控前端用于接收来自所述监控平台服务端的指令,通过检测插件执行检查,返回字符串形式的检查结果;
[0039]所述数据汇总端用于将所述基础数据存入后台数据库;
[0040]所述数据展示端用于监控指标的设置、性能的统一管理、业务分析、综合展示以及
报表统一管理;
[0041]所述监控平台服务端用于按照内部检测队列,以先进先出的顺序,驱动所述监控前端进行检测。
[0042]优选的,所述监控前端包括监控客户端,所述监控客户端用于:①所述监控客户端自身不直接执行检测任务,而是由检测插件执行所述检测任务;②所述监控客户端实时同步进行接收来自所述监控平台服务端的检测指令、调用所述检测插件执行所述检测任务以及返回检测结果;⑧所述监控客户端接收的所述检测任务和检测指令对应的插件在所述监控客户端的配置文件中已定义。
[0043]更加优选的,所述检测插件由脚本和应用程序片段组成,所述检测插件包括操作系统参数检测插件、数据库检测插件、中间件检测插件和应用正常性监测插件。
[0044]更加优选的,所述操作系统参数检测插件是指:由Shell / Perl / VBScript /SQL / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在操作系统上执行,获取操作系统CPU、内存、文件系统、进程、硬件设备、日志文件以及网络设备的性能信息、关键字信息和故障信息;
[0045]所述数据库检测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,通过运行数据库SQL语句,获取数据库的运行信息;
[0046]所述中间件检测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在服务器上运行,直接获取或者以HTTP / HTTPS / Telnet方式远程获取中间件的运行信息;
[0047]所述应用正常性监测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在应用程序宿主机上运行,直接获取或者以日志探测的方式间接获取应用程序是否正常运行的信息。
[0048]更加优选的,所述检测插件返回状态包括:正常、警告、严重和未知。
[0049]更加优选的,所述检测插件除返回所述状态外,还返回检测输出结果,所述检测输出结果中包含性能信息或者故障信息;性能信息和故障信息均为普通字符串形式。
[0050]更加优选的,所述监控平台服务端在接收高优先级的检测指令时,将所述高优先级的检测指令置于队列首位,优先执行检测。
[0051]更加优选的,所述监控平台服务端接收到所述检测插件的所述状态或所述检测输出结果后,直接以不同颜色区别显示在平台的展示界面上,同时调用声音、短信或邮件形式进行报警。
[0052]更加优选的,所述基础数据的类型包括:告警数据和性能数据。
[0053]更加优选的,所述监控指标的设置是将监控指标分为运行状态指标、性能指标和可用性指标三大类,通过所述监控指标来反映整体的运行状况。
[0054]更加优选的,所述数据展示端用于所述性能的统一管理时,根据不同监控对象的自身特点和运维管理需要,定义所述性能指标集中每个指标的参数,所述参数包括指标类型、测量范围、数据来源、计算方法、预警阈值和测量频度,进行监测、分析和确定系统性能瓶颈,若超过所述预警阈值的状况,及时通知运维人员处理解决。
[0055]更加优选的,所述预警阈值与所述指标类型相一致。
[0056]更加优选的,所述指标类型包括数值类型和布尔类型。
[0057]更加优选的,所述业务分析在对历史数据进行深度挖掘分析的基础上,建立了故障根源分析模型和影响分析模型,将跨业务系统的交易按业务时序串联或并联起来,生成交易树,对从交易发起到交易结束的完整的交易路由进行追踪,结合基础资源和交易日志监控,对交易异常或交易失败的故障进行准确定位。
[0058]更加优选的,所述综合展示通过业务视图、逻辑拓扑、重要设备和告警统计的视图,将运维管理工作所关注的内容有序、实时、全面地通过屏幕展示出IT系统资源和业务系统的整体运行状况。
[0059]更加优选的,产生所述报警信息的过程是,设置报警阀值,并通过快速警报事件管理接口执行通知动作。
[0060]一种信息系统一体化运维监控服务预警平台的实现方法,包括:
[0061]步骤一:由位于一体化监控平台服务端的服务进程对监控前端控制进程进行周期性的调度,所述调度的周期和参数是在添加被监控的信息系统的监测主机之前被预先定义在服务器端的;
[0062]步骤二:位于所述服务器端的监控前端控制进程是与位于所述监测主机上的监控前端进程进行沟通,将所要调度的监控项传递给监控前端进程,并驱动所述监控前端进程调动所调度的监控项相对应的检测插件执行检测任务;
[0063]步骤三:将所述处理结果以字符串的形式返回检测结果,即被监控服务器的性能数据和告警数据。
[0064]优选的,监控前端进程在被监控服务器中以一种Daemon程序的方式运行,监控前端进程一旦接收到来自于所述服务器端的检测请求,即执行插件库中的检测插件,并返回结果;
[0065]更加优选的,所述性能数据和所述告警数据这两个进程之间的沟通包括通过加密形式传输。
[0066]更加优选的,所述步骤一中,所述周期性的调动中的周期单位为60秒。
[0067]其中,所述SNMP (Simple Network Management Protocol,简单网络管理协议)由一组网络管理的标准组成,包含一个应用层协议(application layer protocol)、数据库模型(database schema)和一组资料物件。该协议能够支持网络管理系统,用以监测连接到网络上的设备是否有任何引起管理上关注的情况。该协议是互联网工程工作小组(IETF,InternetEngineering Task Force)定义的 internet 协议族的一部分
[0068]其中,所述RRD Tool (Round Robin Database Tool环状数据库工具)是一种存储数据的方式,使用固定大小的空间来存储数据,并有一个指针指向最新的数据的位置。
[0069]其中,所述网络管理(Network Management)指网络管理员通过网络管理程序对网络上的资源进行集中化管理的操作,包括配置管理、性能和记账管理、问题管理、操作管理和变化管理等
[0070]其中,所述ITIL (Information Technology Infrastructure Library, ITIL,信息技术基础架构库)由英国 政府部门CCTA (Central Computing and TelecommunicationsAgency)在20世纪80年代末制订,现由英国商务部0GC(0ffice of Government Commerce)负责管理,主要适用于IT服务管理(ITSM)。ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范。
[0071]其中,所述NSM (Network Security&Management)网络安全与管理
[0072]其中,所述ITSM(ITService Management, IT服务管理),它是一套帮助企业对IT系统的规划、研发、实施和运营进行有效管理的高质量方法。它结合了高质量服务不可缺少的流程、人员和技术三大要素---标准流程负责监控IT服务的运行状况,人员素质关系到服务质量的高低,技术则保证服务的质量和效率。“IT服务管理”是一套面向过程、以客户为中心的规范的管理方法,它通过集成IT服务和业务,协助企业提高其IT服务提供和支持能力。
[0073]其中,所述BSM(Business Service Management) BSM是动态把以业务为重点的IT服务与IT基础设施之间建立起联系的软件。以业务为重点的IT服务可以是特殊的IT服务或者是业务流程的一部分,但是它必须支持业务所有者重要的、可见的业务指标
[0074]其中,所述ITOMP(Information Technology Operation and MonitoringPlatform) IT运维监控平台
[0075]其中,所述容量管理(Capacity Management)致力于在恰当的时间以一种经济节约的方式为数据处理和存储提供所需的容量。这里需要很好的平衡。良好的容量管理可以帮助消除某些“最后时刻”的临时应急式的盲目采购,或者超量采购。这两种情形都可以节约成本。
[0076]其中,所述问题管理是四大管理模式之一。“问题管理”是以解决问题为导向,以挖掘问题、表达问题、归结问题、处理问题为线索和切入点的一套管理理论和管理方法。
[0077]其中,所述事件管理为组织提供首先检测事件然后准确确定正确的支持资源以便尽快解决事件的能力。该流程还为管理层提供关于影响组织的事件的准确信息,以便他们能够确定必需的支持资源,并为支持资源的供给做好计划。
[0078]其中,所述Shell在计算机科学中,Shell俗称壳(用来区别于核),是一种程序设计语言。作为命令语言,交互式解释和执行用户输入的命令或者自动地解释和执行预先设定好的一连串的命令;作为程序设计语言,它定义了各种变量和参数,并提供了许多在高级语言中才具有的控制结构,包括循环和分支。
[0079]其中,Perl是由Larry Wall设计的,并由他不断更新和维护的编程语言。,Perl最重要的特性是它内部集成了正则表达式的功能,以及巨大的第三方代码库CPAN。Perl被称为“实用报表提取语言”。它是溯语,而不仅仅是简写,Perl具有高级语言(如C)的强大能力和灵活性。
[0080]其中,所述VBScript是 Visual Basic Script 的简称,即 Visual Basic脚本语言,有时也被缩写为VBS。是asp动态网页默认的编程语言,配合asp内建对象和ADO对象,用户很快就能掌握访问数据库的asp动态网页开发技术。
[0081]其中,所述SQL为结构化查询语言(Structured Query Language)的简称,结构化查询语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套,这使他具有极大的灵活性和强大的功能。
[0082]其中,所述python是一种面向对象、直译式计算机程序设计语言,由Guido vanRossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简捷而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够很轻松的把用其他语言制作的各种模块(尤其是C / C++)轻松地联结在一起。常见的一种应用情形是,使用python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,速度要求非常高,就可以用C++重写。
[0083]其中,所述Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由Sun Microsystems公司推出的Java程序设计语言和Java平台(即Java SE, Java EE,Java ME)的总称。Java技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网,同时拥有全球最大的开发者专业社群。
[0084]其中,所述C是指C语言,是一种计算机程序设计语言,它既具有高级语言的特点,又具有汇编语言的特点。它由美国贝尔研究所的D.M.Ritchie于1972年推出,1978年后,C语言已先后被移植到大、中、小及微型机上,它可以作为工作系统设计语言,编写系统应用程序,也可以作为应用程序设计语言,编写不依赖计算机硬件的应用程序。它的应用范围广泛,具备很强的数据处理能力,不仅仅是在软件开发上,而且各类科研都需要用到C语言,适于编写系统软件,三维,二维图形和动画,具体应用比如单片机以及嵌入式系统开发。[0085]其中,所述C++是一种使用非常广泛的计算机编程语言。C++是一种静态数据类型检查的、支持多重编程范式的通用程序设计语言。它支持过程化程序设计、数据抽象、面向对象程序设计、泛型程序设计等多种程序设计风格。
[0086]其中,所述HTTP是超文本传输协议(HTTP—Hypertexttransfer protocol)的缩写,是一种详细规定了浏览器和万维网服务器之间互相通信的规则,通过因特网传送万维网文档的数据传送协议。
[0087]其中,所述HTTPS (全称:Hypertext Transfer Protocol over Secure SocketLayer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。它是一个URI scheme (抽象标识符体系),句法类同http:体系。用于安全的HTTP数据传输。https:URL表明它使用了HTTP,但HTTPS存在不同于HTTP的默认端口及一个加密/身份验证层(在HTTP与TCP之间)。这个系统的最初研发由网景公司进行,提供了身份验证与加密通讯方法,现在它被广泛用于万维网上安全敏感的通讯,例如交易支付方面。
[0088]其中,所述Telnet协议是TCP / IP协议族中的一员,是Internet远程登陆服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。在终端使用者的电脑上使用Telnet程序,用它连接到服务器。终端使用者可以在Telnet程序中输入命令,这些命令会在服务器上运行,就像直接在服务器的控制台上输入一样。可以在本地就能控制服务器。要开始一个Telnet会话,必须输入用户名和密码来登录服务器。Telnet是常用的远程控制Web服务器的方法。
[0089]本发明与现有技术相比,具有如下有益效果:
[0090]本发明一体化IT运维监控模型以松耦合体系为基础进行架构,采取多层次、模块化结构,实现“监视、管理、控制”三个方面协同的闭环处理过程;主要用于在大型企业内部IT系统集中运维模式下,基于以业务为中心、流程为导向的指导思想,实现精细化、自动化、智能化、一体化IT运维监控的功能,最终提升大型企业信息科技运行维护能力。
[0091]基于一体化运维监控模式构建的一体化运维监控平台能对数据中心机房环境设施、网络设备、主机系统、数据库、中间件、应用系统等进行集中监控,其系统架构遵循一体化运维监控模型的层次化设计理念,具有较好的延展性。具体来讲,本发明中的平台管理功能能够实现以下监控对象的全方位管理;
[0092]1.监控指标设置:针对不同监控对象的自身特点,结合实际监控管理需要,可将监控指标分为运行状态指标、性能指标和可用性指标三大类,并设置各指标阈值,细粒度地监控整体运行状况。
[0093]2.统一性能管理:针对不同监控对象的自身特点和运维管理需要,灵活定制相应的性能指标集,定义每个指标的测量范围、数据来源、计算方法、预警阈值、测量频度等参数,通过实时和历史性能图表,帮助运维人员监测、分析和确定系统性能瓶颈,为性能优化提供科学参考;一旦出现超过预警阈值的状况,及时通知运维人员处理解决,以降低故障发生率。
[0094]3.业务分析:在对历史数据进行深度挖掘分析的基础上,建立了故障根源分析模型和影响分析模型,将跨业务系统的交易有序串联起来,生成交易树,实现对从交易发起到交易结束的完整的交易路由追踪,结合基础资源和交易日志监控,实现了交易异常或失败的故障准确定位。
[0095]4.综合展示:实时、全面地呈现IT系统资源和业务系统的整体运行状况;通过业务视图、逻辑拓扑、重要设备、告警统计等多个不同视图,将运维管理工作所关注的内容有序地呈现出来,同时利用成熟的大屏展现技术,实现了 “一屏在前,全局尽显”。
[0096]5.统一报表管理:对所有被管对象的当前和历史运行情况进行查询、生成各种分析报表和图表。例如,网络运行统计、服务器运行统计、中间件/数据库运行统计、业务应用运行统计、工单统计报表等,运维管理人员利用这些报告,准确掌握系统运行的状况和趋势,及早发现故障隐患及性能瓶颈,并对IT系统的计划、扩容和升级提供战略帮助,为IT系统管理的长期规划提供数据支持。
[0097]本发明的平台还具备如下的各种平台的综合功能;
[0098]①IT行业领先的业务风险监控平台:我们在国内IT行业率先建成了业务风险IT监控平台,通过对业务风险监控指标的设计和实施,能够及时识别来自内部和外部带来的业务风险并进行预警,提高了业务交易的安全管理能力。在实现业务风险监控的同时,将业务交易链与应用系统监控进行有机结合,实现了业务交易链的监控。
[0099]②领先的IT运行管理决策分析平台:IT运行管理决策分析平台在积累了大量性能信息和故障数据的前提下,预测了未来一段时间内性能指标的正常变化趋势,一旦在相同时间段内实际采集数值与预测数值存在偏离,则产生性能事件告警,该技术弥补了固定阀值分析的缺陷,为系统的容量管理、事件管理、问题管理提供了分析的基础,提升了信息系统故障诊断处理的精度和速度、减少重复和低层次的信息系统运维工作,有效地提高了业务系统可用性,保障了业务连续性,提高了 IT服务能力。
[0100]⑧信息系统一体化运维监控服务预警平台:基于一体化IT运维监控模式构建的信息系统一体化运维监控服务预警平台,在国内行业实现了对数据中心机房环境设施、网络设备、主机系统、数据库、中间件、业务服务的集中监控,且实现了监控指标的细粒度设置、统一性能管理、统一业务分析、综合展示、统一报表管理,实现了 “监视、管理、控制、分析、预测”多维协同的闭环处理过程。
[0101]④云监控平台:针对现有大规模数据中心存在地理位置分散,业务系统繁多的特点。信息系统一体化运维监控服务预警平台集首都机场多年来服务器监控技术研究积累的成果,除了能够为首都机场数据中心提供安全有效的监控服务外,还可以为其他单位提供各种应用和服务器的第三方监控服务,用户无需自建监控系统,只需要通过简单的配置即可拥有全面、安全、可靠的监控服务,实现了开放式监控服务的云监控平台。
[0102]⑤支持移动设备接入:信息系统一体化运维监控服务预警平台支持基于iPhone,Android移动设备远程接入,实现了针对不同操作平台用户的安全、统一访问界面,可以便捷、深入、直观地向IT运维人员传递运维信息,提升管控效果。
【专利附图】

【附图说明】
[0103]图1示例性的示出了本发明数据处理层架构示意图;
[0104]图2示例性的示出了本发明优选实施例的数据处理层处理流程示意图;
[0105]图3示例性的示出了本发明的数据处理层的后续处理流程示意图;
[0106]图4示例性的示出了本发明监控方法的示意图。【具体实施方式】
[0107]为了更好的理解本发明所解决的技术问题、所提供的技术方案,以下结合附图及实施例,对本发明进行进一步详细说明。此处所描述的具体实施例仅用以解释本发明的实施,但并不用于限定本发明。
[0108]在优选的实施例中,一体化IT运维监控模型基于松耦合体系架构,采取多层次、模块化结构,实现“监视、管理、控制”三个方面协同的闭环处理过程,信息系统一体化运维监控服务预警平台的系统整体框架由下及上划分为3层:数据采集层(采集层)、数据处理层(处理层)和数据展现层(展现层)。此外,平台管理贯穿3个层面,对系统中的各层予以统一配置和管理。
[0109]一、数据采集层
[0110]采集层负责被监控设备基础数据的采集,支持多种接口方式,如File、JDBC、WebService、JMS、SNMP Trap等。在采集层通过编写不同的系统检查插件与外围系统对接,获取告警数据、性能数据等各类型的数据。
[0111]本发明中数据采集层的工作原理如下:
[0112]1.由位于一体化监控平台服务器端的服务进程对监控前端控制进程进行周期性的调度,该周期参数是在添加被监控的信息系统主机的时候就已经在服务器端定义好的。
[0113]2.位于服务器端的监控前端控制进程的作用是与位于被检测主机上的监控前端进程进行沟通,驱动后者执行检测任务,并以字符串的形式返回检测结果,即被监控服务器的性能数据和告警数据,以上2个进程之间的沟通可以通过加密形式传输。
[0114]3.监控前端进程在被监控服务器中以一种Daemon程序的方式运行,它一旦接收到来自于服务器端的检测请求,即执行插件库中的检测插件,返回结果,除此之外,监控前端进程不会做任何工作。
[0115]检测插件由脚本和应用程序片段组成,所述检测插件包括操作系统参数检测插件、数据库检测插件、中间件检测插件和应用正常性监测插件。
[0116]操作系统参数检测插件是指:由Shell / Perl / VBScript / SQL / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在操作系统上执行,获取操作系统CPU、内存、文件系统、进程、硬件设备、日志文件以及网络设备的性能信息、关键字信息和故障信息;
[0117]数据库检测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,通过运行数据库SQL语句,获取数据库的运行信息;
[0118]中间件检测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在服务器上运行,直接获取或者以HTTP / HTTPS / Telnet方式远程获取中间件的运行信息;
[0119]应用正常性监测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在应用程序宿主机上运行,直接获取或者以日志探测的方式间接获取应用程序是否正常运行的信息。
[0120]根据以上分析,结合如下传统网管系统的数据采集层架构:[0121]传统网管系统架构中,监控前端将数据上传至数据汇总端,由后者再上传至最终的数据展现段展示。那么服务器端对监控前端的检测行为就没有任何控制,也就谈不上安全性和可靠性了。
[0122]而本发明中,一体化IT运维监控系统的服务器端对每一个被检测主机上的检测行为都有完整的“执行检测-返回结果”数据链,每一个检测任务都是一个同步的操作,因此相对于传统网管系统而言,在安全性和可靠性上都有提升。
[0123]二、数据处理层
[0124]数据处理层是在采集层收集到的原始事件基础上,进行合并事件,抑制原始事件信息,过滤和相关性分析等操作,加工并产生报警信息。同时,平台定期地对IT资源性能数据进行汇总、统计和加工,便于进行后期展现。平台可根据不同的关键绩效指标的性能特点设置不同的报警阀值,并通过快速警报事件管理接口执行短信通知、邮件通知等动作。
[0125]本发明基于IT基础设施监控技术和智能诊断处理规则引擎,实现了信息系统运维服务自动化,它包括了信息系统运维任务的自动执行和分析,以及通过规则引擎触发自动探测、分析和解决信息系统故障。借助于信息系统一体化运维监控服务预警平台设计的事件流处理和复杂事件处理框架,信息系统一体化运维监控服务预警平台的数据处理层可以实时监测性能数据流和故障数据流,并且在特定事件发生时触发既定动作。数据处理层是一种基于规则的事件处理引擎,它采用了复杂事件处理机制,利用信息系统一体化运维监控服务预警平台来解决静态设定和动态规则调整问题,将具体的数据抽象成简单的事件,再将事件发送到事件处理引擎中进行决策分析,结合设定的策略来进行综合处理。
[0126]数据处理层的架构
[0127]在系统中,首先将关注的数据抽象为事件,事件流由数据流抽象而成,在接收数据流后加以处理,封装成不同的事件类型,然后针对不同事件类型的事件由系统分别进行处理。
[0128]平台的数据处理层实时地从后台数据库获取性能数据和故障监控数据,而后利用自身特有的事件处理特性,进行事件分析、时间过滤和窗口聚集.将真正有意义的信息发送给监视用户,从而实现对网络资源的监控和及时准确的通知消息推送。
[0129]如图1所示,数据处理层的架构中,数据处理层将数据采集抽象为事件,然后进行事件分类和分析,再从策略中心读取事件处理方法,再将事件交由处理中心处理。处理中心根据事件发生的频率、周期、发生次数、重要性等具体情况,并依据设定的策略决定是否报警、启动或者停止服务等处理方法。用户可以在IT运维监控平台的管理控制台设定处理策略、接收警报信息和进行应急处理。
[0130]数据处理层的实现
[0131]数据处理层接收到事件分类后,通过一系列的事件分析,并根据设定的策略来判断系统目前是否正常、重启服务与否、是否发送短消息、是否通知用户处理等。
[0132]信息系统一体化运维监控服务预警平台产生的性能数据流和监控数据流经过数据处理层一系列的处理过滤后,经过策略设定中心的设定和管理,只有最核心的事件被暴露出来,最大程度地保证了系统的安全稳定运行,后续流程如图3所示。
[0133]三、数据展现层
[0134]展现层分视图、报表、查询三个部分。展现实时监视告警情况,分析系统性能状况,并对告警等内容做进一步的分析处理。展现层可以显示报警信息和数据收集的拓扑视图,图形,声音和光报警等,以展现给用户操作人员和管理人员,提供多种用户直观的用户界面操作。
[0135]本发明除了可以密切监控业务系统性能,包括系统的业务处理量、处理性能、各资源使用状况等,还可以通过对系统资源瓶颈的分析,降低或提高业务系统容量;通过工作负载的分析,调整业务交易时间,减少高峰负载,实现最佳投资。
[0136]通过本发明的数据展现层,可以全面了解业务发展状况,不同区域增长情况,不同业务提升速度,密切关注航班、旅客、安检、行李、货邮等机场核心业务数据,将单一、零散的业务数据形成趋势图形,以图形为支撑,主动分析、合理预测,科学规划,统计总结出对系统管理,业务管理,服务管理有用的信息,为管理者提供全面,更直接的管理信息,为制订相关决策提供基础,为投资计划提供依据。
[0137]一种信息系统一体化运维监控服务预警平台的实现方法,如图4所示,包括:
[0138]步骤一:由位于一体化监控平台服务端的服务进程对监控前端控制进程进行周期性的调度,所述调度的周期和参数是在添加被监控的信息系统的监测主机之前被预先定义在服务器端的;
[0139]步骤二:位于所述服务器端的监控前端控制进程是与位于所述监测主机上的监控前端进程进行沟通,将所要调度的监控项传递给监控前端进程,并驱动所述监控前端进程调动所调度的监控项相对应的检测插件执行检测任务;
[0140]步骤三:将所述处理结果以字符串的形式返回检测结果,即被监控服务器的性能数据和告警数据。
[0141]优选的,监控前端进程在被监控服务器中以一种Daemon程序的方式运行,监控前端进程一旦接收到来自于所述服务器端的检测请求,即执行插件库中的检测插件,并返回结果;
[0142]更加优选的,所述性能数据和所述告警数据这两个进程之间的沟通包括通过加密形式传输。
[0143]更加优选的,所述步骤一中,所述周期性的调动中的周期单位为60秒。
[0144]具体的实施例中:
[0145]近年来,首都机场作为国际大型枢纽机场,开展了业务流程的再造和优化,如航班信息业务流程,安检信息业务流程、离港信息流程、航显信息流程、旅客服务信息流程、行李信息流程等。提炼并制定了相应的流程图、流程文件及流程运作机制,向流程化管理、精细化管理要效率、要效益,促进了企业核心竞争力的提升。
[0146]面对这些复杂流程中各种不同的风险因素,要实现其价值最大化和可持续发展目标,不仅要关注独立的、个别的风险,更要在业务流程层面对风险加以管理和控制。
[0147]那么,具体到风险管控操作上面,对于流程型企业,风险管控与业务流程监控是否可以结合起来呢?答案是肯定的。根据首都机场IT运维团队多年的流程管理与风险管理的实践经验,通过在信息系统一体化运维监控服务预警平台的数据展示层面直接部署业务流程监控图,以加强企业的风险管控。
[0148]关键业务流程选择与风险点分析
[0149]该步骤的目的在于筛选出需要进行业务流程风险管控的重点业务流程。不同的风险,源于企业内外部不同方面,而且随时随地都有可能发生,影响程度、范围各有不同。因此,收集风险管控信息应贯穿于枢纽机场的重点业务单位,例如航空安保公司、运行控制中心、航站楼管理部等,抓大放小,根据枢纽机场各项管理指标、管理重点等因素进行综合分析,筛选出需要着重加强风险管控的重点业务端到端流程。
[0150]筛选原则可从选择依据和选择范围两个维度进行考量:
[0151]1、选择的依据
[0152]看该流程是否与经营考核的指标相关;看该流程是否运营风险比较高;看该流程是否领导层比较关注。
[0153]2、选择的范围
[0154]核心业务流程;考核指标相关流程;当前运作的主要端到端业务流程。
[0155]以首都机场安检信息系统业务为例,从安检流程中我们梳理出了以下与信息系统相关的重点消息流程,首都机场安检信息系统需要和机场的多个信息系统进行数据交互,从这些系统获取多种信息进行相应的整合,同时向外提供信息发布功能以及多方面的信息服务,形成一个综合性的机场安全信息数据交互平台。要求系统的信息采集、整合、交互部分具有强的分析、甄别、格式化功能。数据处理应该快速、安全、准确,并具有较强的可扩展性,以备将来接口方的扩展
[0156]下一步我们需要进入安检关键业务流程风险点分析阶段,目的在于对流程中各节点的风险情况进行分析,提炼出该流程中重点风险管控信息。
[0157]根据上述选择出来的重点业务流程,由信息技术部的IT运维业务经理召集该流程各节点相关岗位人员进行座谈,分别对其流程岗位运作情况进行详细介绍,共同分析流程运作中各节点可能存在的风险信息。具体来讲,流程节点风险信息分析的主要内容可包括:该节点是风险节点还是管控节点;风险节点指可能产生风险的节点,控制节点指对风险有管控作用的节点。该节点对应什么岗位;对应岗位指负责关键节点的部门岗位。该节点风险内容有哪些;风险内容指关键节点可能出现的风险类型。如何描述该节点的风险;风险描述指详细说明可能产生的风险。该节点有哪些控制措施;控制措施指针对可能产生的风险,现有的防范和应对措施。该节点有哪些岗位风险控制职责;岗位风险控制职责指为降低关键节点产生风险的可能性,负责该节点的部门岗位需要采取的行动。该节点风险预案是什么;风险预案指在异常情况发生或正常措施未能控制住风险时,可采取的补救措施。该节点有哪些管控措施;针对风险问题建议采取的风险管控措施。
[0158]根据以上分析措施,结合安检信息系统业务流程,可以获得如下关键节点,并分别设定如下业务运行指标和应用运行指标。
[0159]业务运行指标:
[0160]业务运行指标是用来判断某项业务的交易链路是否正常。以安检信息系统为例,可以从安检信息系统中间件服务器、应用服务器和数据库服务器3个层次关注安检信息系统业务运行指标,特别是关注旅客值机信息发往安检信息系统的响应时间。
[0161]安检信息系统中间件服务器:旅客值机消息接收和处理时间,旅客行李报文消息接收和处理时间,行李消息报文接收和处理时间。以上消息接收和处理时间可以通过轮询中间件队列获得。
[0162]安检信息系统应用服务器:终端连接线程数,终端读取旅客登机牌后的响应时间,终端每发出一个操作的响应时间。
[0163]安检信息系统数据库服务器:安检信息系统数据库可用性检查,安检信息系统数据库表空间使用情况,以上数据库业务运行指标可以通过执行数据库检查脚本实现。
[0164]应用运行指标:
[0165]设立应用运行指标的目的在于判断支撑某项业务的应用是否正常。安检信息系统的应用监控主要是应用可用性监控,包括网页监控、应用服务监控、应用端口监控、应用链路监控等方面内容;
[0166]网页监控:每5分钟监控静态登陆页面,每5分钟监控中间平台动态页面,每5分钟抓取并记录中间件各队列中积压的消息数量,中间件端口监控,每5分钟监控中间件平台服务端口。
[0167]应用服务和端口监控:监控web服务端口,应用进程监控,监控RA、RMI服务个数和服务状态监控。
[0168]应用链路监控:监控安检信息系统关键航班信息和上游数据源是否一致,监控旅客值机消息是否确实,定时模拟客户端登陆应用,执行业务操作,返回服务交易时间,并监控其与正常交易时间的偏差。
[0169]业务流程和风险管控信息在数据展示层的融合
[0170]经过上述分析得出的重点业务流程各节点风险管控信息即为该业务流程所含的关键风险管控信息,在日常运维中需要特别关注。接下来,将这些蕴含风险管控信息的节点在业务流程图中标识出来,在信息系统一体化运维监控服务预警平台的数据展示层中建立风险管控信息-监控节点-业务流程的关联。经此,各级管理人员、业务流程监控岗位工作人员都可通过流程图和流程文件直观地得到该条流程的风险管控信息,籍此加强核心业务流程风险的提示、预警和管控。
[0171]安检信息系统业务流程与安检信息系统的风险管控信息监控节点有机结合起来,强化了安检业务流程的风险预警及管控能力。
[0172]总之,从业务流程层面进行风险管控是流程型企业加强风险管控的可选方向之一。它融合了流程管理和风险管理两方面的因素,既推动了企业业务流程管理向更广泛的、更深入的方向拓展,也使企业风险管理更易于落地实现,而本发明中的数据展示层正是实践这类管理手段的有力工具。
[0173]平台管理
[0174]贯穿三个层面的平台管理包含两个部分:系统管理和数据管理。系统管理主要是系统级数据的管理,包括统一用户管理、平台参数管理、健康自检、任务控制。数据管理主要是对系统业务数据的组织管理,包括告警规则管理、服务器管理、监控项管理、检测命令管理、视图管理、报表管理、采集模板管理。平台管理从前台展示到中间数据逻辑的处理到底层数据的采集,通过灵活的界面配置达到了对各个层次的控制,使整个系统可配置,方便用户控制管理。
[0175]针对监控前端的改进:
[0176]针对通用网管系统监控前端出现工作异常,会影响宿主服务器稳定运行的情况,特别设计了精简的监控客户端。与通用网管系统采取“主动采集IT系统运行情况”的运行机制不同,本发明的监控客户端采用了插件机制,所有IT系统运行情况,包括性能数据、故障数据等的采集完全是由插件执行的。在本发明的监控前端架构中,监控客户端接收来自于信息系统一体化运维监控服务预警平台的调度指令,分别执行各类检测插件,然后返回“正常0K” / “报警Warning” / “严重Critical” / “未知Unknown”等不同的状态,同时返回性能数据字符串,标识服务是否正常。
[0177]在本发明的监控前端设计方案中,监控前端仅接收来自监控平台服务端的指令,执行插件检查,返回字符串形式的检查结果。监控前端并不直接参与到服务器检测中,从而降低了监控前端的负载、提升其进程的稳定性和安全性,进而保证了宿主服务器的安全运行。
[0178]本发明的监控前端不具备数据库存储能力,而是将监控数据传回至平台服务器端,由后者存放在数据库中,此设计方案同样降低了宿主服务器的负载。
[0179]针对数据汇总端的改进:
[0180]本发明的数据汇总端具备将性能数据、故障数据等信息存入后台数据库的能力
[0181]针对数据展示端的改进:
[0182]信息系统一体化运维监控服务预警平台的数据展示端改进如下;
[0183]I)监控指标设置:针对不同监控对象的自身特点,结合实际监控管理需要,可将监控指标分为运行状态指标、性能指标和可用性指标三大类,并设置各指标阈值,细粒度地监控整体运行状况。
[0184]2)统一性能管理:针对不同监控对象的自身特点和运维管理需要,灵活定制相应的性能指标集,定义每个指标的测量范围、数据来源、计算方法、预警阈值、测量频度等参数,通过实时和历史性能图表,帮助运维人员监测、分析和确定系统性能瓶颈,为性能优化提供科学参考;一旦出现超过预警阈值的状况,及时通知运维人员处理解决,以降低故障发生率。
[0185]3)业务分析:在对历史数据进行深度挖掘分析的基础上,建立了故障根源分析模型和影响分析模型,将跨业务系统的交易有序串联起来,生成交易树,实现对从交易发起到交易结束的完整的交易路由追踪,结合基础资源和交易日志监控,实现了交易异常或失败的故障准确定位。
[0186]4)综合展示:实时、全面地呈现IT系统资源和业务系统的整体运行状况;通过业务视图、逻辑拓扑、重要设备、告警统计等多个不同视图,将运维管理工作所关注的内容有序地呈现出来,同时利用成熟的大屏展现技术,实现了 “一屏在前,全局尽显”。
[0187]5)统一报表管理:对所有被管对象的当前和历史运行情况进行查询、生成各种分析报表和图表。例如,网络运行统计、服务器运行统计、中间件/数据库运行统计、业务应用运行统计、工单统计报表等,运维管理人员利用这些报告,准确掌握系统运行的状况和趋势,及早发现故障隐患及性能瓶颈,并对IT系统的计划、扩容和升级提供战略帮助,为IT系统管理的长期规划提供数据支持。
[0188]以上通过具体的和优选的实施例详细的描述了本发明,但本领域技术人员应该明白,本发明并不局限于以上所述实施例,凡在本发明的基本原理之内,所作的任何修改、组合及等同替换等,均包含在本发明的保护范围之内。
【权利要求】
1.一种信息系统一体化运维监控服务预警平台,其特征在于,包括: 数据采集层;用于被监控设备基础数据的采集,通过编写不同的系统检查插件与外围系统对接,获取所述基础数据。 数据处理层;用于对所述数据采集层收集到的所述基础数据进行处理,所述处理包括合并事件、抑制原始事件信息、过滤分析和相关性分析和趋势预测,对所述处理后的数据进行加工并产生报警信息;所述平台对所述基础数据进行实时处理; 数据表现层;用于用户处理后的数据展示,所述展示的内容包括视图、报表和查询内容; 一体化运维监控及服务预警平台管理系统:用于对所述平台进行管理,所述管理包括系统管理和数据管理;所述系统管理用于系统级数据的管理,包括统一用户管理、平台参数管理、健康自检和任务控制;所述数据管理用于对系统业务数据的组织管理,包括告警规则管理、服务器管理、监控项管理、检测命令管理、视图管理、报表管理和采集模板管理; 所述系统贯穿于所述数据采集层、所述数据处理层以及所述数据表现层三个层面,对所述数据采集层、所述数据处理层和所述数据表现层三个层面进行统一配置和管理; 所述系统包括监控前端、数据汇总端、数据展示端和监控平台服务端; 所述监控前端用于接收来自所述监控平台服务端的指令,通过检测插件执行检查,返回字符串形式的检查结果; 所述数据汇总端用于将所述基础数据存入后台数据库; 所述数据展示端用于监控指标的`设置、性能的统一管理、业务分析、综合展示以及报表统一管理; 所述监控平台服务端用于按照内部检测队列,以先进先出的顺序,驱动所述监控前端进行检测。
2.根据权利要求1所述的信息系统一体化运维监控服务预警平台,其特征在于,所述监控前端包括监控客户端,所述监控客户端用于:①所述监控客户端自身不直接执行检测任务,而是由检测插件执行所述检测任务;②所述监控客户端实时同步进行接收来自所述监控平台服务端的检测指令、调用所述检测插件执行所述检测任务以及返回检测结果所述监控客户端接收的所述检测任务和检测指令对应的插件在所述监控客户端的配置文件中已定义。
3.根据权利要求2所述的信息系统一体化运维监控服务预警平台,其特征在于,所述检测插件由脚本和应用程序片段组成,所述检测插件包括操作系统参数检测插件、数据库检测插件、中间件检测插件和应用正常性监测插件。
4.根据权利要求3所述的信息系统一体化运维监控服务预警平台,其特征在于, 所述操作系统参数检测插件是指:由Shell / Perl / VBScript / SQL / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在操作系统上执行,获取操作系统CPU、内存、文件系统、进程、硬件设备、日志文件以及网络设备的性能信息、关键字信息和故障信息; 所述数据库检测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,通过运行数据库SQL语句,获取数据库的运行信息;所述中间件检测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在服务器上运行,直接获取或者以HTTP / HTTPS / Telnet方式远程获取中间件的运行信息; 所述应用正常性监测插件是指:由Shell / Perl / VBScript / python批处理语言组成的脚本程序,或者Java / C / C++高级语言组成的应用程序,在应用程序宿主机上运行,直接获取或者以日志探测的方式间接获取应用程序是否正常运行的信息。
5.根据权利要求2所述的信息系统一体化运维监控服务预警平台,其特征在于,所述检测插件返回状态包括:正常、警告、严重和未知;所述检测插件除返回所述状态外,还返回检测输出结果,所述检测输出结果中包含性能信息或者故障信息;性能信息和故障信息均为普通字符串形式。
6.根据权利要求1所述的信息系统一体化运维监控服务预警平台,其特征在于,所述监控平台服务端在接收高优先级的检测指令时,将所述高优先级的检测指令置于队列首位,优先执行检测。
7.根据权利要求2所述的信息系统一体化运维监控服务预警平台,其特征在于,所述监控平台服务端接收到所述检测插件的所述状态或所述检测输出结果后,直接以不同颜色区别显示在平台的展示界面上,同时调用声音、短信或邮件形式进行报警。
8.根据权利要求1所述的信息系统一体化运维监控服务预警平台,其特征在于,所述基础数据的类型包括:告警数据和性能数据。
9.根据权利要求1所述的信息系统一体化运维监控服务预警平台,其特征在于,所述监控指标的设置是将监控指标分为运行状态指标、性能指标和可用性指标三大类,通过所述监控指标来反映整体的运行状况。
10.根据权利要求1所述的信息系统一体化运维监控服务预警平台,其特征在于,所述数据展示端用于所述性能的统一管`理时,根据不同监控对象的自身特点和运维管理需要,定义所述性能指标集中每个指标的参数,所述参数包括指标类型、测量范围、数据来源、计算方法、预警阈值和测量频度,进行监测、分析和确定系统性能瓶颈,若超过所述预警阈值的状况,及时通知运维人员处理解决。
11.根据权利要求10所述的信息系统一体化运维监控服务预警平台,其特征在于,所述预警阈值与所述指标类型相一致;所述指标类型包括数值类型和布尔类型。
12.根据权利要求1所述的信息系统一体化运维监控服务预警平台,其特征在于,所述业务分析在对历史数据进行深度挖掘分析的基础上,建立了故障根源分析模型和影响分析模型,将跨业务系统的交易按业务时序串联或并联起来,生成交易树,对从交易发起到交易结束的完整的交易路由进行追踪,结合基础资源和交易日志监控,对交易异常或交易失败的故障进行准确定位;所述综合展示通过业务视图、逻辑拓扑、重要设备和告警统计的视图,将运维管理工作所关注的内容有序、实时、全面地通过屏幕展示出IT系统资源和业务系统的整体运行状况。
13.根据权利要求1所述的信息系统一体化运维监控服务预警平台,其特征在于,产生所述报警信息的过程是,设置报警阀值,并通过快速警报事件管理接口执行通知动作。
14.一种信息系统一体化运维监控服务预警平台的实现方法,包括: 步骤一:由位于一体化监控平台服务端的服务进程对监控前端控制进程进行周期性的调度,所述调度的周期和参数是在添加被监控的信息系统的监测主机之前被预先定义在服务器端的; 步骤二:位于所述服务器端的监控前端控制进程是与位于所述监测主机上的监控前端进程进行沟通,将所要调度的监控项传递给监控前端进程,并驱动所述监控前端进程调动所调度的监控项相对应的检测插件执行检测任务; 步骤三:将所述处理结果以字符串的形式返回检测结果,即被监控服务器的性能数据和告警数据。
15.根据权利要求14所述的信息系统一体化运维监控服务预警平台的实现方法,其特征在于,监控前端进程在被监控服务器中以一种Daemon程序的方式运行,监控前端进程一旦接收到来自于所述服务器端的检测请求,即执行插件库中的检测插件,并返回结果。
16.根据权利要求14所述的信息系统一体化运维监控服务预警平台的实现方法,其特征在于,所述性能数据和所述告警数据这两个进程之间的沟通包括通过加密形式传输。
17.根据权利要求14所述的信息系统一体化运维监控服务预警平台的实现方法,其特征在于,所述步骤一中,所述周期性`的调动中的周期单位为60秒。
【文档编号】H04L29/08GK103888287SQ201310700092
【公开日】2014年6月25日 申请日期:2013年12月18日 优先权日:2013年12月18日
【发明者】肖挺莉, 付哲 申请人:北京首都国际机场股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1