一种基于分布式日志分析的电力系统运行状态监视方法_2

文档序号:8299625阅读:来源:国知局
>【附图说明】
[0038]图1为本发明提供的电力系统运行状态监视方法的流程图;
[0039]图2为本发明中,实现日志信息采集的网络爬虫系统结构图;
[0040]图3为本发明中,日志信息采集流程图;
[0041]图4为本发明中,基于状态噪点移除聚类的日志分析算法监视系统运行状态的流程图;
[0042]图5为特定字段日志信息的统计分析流程图。
【具体实施方式】
[0043]下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。
[0044]如图1所示,本发明提供的基于分布式日志分析的电力系统运行状态监视方法,具体包括如下步骤:首先通过基于syslog(系统日志)方式的日志扫描抓取技术获取电力系统的日志信息,组合成日志文件;然后通过分割处理,将日志文件进行分割,组合报文前后缀内容使日志信息具有统一日志数据格式,将日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中;最后结合Hadoop中的Map-Reduce机制,采用基于状态噪点移除聚类的日志分析算法对日志信息进行分类处理,并通过对分类后的日志信息进行分析来监视电力系统运行状态。下面对这一过程做详细具体的说明。
[0045]SI,通过基于syslog方式的日志扫描抓取方法获取电力系统的日志信息,并将其合并成日志文件。
[0046]数据采集,又称数据获取,是利用一种工具从系统外部采集数据并输入到系统内部的过程。在互联网行业快速发展的今天,数据采集领域已经发生了重要的变化,被广泛应用于互联网及分布式领域。在电力行业,数据采集就是对所关心的安全设备、应用系统等通过某种具体方式(file、syslog、http等)进行电网监控、故障分析所需日志信息的采集工作。
[0047]日志采集技术是日志分析的关键技术之一。日志采集技术需要采集各种安全设备、应用系统等日志信息,为上层的事件分析工作提供数据来源,因此日志采集过程是系统进行检测和决策的基础,它的准确性、可靠性及其效率直接影响到整个系统的性能。
[0048]在本发明的一个实施例中,分析的日志信息主要包括:系统日志、访问日志、用户行为日志三类,通过基于syslog方式的日志扫描抓取方法获取电力系统的日志信息。系统日志(syslog)协议是在加州大学伯克立软件分布研宄中心(BSD)的TCP/IP系统实施中开发的,目前己成为工业标准协议,可用它记录系统及设备的日志。在UNIX/Linux系统的路由器、交换机等网络设备中,syslog记录着系统中的任何事件,管理者可以通过查看系统记录,随时掌握系统状况。UNIX/Linux的系统日志通过syslogd进程记录系统有关事件,也可以记录应用程序运作事件,通过适当配置,还可以实现运行syslog协议的机器之间的通信。通过分析这些网络行为日志,追踪和掌握与系统、设备和网络有关的情况。
[0049]在本发明的一个实施例中,基于syslog方式的日志扫描抓取方法采用应用于系统日志扫描抓取的网络爬虫系统来实时扫描并抓取系统日志,为后续的运行状态监视做准备。网络爬虫(Spider)是指遵循HTTP协议,根据其中的超链接以及Web页面文档之间的索引关系来遍历信息空间的软件程序。
[0050]网络爬虫系统包括种子管理模块、抓取模块和爬虫日志数据信息抽取与统计模块;实现日志信息采集的网络爬虫系统结构图如图2所示,爬虫日志数据信息抽取与统计模块从种子管理模块和抓取模块抓取节点上得到日志信息,首先在本地服务器备份,然后按照HadoopLzop的方式进行压缩,通过网络传输将压缩数据上传到HDFS,Hive根据日志解析计划生成Map-Reduce任务,以Job方式提交给Hadoop集群,其计算结果存放到爬虫数据系统。集群Job调度系统负责Job任务调度,以实现资源的有效利用,集群作业监控记录Job任务的运行状态,网络监控会对系统的运行状态进行监控。
[0051 ] 其中,通过网络爬虫系统实现日志信息的获取日志信息具体包括如下步骤:
[0052]S11,种子管理模块分布在电力系统各节点上,将位于该节点上的各个种子模块抓取的日志数据进行选取合并,得到本节点的各类日志信息。
[0053]针对电力系统,多个种子模块分布在电力系统的各个节点上,用于抓取电力系统运行时该节点产生的系统信息、访问信息以及各高级应用信息等日志信息。种子管理模块也分布在电力系统各节点上,用以将各个种子模块抓取的日志信息进行选取合并,得到本节点的各类日志信息。
[0054]S12,将抓取模块分布在电力系统一区、二区、三区,对各节点的种子管理模块汇总得到的日志信息进行抓取合并,得到各区的整合数据,发送到本区数据处理节点,对数据进行处理将其存储到日志文件中。
[0055]在电力系统的一区、二区、三区包含的各个节点上分布着种子管理模块,抓取模块分别分布在电力系统的一区、二区、三区,将电力系统的一区、二区、三区包含的种子管理模块汇总得到的日志信息进行抓取合并,得到各区的整合数据,并发送到本区数据处理节点,对数据进行处理,将经处理的日志信息存储到日志文件中。
[0056]S13,爬虫日志数据信息抽取与统计模块从种子管理模块和抓取模块获得选取合并的各类日志信息,从抓取日志信息的节点获得抓取记录数据,经过分析得到日志信息的合并抓取策略,可以根据需要及时对合并抓取策略进行调整。
[0057]爬虫日志数据信息抽取与统计模块起到调整抓取策略的作用,一方面获得种子管理模块和抓取模块选取合并的各类日志信息,另一方面从抓取日志信息的节点获得抓取记录数据,通过分析这些信息,得到整个爬虫系统的合并抓取策略,当遇到系统问题时,可以根据需要及时针对发生的问题涉及的日志种类对合并抓取策略进行相应的调整,使系统中的种子管理模块和抓取模块只抓取与问题相关的日志信息,减少了日志信息处理的数量与时间,提高了运维的效率。
[0058]S2,将日志文件进行分割,对其进行处理得到统一格式的日志信息,使日志文件中的日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中。
[0059]通过Flume工具将日志文件进行分割,采用组合报文前后缀的方式,定制日志数据格式,使不同类别的日志信息得到统一的日志数据格式,使日志信息逐条序列化输出到分布式存储系统(HDFS/HBase)中,为下一步日志分析创造了便利。
[0060]根据电力系统的实际需要,分析的日志信息主要包括:系统日志、访问日志、用户行为日志三类。系统日志用于系统运行状态监测,包括系统资源使用率、网络设备使用状况等;访问日志用于统计系统主机的交互情况,如系统访问量、访问节点信息、访问时间等;用户行为日志用于调度行为模式的挖掘分析,主要对运行人员的操作数据进行建模分析。三类日志文件通过爬虫技术抓取并利用Flume工具以批量、定时的方式发送到分布式存储系统中。Flume工具是一种分布式日志搜集、运输工具。它以Agent为基本单元,包含数据接收端、发送端、通道,是具有高扩展性和高自由度的分布式工具,不但可以搜集非结构化的文本文件,也可以搜集非结构化的视频、音频等文件。日志信息采集流程如图3所示,该过程首先检测是否有新的日志文件产生,如果有
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1