一种基于大数据技术的海量时序数据收集处理装置及方法与流程

文档序号:12364205阅读:471来源:国知局

本发明涉及用电数据分析应用领域,具体涉及到一种基于大数据技术的海量时序数据收集处理装置及方法。



背景技术:

随着计算机技术的飞速发展,各行业的数据急速增长,数据量变的越来越大,类型也越来越多,数据结构也趋于复杂化,传统的数据库不但各设备独立放置,并且需要较大的部署空间,存在不易部署、成本较高等缺点,不能满足用户的一般要求。

时序数据是带时间标签的时间序列数据,其典型特点是产生频率快、严重依赖于采集时间、测点多信息量大。在电力行业中,为了保证设备安全、稳定、高效地运行,通常会对发电、变电等各类设备的运行状态进行实时监测,采集获得大量的时序数据可作为设备运行状态评估、设备运行故障预警、设备可靠性分析等高级应用的基础,因而,如何快速、高效、及时地处理海量实时数据,一直是电力、化工、石油、钢铁等重资产行业面临的一项重大课题。

电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。

近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。

Hadoop是一个分布式系统基础架构,包括分布式文件系统HDFS(Hadoop Distributed File System)、分布式存储系统HBase、并行计算编程模型MapReduce等几个核心部分,它可以极大地简化大规模数据的处理过程,但它在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业的业务需求,构建一种基于大数据技术的海量时序数据收集和传输装置及方法,具有深远的意义和较强的利用价值。

随着信息技术的迅猛发展,实时/准实时分析和预测类应用逐步普及,随之而来的数据中心服务器建设方案向海量时序数据的收集和传输提出更高要求,传统的技术手段无法满足日益提高的采集频率、传输及时性、吞吐量、可靠性等各项技术指标的要求。

运用大数据存储和传输技术,在采集点和数据中心服务器之间构建实时的跨层级的数据收集装置,采用流式传输机制依次通过底层的收集中心向上传送数据,整个多层收集网络支持跨层级和同层级的线性扩展;各级节点可兼具数据汇集、数据过滤、数据补全、数据计算等多项数据处理职责,节点的数据处理职责动态可调配。

然而,目前无法解决集团级应用系统集中部署,数据中心服务器、数据挖掘中心建设过程中对海量时序数据收集和传输提出的功能和性能要求,提供一套成本低廉、支持横向扩展的数据收集和传输方法,构建一种基于大数据技术的海量时序数据收集装置及方法势在必行,。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种可以快速、高效、及时地处理海量实时数据,同时保证设备安全、稳定、高效地运行的基于大数据技术的海量时序数据收集处理装置及方法。

本发明提供了一种基于大数据技术的海量时序数据收集处理装置,包括数据采集装置、数据收集装置、数据中心服务器,其中数据收集装置分别与数据采集装置和数据中心服务器连接;

数据采集装置,用于实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给数据收集装置;

数据收集装置,包括多个数据收集中心,用于运用大数据存储和传输技术,在采集点和数据中心服务器之间构建实时的跨层级的数据收集,通过采用流式传输机制依次通过底层的数据收集中心向上传送数据,整个多层收集网络支持跨层级和同层级的线性扩展;其中多个数据收集中心为构成N层模型,其中每一层分别包括M1,M2,…,MN个子数据收集中心,第N层的每2个子数据收集中心的输出结果作为第N-1层子数据收集中心的输入,不断地执行迭代计算,最终得出第1层的计算结果;

数据收集中心,用于以流式接入的方式接收来自数据采集装置中实时发送的用户用电监测数据和以批量接入的方式,通过预定义的调度计划自动获取数据采集装置中的常规的设备台账数据和历史数据,并存储在数据中心服务器中;

数据中心服务器,用于利用大数据传输技术,将数据收集中心处理后台账数据,历史数据和指标数据进行存储。

优选地,数据采集装置包括安装于监测设备上的用电信息采集传感器。

优选地,数据采集装置还包括监测设备安装区域的和/或温度检测器。

优选地,数据收集中心还用于直接连接数据采集点获取用户用电监测数据。

优选地,还包括与数据收集装置连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。

优选地,所述数据收集中心还用于调用和接收时序数据存储器中用户采集系统推送产生的新的时序数据,并对新的时序数据重复执行训练过程,对数据挖掘模型进行更新。

优选地,所述人工输入装置为笔记本电脑、平板电脑和/或手机。

本发明还提供一种基于大数据技术的海量时序数据收集处理方法,依次包括如下步骤:

(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制监测传感器的采样周期为每小时15次,采样时间为7天,将7天内采样的数据求平均值A;

(2)在同样的初始参数条件下,重复步骤(1)5次,分别求得5次的平均值,删除5次中平均值最大和最小的两个数值,其余3次的平均值记为B、C、D;

(3)令令P'为数据采集装置的实时测量数值,则:

A.如果则数据采集装置性能稳定,进入步骤(4);

B.如果则数据采集装置性能不稳定,则进入步骤(1);

(4)实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据推送到数据收集装置,然后以推送的方式,直接推送到数据中心服务器中,或者以流式输出的方式将用户用电监测数据输出至数据收集中心;

(5)以批量接入的方式,通过预定义的调度计划自动获取数据中心服务器中的常规台账数据和历史数据,将设备台账数据和历史数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将预处理后的数据输出至数据中心服务器进行存储;

(6)将近期的监测数据、常规的设备台账数据,以及关注率较高的历史指标数据、模型元数据和预处理规则数据集中缓存到数据中心服务器中的内存器;

(7)通过数据收集中心计算处理过程中的计算引擎驱动调度引擎来调用和接收数据采集装置或数据中心服务器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过计算单元处理后的数据回传到数据中心服务器。

本发明的一种基于大数据技术的海量时序数据收集处理装置及方法,可以实现:

1)以稳定、可靠、高效的开源分布式存储系统和并行计算服务为核心,针对监控集抄相关的时序数据、用电用户相关的台账数据、统计分析相关的结果数据分别制定专项存储方案,结合实际业务场景构建混合存储系统;集团级应用系统集中部署,数据中心服务器、数据挖掘中心建设过程中对海量时序数据收集处理提出的功能和性能要求,提供一套成本低廉、支持横向扩展的数据收集处理方法;

2)实时和准时的采集数据,采集频率和传输时效性高,并且优化设计了数据采集频率,采集效率高,能效低但是效能高,并且装置功能强大,能够解决长期历史数据数据存储问题,同时大大降低了数据存储的成本问题(Oracle一体机的成本远高于Hadoop集群);

3)针对系统数据的可靠性,设计了平均值数据确认方案,使得用户监测数据更加稳定可靠,减轻了装置的工作负荷,使用寿命更长,性能更加稳定;

4)优化的数据采集装置性能评判方式,使得数据更可靠。

附图说明

图1基于大数据技术的海量时序数据收集处理装置结构示意图

具体实施方式

下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。

本发明提供了一种基于大数据技术的海量时序数据收集处理装置,如附图1所示,包括数据采集装置1、数据收集装置2、数据中心服务器3,其中数据收集装置2分别与数据采集装置1和数据中心服务器3连接;

数据采集装置,用于实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给数据收集装置,数据采集装置包括安装于监测设备上的用电信息采集传感器,还可以同时包括监测设备安装区域的摄像头、温度检测器等传感器,数据收集装置可以实时的将用户用电监测数据存储,并且以推送的方式或者以流式输出的方式,将用户用电监测数据输出至数据中心服务器或数据收集中心。

数据收集装置,是由一个个数据收集中心构成的,是运用大数据存储和传输技术,在采集点和数据中心服务器之间构建实时的跨层级的数据收集装置。通过采用流式传输机制依次通过底层的收集中心向上传送数据,整个多层收集网络支持跨层级和同层级的线性扩展;各级节点可兼具数据汇集、数据过滤、数据补全、数据计算等多项数据处理职责,节点的数据处理职责动态可调配。

数据收集中心,用于以流式接入的方式接收来自数据采集装置中实时发送的用户用电监测数据和以批量接入的方式,通过预定义的调度计划自动获取数据采集装置中的常规的设备台账数据,和历史数据,并存储在数据中心服务器中。数据收集中心将采集到的数据通过批量接入、流式接入、人工导入等多种形式获取,也可以直接连接数据采集点获取用户用电监测数据。接入的数据在存储之前,可以进行必要的预处理,利用预先配置好的预处理规则进行清洗、过滤、转换等操作,数据经过数据整合或者直接存储到数据中心服务器中。对于一些规则等一些访问频率高的数据,一般存储在缓存数据中,对于一些历史业务数据,访问频率不大的数据,经过数据收集中心处理后,一般存储在业务数据中;对于系统定义的一些数据预处理规则,计算规则,模型数据等数据,一般存储在配置数据中;无论是业务数据还是配置数据,其访问频度、性能需求在具体业务场景中存在较大的差异,对于访问频度高、性能要求高的数据,系统将其集中缓存到了系统内存中,这些被缓存的业务数据和配置数据统称为缓存数据。一般而言,近期的业务数据、关注率较高的历史指标、模型元数据、数据预处理规则等数据访问频度较高,可视作缓存数据。

数据中心服务器,利用大数据传输技术,将数据收集中心处理后台账数据,历史数据和指标数据进行存储。数据中心服务器中涉及的数据库主要有分布式文件系统HDFS(Hadoop Distributed File System),列式数据库HBase(Hadoop Database)、内存数据库Redis、关系数据库Oracle等。Oracle数据库主要用于存储配置数据以及部分业务数据,HDFS作为大数据平台底层的分布式文件系统单元,为上层的HBASE提供支撑,也可以直接存储业务数据中的非时序部分,HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,主要用于存储业务数据中的时序部分,Redis是一个基于内存的key-value存储系统,在这里主要用于存放缓存数据。

本发明还提供一种基于大数据技术的海量时序数据收集处理方法,依次包括如下步骤:

(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制监测传感器的采样周期为每小时15次,采样时间为7天,将7天内采样的数据求平均值A;

(2)在同样的初始参数条件下,重复步骤(1)5次,分别求得5次的平均值,删除5次中平均值最大和最小的两个数值,其余3次的平均值记为B、C、D;

(3)令令P'为数据采集装置的实时测量数值,则:

A.如果则数据采集装置性能稳定,进入步骤(4);

B.如果则数据采集装置性能不稳定,则进入步骤(1);

(4)实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据推送到数据收集装置,然后以推送的方式,直接推送到数据中心服务器中,或者以流式输出的方式将用户用电监测数据输出至数据收集中心;

(5)以批量接入的方式,通过预定义的调度计划自动获取数据中心服务器中的常规台账数据和历史数据,将设备台账数据和历史数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将预处理后的数据输出至数据中心服务器进行存储;

(6)将近期的监测数据、常规的设备台账数据,以及关注率较高的历史指标数据、模型元数据和预处理规则数据集中缓存到数据中心服务器中的内存器;

(7)通过数据收集中心计算处理过程中的计算引擎驱动调度引擎来调用和接收数据采集装置或数据中心服务器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过计算单元处理后的数据回传到数据中心服务器。

本发明的基于大数据技术的海量时序数据收集处理装置及方法是通过软件和硬件装置的配合完成,但是并不局限于此,在一定条件下,也可以完全通过硬件的方式实现。

本发明的一种基于大数据技术的海量时序数据收集处理装置及方法是通过软件和硬件装置的配合完成,但是并不局限于此,在一定条件下,也可以完全通过软件的方式实现。

尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1