一种基于大数据的海量用电数据混合存储系统及方法与流程

文档序号:11950889阅读:295来源:国知局
一种基于大数据的海量用电数据混合存储系统及方法与流程

本发明涉及用电数据分析应用领域,具体涉及到一种基于大数据的海量用电数据混合存储系统及方法。



背景技术:

随着计算机技术的飞速发展,各行业的数据急速增长,数据量变的越来越大,类型也越来越多,数据结构也趋于复杂化,传统的数据库不但各设备独立放置,并且需要较大的部署空间,存在不易部署、成本较高等缺点,不能满足用户的一般要求。

时序数据是带时间标签的时间序列数据,其典型特点是产生频率快、严重依赖于采集时间、测点多信息量大。在电力行业中,为了保证设备安全、稳定、高效地运行,通常会对发电、变电等各类设备的运行状态进行实时监测,采集获得大量的时序数据可作为设备运行状态评估、设备运行故障预警、设备可靠性分析等高级应用的基础,因而,如何快速、高效、及时地处理海量实时数据,一直是电力、化工、石油、钢铁等重资产行业面临的一项重大课题。

电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。

近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。

Hadoop是一个分布式系统基础架构,包括分布式文件系统HDFS(Hadoop Distributed File System)、分布式存储系统HBase、并行计算编程模型MapReduce等几个核心部分,它可以极大地简化大规模数据的处理过程,Spark是一种分布式大数据处理工具,本身不提供数据存储功能,它可以运行在Hadoop的HDFS或其它的分布式文件系统之上,Spark的设计初衷就是为了解决Hadoop MapReduce反复读写文件系统从而效率低下的问题,它通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,实现了In-memory MapReduce架构,在特定应用场景下弥补MapReduce的不足。Hadoop、Spark等通用的开源技术组件在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业的业务需求,构建一种基于大数据技术的基于大数据的海量用电数据混合存储系统及方法,具有深远的意义和较强的利用价值。

“分而治之”是大数据技术的精髓,它通过并行处理技术来提高数据的处理速度,设计初衷是通过大量低价服务器实现大数据的并行处理,将传统的查询、统计及数据分析进行分布式处理,将处理任务分配到不同的处理节点,由此获得处理性能的大幅提升。

全面引入大数据的分布式存储、分布式计算能力,针对监控集抄相关的时序数据、用电用户相关的台账数据、统计分析相关的结果数据分别制定专项存储方案,结合实际业务场景构建混合存储系统;将数据的预处理过程、后处理过程剥离后交由分布式计算模块执行,不仅能够降低数据处理复杂度、提高时序数据接入吞吐量,还可以突破海量存储、即席查询方面的性能瓶颈。

然而,目前无法针对长期历史数据执行综合查询的功能问题,短期历史数据综合查询的性能问题,数据存储的成本问题(Oracle一体机的成本远高于Hadoop集群)都是棘手要解决的问题,构建一种基于大数据技术的基于大数据的海量用电数据混合存储系统及方法势在必行,并且系统的实施还可以为分析挖掘类应用的构建提供数据支撑。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种可以快速、高效、及时地处理海量实时数据,同时保证设备安全、稳定、高效地运行的基于大数据的海量用电数据混合存储系统及方法。

本发明提供了一种基于大数据的海量用电数据混合存储系统,包括数据采集装置、用电信息采集系统、用电信息处理系统,其中用电信息采集系统包括集抄子系统和海量数据平台,用电信息处理系统包括数据预处理装置、数据后处理装置、分布式存储器和数据查询服务器,其中用电信息采集系统分别与数据采集装置和用电信息处理系统连接,集抄子系统,海量数据平台,数据预处理装置和数据后处理装置依次连接,数据预处理装置和数据后处理装置分别与分布式存储器双向连接,分布式存储器与数据查询服务器连接,其中;

数据采集装置,用于实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给用电信息采集系统;

用电采集信息系统,包括集抄子系统和海量数据平台,用于通过集抄子系统将用户用电数据采集处理并推送到海量信息平台进行存储,并且以推送的方式或者流式输出的方式,将处理后的用户用电监测数据推送到分布式存储器或输出至数据预处理装置;

数据预处理装置,用于以流式接入的方式接收来自用电信息采集系统发送的用户用电监测数据,或者以批量接入的方式,通过预定义的调度计划自动获取用电信息采集系统中的常规的设备台账数据和历史数据,并存储在分布式存储器;

数据后处理装置,用于将数据预处理装置的输出数据,在不同的业务指标下对台账数据和历史数据进行过滤和计算,依据预先编排好的处理逻辑对台账数据和历史数据进行处理,训练形成数据挖掘模型,得出指标数据,并将指标数据回传到分布式存储器进行存储;

分布式存储器,用于将经过数据预处理和数据后处理后的台账数据,历史数据和指标数据进行存储;

数据查询服务器,用于直接从分布式存储器查询数据,对用户用电数据长期历史数据执行综合查询和短期历史数据综合查询。

优选地,数据采集装置包括安装于监测设备上的用电信息采集传感器。

优选地,数据采集装置还包括监测设备安装区域的和/或温度检测器。

优选地,数据预处理装置还用于直接连接数据采集点获取用户用电监测数据。

优选地,还包括与用电信息采集系统连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。

优选地,数据预处理装置还用于调用和接收时序数据存储器中用户采集系统推送产生的新的时序数据,并对新的时序数据重复执行训练过程,对数据挖掘模型进行更新。

优选地,数据后处理装置处理后的结果为用电信息预测结果和/或负荷预测结果。

优选地,人工输入装置为笔记本电脑、平板电脑和/或手机。

本发明还提供了一种基于大数据的海量用电数据混合存储方法,依次包括如下步骤:

(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制数据采集装置的采样周期为每小时15次,采样时间为7天,将7天内采样的数据求平均值A;

(2)在同样的初始参数条件下,重复步骤(1)5次,分别求得5次的平均值,删除5次中平均值最大和最小的两个数值,其余3次的平均值记为B、C、D;

(3)令令P'为数据采集装置的实时测量数值,则:

A.如果则数据采集装置性能稳定,进入步骤(4);

B.如果则数据采集装置性能不稳定,则进入步骤(1);

(4)实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给用电信息采集系统中的海量信息平台进行存储,以推送的方式,推送到分布式存储器中,或者以流式输出的方式,将用户用电监测数据输出至数据预处理装置;

(5)以批量接入的方式,通过预定义的调度计划自动获取分布式存储器中的常规台账数据和历史数据,将设备台账数据和历史数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将预处理后的数据输出至分布式存储器进行存储;

(6)将近期的监测数据、常规的设备台账数据,以及关注率较高的历史指标数据、模型元数据和预处理规则数据集中缓存到分布式存储器中的内存器;

(7)通过数据后处理过程中计算引擎驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过计算单元处理后的数据回传到分布式存储器;

(8)从分布式存储器直接读取数据和/或接收来自数据后处理的数据,并且进行分析处理,为挖掘类数据分析提供数据支撑;

(9)通过数据查询服务器,将传统的查询、统计及数据分析进行分布式处理,将处理任务分配到不同的处理节点。

本发明的基于大数据的海量用电数据混合存储系统及方法,可以实现:

1)以稳定、可靠、高效的开源分布式存储系统和并行计算服务为核心,针对监控集抄相关的时序数据、用电用户相关的台账数据、统计分析相关的结果数据分别制定专项存储方案,结合实际业务场景构建混合存储系统;将数据的预处理过程、后处理过程剥离后交由分布式计算模块执行,不仅能够降低数据处理复杂度、提高时序数据接入吞吐量,还可以突破海量存储、即席查询方面的性能瓶颈;

2)实时和准时的采集数据,时效性高,并且优化设计了数据采集频率,采集效率高,能效低但是效能高,并且装置功能强大,能够解决长期历史数据执行综合查询的功能问题,解决短期历史数据综合查询的性能问题,解决数据存储的成本问题(Oracle一体机的成本远高于Hadoop集群),还可以为分析挖掘类应用的构建提供数据支撑;

3)针对系统数据的可靠性,设计了平均值数据确认方案,使得用户监测数据更加稳定可靠,减轻了装置的工作负荷,使用寿命更长,性能更加稳定;

4)优化的数据采集装置性能评判方式,使得数据更可靠。

附图说明

图1为基于大数据的海量用电数据混合存储系统结构示意图

图2为基于大数据的海量用电数据混合存储系统采数据实施数据分析图

具体实施方式

下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。

本发明提供了一种基于大数据的海量用电数据混合存储系统及方法,如附图1所示,包括数据采集装置1、用电信息采集系统2、用电信息处理系统3,其中用电信息采集系统2包括集抄子系统和海量数据平台,用电信息处理系统3包括数据预处理装置5、数据后处理装置4、分布式存储器5和数据查询服务器7,其中用电信息采集系统2分别与数据采集装置1和用电信息处理系统3连接。集抄子系统,海量数据平台,数据预处理装置5,数据后处理装置4依次连接,数据预处理装置5和数据后处理装置4分别与分布式存储器6双向连接,分布式存储器6与数据查询服务器6连接。

数据采集装置1,用于实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给用电信息采集系统2,数据采集装置包括安装于监测设备上的用电信息采集传感器,还可以同时包括监测设备安装区域的摄像头、温度检测器等传感器,用电采集信息系统可以实时的将用户用电监测数据存储,并且以推送的方式或者以流式输出的方式,将用户用电监测数据输出至分布式存储器6或数据预处理装置5。

用电采集信息系统,包括集抄子系统和海量数据平台,用于将用户用电数据采集并推送到海量信息平台(oracle)进行存储,并且以推送的方式或者流式输出的方式,将用电信息采集系统数据推送到分布式存储器6或输出至数据预处理装置5中。

数据预处理装置5,用于以流式接入的方式接收来自用电信息采集系统中发送的用户用电监测数据和以批量接入的方式,通过预定义的调度计划自动获取用电信息采集系统中的常规的设备台账数据,和历史数据,并存储在分布式存储器中。数据预处理将采集到的数据通过批量接入、流式接入、人工导入等多种形式获取,也可以直接连接数据采集点获取用户用电监测数据。接入的数据在存储之前,可以进行必要的预处理,利用预先配置好的预处理规则进行清洗、过滤、转换等操作,数据经过数据整合或者直接存储到分布式存储器中,对于一些规则等一些访问频率高的数据,一般存储在缓存数据中,对于一些历史业务数据,访问频率不大的数据,经过数据预处理后,一般存储在业务数据中;对于系统定义的一些数据预处理规则,计算规则,模型数据等数据,一般存储在配置数据中;无论是业务数据还是配置数据,其访问频度、性能需求在具体业务场景中存在较大的差异,对于访问频度高、性能要求高的数据,系统将其集中缓存到了系统内存中,这些被缓存的业务数据和配置数据统称为缓存数据。一般而言,近期的业务数据、关注率较高的历史指标、模型元数据、数据预处理规则等数据访问频度较高,可视作缓存数据。

数据后处理装置4,用于将数据预处理装置5的输出数据,在不同的业务指标下对台账数据和历史数据进行过滤和计算,依据预先编排好的处理逻辑对台账数据和历史数据进行处理,训练形成数据挖掘模型,得出指标数据,并将指标数据回传到分布式存储器进行存储。数据后处理可以利用行业专家的管理经验结合统计学原理研究分析挖掘算法,以用户用电相关的历史数据为输入,训练形成数据挖掘模型,不同的样本数据可形成不同的数据挖掘模型(例:按月区分),针对用户用电产生的新的时序数据可以重复执行训练过程,进行数据挖掘模型的持续改进;创建完成的数据挖掘模型可参与用电采集数据,实时或准实时的方式分析电力设备及用户用电信息的各项评价指标。挖掘模型的训练过程涉及到了批量计算,通过批量计算作业实现;挖掘模型的应用过程涉及到了流式计算,通过流式计算作业实现;此外,两种计算模式还可以用于实现设备评价指标、语音语义识别、文本语义分析等等与挖掘模型无关的计算任务。

批量计算作业通过调度引擎驱动,从用电信息采集系统或者分布式存储器5读入台账数据,业务历史数据,依据预先编排好的处理逻辑进行计算,计算结果可以回写到数据存储区;流式计算作业也是通过调度引擎驱动,数据从用电信息采集系统2或分布式存储器5以流的方式接入进来,依据预先编排好的处理逻辑进行计算,计算结果可以回写到分布式存储器5。

计算作业用于定义计算任务的(也称作业节点)拓扑结构和执行逻辑,类似于工作流(Workflow),其定义过程可在系统提供的作业设计器中完成,从计算引擎的视角看,每个作业节点对应于一个计算单元(Compute Unit),计算单元对应的程序逻辑称之为算子(Transformation)。系统提供可视化建模工具、预置丰富的数据处理和数据展示算子,同时开放算子开发规范,支持实际业务场景的二次开发。

分布式存储器6,又称时序数据存储器,用于经过数据预处理和数据后处理后的台账数据,历史数据和指标数据的存储。分布式数据存储能够为数据查询服务提供基础保障。分布式存储器5中涉及的数据库主要有分布式文件系统HDFS(Hadoop Distributed File System),列式数据库HBase(Hadoop Database)、内存数据库Redis、关系数据库Oracle等。Oracle数据库主要用于存储配置数据以及部分业务数据,HDFS作为大数据平台底层的分布式文件系统单元,为上层的HBASE提供支撑,也可以直接存储业务数据中的非时序部分,HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,主要用于存储业务数据中的时序部分,Redis是一个基于内存的key-value存储系统,在这里主要用于存放缓存数据。

数据查询服务器7,数据查询服务直接从分布式存储器查询数据,用于用户用电数据长期历史数据执行综合查询,短期历史数据综合查询,查询结果为分析挖掘类数据分析提供数据支撑,它的交互过程不涉及数据计算,典型应用场景主要是综合查询、可视化展示等。

本发明还提供一种基于基于大数据的海量用电数据混合存储方法,依次包括如下步骤:

(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制数据采集装置的采样周期为每小时15次,采样时间为7天,将7天内采样的数据求平均值A;

(2)在同样的初始参数条件下,重复步骤(1)5次,分别求得5次的平均值,删除5次中平均值最大和最小的两个数值,其余3次的平均值记为B、C、D;

(3)令令P'为数据采集装置的实时测量数值,则:

A.如果则数据采集装置性能稳定,进入步骤(4);

B.如果则数据采集装置性能不稳定,则进入步骤(1);

(4)实时或准实时获取用户用电监测数据,并将采集到的用户用电监测数据传输给用电信息采集系统中的海量信息平台进行存储,以推送的方式,推送到分布式存储器中,或者以流式输出的方式,将用户用电监测数据输出至数据预处理装置;

(5)以批量接入的方式,通过预定义的调度计划自动获取分布式存储器中的常规台账数据和历史数据,将设备台账数据和历史数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将预处理后的数据输出至分布式存储器进行存储;

(6)将近期的监测数据、常规的设备台账数据,以及关注率较高的历史指标数据、模型元数据和预处理规则数据集中缓存到分布式存储器中的内存器;

(7)通过数据后处理过程中计算引擎驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过计算单元处理后的数据回传到分布式存储器;

(8)从分布式存储器直接读取数据和/或接收来自数据后处理的数据,并且进行分析处理,为挖掘类数据分析提供数据支撑;

(9)通过数据查询服务器,将传统的查询、统计及数据分析进行分布式处理,将处理任务分配到不同的处理节点。

以下为具体的实施例:

实施例1:计算抽取连续7天发生过低电压情况的低压用户数量及明细(用户电压值持续一小时低于198V)

实施例2:按月度计算抽取发生过低电压情况的低压用户数量、明细及所涉及的台区数量与明细。

实施例3:按月度计算抽取发生过一个点的电压值低于198V低压用户数量、明细及所涉及的台区数量与明细。

实施例4:统计每天全省低压用户电压合格率情况

可见如图2所示,在传统架构和大数据架构下,通过用采数据查询性能对比,用采数据查询效率有了大幅的提升。

本发明的基于大数据的海量用电数据混合存储系统及方法是通过软件和硬件装置的配合完成,但是并不局限于此,在一定条件下,也可以完全通过硬件的方式实现。

尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1