一种云计算技术的二次设备大数据存储与处理方法

文档序号:9600955阅读:388来源:国知局
一种云计算技术的二次设备大数据存储与处理方法
【技术领域】
[0001] 本发明涉及属于计算机技术与电力专业交叉的研究领域,具体是提出了针对电力 系统的一种面向二次设备历史监测大数据的存储与处理方法。
【背景技术】
[0002] 随着微机和通信技术的发展,传统的计量仪表设备已逐步淡出电力系统,而目前 大部分的电力企业对二次设备的管理仍采用专业分工的体制,如保护装置、故障滤波器、安 全自动装置由保护班进行管理,综自系统则由远动班管理,操作电源系统则由直流班进行 管理。对设备数据、信息管理不能实现共享,这就使得运维人员只对自己的专业方面比较熟 悉,而对其他密切相关的二次设备却知之甚少,这就使得当进行一些协同性较强的工作,需 要几个专业部门共同参与分析时,数据的获取与访问非常的困难。而且由于二次设备、技术 的发展,众多的二次专业联系非常密切,一些环节甚至融为一体,仍然按照专业划分,将无 法保障二次系统运行的安全性,在现有的管理层次上,进行专业整合、逐步整合成一个二次 专业将是未来电力企业对二次设备信息管理的趋势。
[0003] 由于二次设备的种类繁多,所涉及的数据格式多,对二次设备的存储和处理所面 临的问题总结起来有几个方面:
[0004] 1)随着软件系统设备接入测点不断增多,测点的测量频率和密度不断提高,产生 的数据规模会快速增长。采用传统的关系型数据库,其扩展方式存在结构单一,在线扩展性 差的问题。
[0005] 2)传统的关系型数据库,一般通过提升单点硬件扩大数据库的容量,比如挂接硬 盘,增大内存等手段扩充存储容量。对于距离当前时间较长的数据往往采用备份为文件的 方式,离线分散存放,对历史数据的可用性有较大影响。
[0006] 3)大规模数据下查询效率问题。在实验中发现关系型数据库在大规模数据的查询 中,性能会随着数据规模的增大而恶化。万级测点在一天的运行中会产生数千万左右条记 录,如果将数月数年的数据记录全部数据库中,执行条件查询,查询耗时达到几十分钟甚至 数小时,这种查询性能在特别在即席查询相关的高级应用场景下是难以接受的。
[0007] 目前国内并未有针对电力系统,涵盖各专业二次设备的信息存储与处理系统,迫 切需要为二次设备的海量历史监测数据建立一套可扩展、大容量、高性能的综合信息存储 与处理平台。

【发明内容】

[0008] 本发明提供一种云计算技术的二次设备大数据存储与处理方法,本方法可以进行 大容量的历史监测数据,并可以实现动态扩展和全数据集的分析访问。
[0009] 本发明的目的通过如下技术方案实现:
[0010] -种云计算技术的二次设备大数据存储与处理方法,主要包含了两个部分:构建 二次设备历史监测数据的存储模式、基于并行处理框架的关联查询;
[0011] (1)二次设备历史数据的存储模式设计
[0012] 采用非关系型数据库(HBase)存储监测数据,其本质存储的是键值对,即为〈行 键,值〉的形式;其中,行键的组成部分包括高序时间戳,监测项UID,标签名和标签值列 表;
[0013] 所述高序时间戳意义为时间戳中,向下取整5分钟数的倍数;所述监测项UID为通 过监测指标的统一注册模块,为各个监测生成固定长度的标识数字;所述标签名和标签值 位于最后的位置,描述的是监测项所属设备对象的信息;
[0014] 所述监测数据还包括低序时间戳、监测数据类型和监测值。
[0015] 所述低序时间戳和监测数据类型,在列限定符中使用12位的低序时间戳信息和4 位的数据类型,共两个字节来描述。在值单元格中按照监测数据的实际类型来存储数据内 容。
[0016] (2)基于并行处理的二次设备历史监测数据关联查询,即对二次设备历史监测数 据库中存在的两个表:左表T1和右表T2,进行关联查询,目标是将两表中索引字段值相同 的记录关联起来形成一条记录,而且两个表中存在着相同的索引字段作为关联键,具体关 联查询包括两个过程:映射(Map)和约简(Reduce):
[0017] (a)映射过程
[0018] 在映射阶段,每个映射任务随机读取关联左表和右表中一条记录,此条记录对于 映射函数来说是输入的键值对,输入的形式为<kl,vl>,其中,kl为行键的部分,vl为值的 部分;对输入的键值对进行遍历,将所述输入的键值对与设定的关联查询的字段进行比较, 判断所述输入的键值对是否为关联查询字段集合的子集。
[0019] 所述判断所述输入的键值对是否为关联查询字段集合的子集的处理过程中,将关 联键映射为映射阶段输出键值对的行键即k2,将关联查询其他字段构成值字典,并加上标 识该记录的来源字段,从而形成一个复合对象,填充到输出键值对中值的部分,即v2部分, 所述v2的内容可以为来自T1的复合对象(Tl_ComObjeCt),也可以为来自T2的复合对象 (T2_Com0bject)。所述来源字段表明该记录来自于左表或是右表。
[0020] (b)约简过程
[0021] 将映射任务的输出键值对按照行键进行排序,并将具有相同行键的键值对进行合 并,形成列表:<k2,list(v2)>。这里的list(v2)包含的是映射过程中的从左表和右表中抽 取出来的复合对象列表。行键相同的键值对列表<k2,list(v2)>传输给不同的约简任务; 约简任务中,将输入键值对列表<k2,list(v2) >进行解析,所述解析过程如下:根据来源字 段进行值字典的分组,将属于连接查询左表和右表的值字典分别存入不同的列表,进而对 两个列表进行嵌套遍历操作,即对v2的内容来自左表T1和右表T2的组合对象进行解析与 联合计算,生成关联查询新值v3;约简的输出为非关系型数据库中的新表,便于上层进行 对结果的应用。
[0022] 本发明对比现有技术,有如下优点:
[0023] 本发明的二次设备监测历史数据的存储与处理方法,将在线监测数据按预设的数 据存储结构将所述入库,数据存储结构的行键包括高序时间戳,监测项UID,标签名和标签 值列表,列限定符包括低序时间戳和类型掩码,值单元格存放对应监测项的值。将数据查询 请求根据行键的匹配获得查询结果,特别是在进行关联查询时,设计基于并行处理框架的 算法,以支持大数据量下的管理查询同一个处理框架。该方法克服了传统技术中采用关系 型数据库在可扩展性、统一管理性方面的不足。该方法具备可扩展性,数据规模理论上无限 制,可以存储电网运行产生的长周期二次设备监测数据,其数据访问处理的速度快,并且便 于数据批处理和数据挖掘。
【附图说明】
[0024] 图1是本发明的行键设计结构示意图;
[0025] 图2是本发明的值部分的设计结构示意图;
[0026] 图3是本发明的关联查询的并行处理过程流程图;
[0027] 图4是本发明的映射过程设计示意图;
[0028] 图5是本发明的约简过程设计示意图;
[0029] 图6是本发明一个具体实施例的合并单元装置监测数据的存储结构示意图。
【具体实施方式】
[0030] 本发明提供一种云计算技术的二次设备大数据存储与处理方法,主要包含了两个 部分:构建二次设备历史监测数据的存储模式、基于并行处理框架的关联查询;
[0031] (1)二次设备历史数据的存储模式设计
[0032] 电力系统所存储处理二次设备的数据对象为长周期、大容量的历史时间序列数 据。时间
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1