一种电网海量数据管理方法_3

文档序号：9350627阅读：来源：国知局

HBase表的设计需遵守以下原则:对于采用固定长度的时序控制组件的主键，应包含尽可能多的检索信息；存储的数据一般包含大量的测量对象和标签，而这些字段是变长的，因此，设置一个ID表存储这些信息，作为全局唯一的编号，并把编号与时间戳合并作为主键；每行应存储尽可能多的信息。例如，把某个时间段分散采集的数据合并在一起，按照一个行来提交数据。该方案可以减少整个表行主键的个数，从而提高行检索的速度。按照时间的延展来存储数据，采用无状态的存储方案，从而提供系统的容错能力。
[0039]对于每个测量对象、标签的键和值均采用散列映射的方法进行编号，同时为了提高数据查询的效率，将上述映射信息在ID表中存入2份，一份为测量对象、标签键和值到其散列编号的映射，另一份为散列编号到测量对象、标签键和值的映射。上述散列编号均采用3个字节的固定长度。测量对象的时序数据存储在另一张表中，该表的行键采用测量对象ID+基准时间+标签键的ID+标签值的ID，其中基准时间字段为某一待存储时序数据记录所对应的系统开发与应用整点时间，除基准时间为4个字节外，其他字段均为3个字节。I小时内的时序数据存储在表中的一行，某一记录存储在由行和其相对于基准时间的偏移量At所对应的列下，其中At=记录的时间戳-基准时间。当某一行记录存满时，开启下一行继续存储。
[0040]显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。
[0041]应当理解的是，本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1.一种电网海量数据管理方法，其特征在于，包括: 构建电网用户数据管理系统，将各个电网子系统采集到的数据进行整合，并利用并行计算框架对电网用户的数据进行挖掘和分析；基于所述数据管理系统，利用分布式负载预测算法实现并行负载预测。2.根据权利要求1所述的方法，其特征在于，所述电网用户数据管理系统的架构分为应用层、数据分析计算层、数据管理层，利用Hadoop构建电网用户数据管理系统，在平台上采用HDFS、HBase建立数据存储系统，在平台上构建MapReduce并行计算框架和Storm内存并行计算框架作为海量数据计算分析系统，对电网用户的海量数据进行分析；所述数据管理层对数据进行采集和集成；所述数据采集包括从智能电表、数据采集监控系统和各种传感器中采集的数据，对这些数据的集成包括将数据迀移至集群服务器进行管理；在数据的集成过程中，采用数据转移工具对数据进行抽取和整合工作，将各个独立的系统产生的数据及历史数据利用数据转移工具抽取整合到HBase中，并使用java持久化工具对列存储数据库进行操作，将基于分布式计算的应用产生的在线数据写入到HBase中；所述数据分析计算层用于海量数据的存储和计算分析；利用HBase存储电力负载数据和相关数据；利用并行计算模块MapReduce对海量数据进行并行批量计算分析，而对数据密集型的迭代计算采用基于内存的并行计算模块Storm，将业务所需数据读入内存，需要数据时直接从内存中查询。3.根据权利要求2所述的方法，其特征在于，所述基于所述数据管理系统，利用分布式负载预测算法实现并行负载预测，进一步包括: 利用3个MapReduce业务类执行算法的训练过程，每一个MapReduce的输出作为其后一个的输入，训练结束后得到的决策模块保存在Hadoop的分布式集群中，其分为三部分:生成数据字典；生成判定树；形成判定树集合；其中所述生成数据字典包括对进行训练的样本数据进行描述，产生一个文件来描述样本中条件属性和决策属性，记录条件属性值的类型和决策属性的位置，以及要创建的模块是进行分类还是回归运算，这个过程由第一个MapReduce完成，每个Map过程读取实验数据的一部分，记录数据的属性类型和负载值或者类型标识；产生的描述文件以键/值的形式存储在Hadoop的文件系统HDFS中；其中所述生成判定树过程包括以下并行过程: 1)对原数据集进行随机有放回的抽取K个与原样本数据集大小一样的样本数据TS1,2,一个样本数据对应一个判定树的训练集，每个样本数据都不同，并且与原数据集大小一样； 2)根据样本数据中属性的个数M确定每个节点随机选择的属性个数m，其中m〈〈M，分类模块中m为M的平方根，回归模块中m为M的1/3 ;计算m个属性中每个属性的信息量，选择最佳属性进行分支； 3)递归进行节点的建立，生成判定树；1(个判定树的生成是并行产生的，一个Map生成一个判定树，这个过程由第二个MapReduce过程完成；所述形成判定树集合包括把每个判定树分类器组合起来，每个判定树产生一个结果，如果判定树集合用来分类其最终结果为投票选取，当它用来回归预测时，K个树给出K个值，最终值为各树的平均值，此过程由第三个MapReduce完成。4.根据权利要求3所述的方法，其特征在于，在所述HBase系统的部署架构中，将调度中心作为整个分布式实时数据库的管理者，存储元数据信息，包括各节点分工、节点状态、数据分区方式、数据块位置、任务调度、安全管理的关键信息；所述调度中心相互间通过同步机制保持元数据的一致性，数据分析计算层逻辑上是对等的，部署相同进程完成同样的逻辑运算，数据分析计算层采用基于事务的冗余备份机制，电网用户数据管理系统采用HDFS作为底层存储的分布式文件系统，构建面向电网海量数据的时序控制组件来存储电网业务中的时序数据，由时序控制组件来构建时序数据模块，按照特有模块统一接收存储采集的时序数据，并对外提供统一的查询接口；在存储方式上，采用键-值的形式来存储数据，即面向列进行存储，以列族为基本的存储和权限控制单元，对于为空的列，在实际存储中不占用实际空间，使用稀疏表的设计方式，在数据架构部署上放弃了传统的C/S多客户端、单服务器的模式；采用分布式的多服务器的集群模式，所有数据根据复制因子分散存储于集群中的多台计算机上；时序控制组件底层依赖于列存储数据库，在具体处理时序数据时抽象为对HBase数据库的读、写、增加、删除、修改的基本操作，软件最上层为时序控制组件的客户端及第三方应用客户端，所有客户端通过Java的API进行具体操作，所有API通过类型解析模块解析分解为一个数据库操作或多个数据库操作的序列集合，这些数据库操作集合通过控制组件内部的RPC调用，最后统一使用异步的HBase操作API完成数据操作。
【专利摘要】本发明提供了一种电网海量数据管理方法，该方法包括：构建电网用户数据管理系统，将各个电网子系统采集到的数据进行整合，并利用并行计算框架对电网用户的数据进行挖掘和分析；基于所述数据管理系统，利用分布式负载预测算法实现并行负载预测。本发明提出了一种电网海量数据管理方法，将电网用户各系统的数据进行融合和集成，并将传统数据计算方法迁移到分布式平台中，满足海量数据的运算要求。
【IPC分类】G06F17/30, G06Q50/06
【公开号】CN105069703
【申请号】CN201510487734
【发明人】刘志刚, 魏晓光, 陈剑飞, 刘小宝, 戴昭
【申请人】国家电网公司, 国网山东省电力公司济南供电公司
【公开日】2015年11月18日
【申请日】2015年8月10日

完整全部详细技术资料下载

当前第3页1 2 3