电力系统中基于Hadoop的电力云数据管理索引方法

文档序号:9597889阅读:339来源:国知局
电力系统中基于Hadoop的电力云数据管理索引方法
【技术领域】
[0001] 本发明涉及计算机领域,尤其涉及一种电力系统中基于Hadoop的电力云数据管 理索引方法。
【背景技术】
[0002] 电力供应的安全稳定,是电力部门的首要目标。在计算机设备不断进入电力行业 的今天,随着物联网、云计算、移动互联网的快速发展,数据以爆炸化的形式中急剧膨胀,电 力系统数据存储的稳定和安全,成为保障电力系统稳定运行的重要条件。
[0003] 近年来,随着智能变电站等基础设施的大规模建设,电网企业的数据量正在以几 何级速率疯狂增长,其数据来源具有复杂性和多样性(结构化、半结构化和非结构化)的特 点。各种异构信息的存储,如:通信电源、图像监视、安全警卫、主变压器消防、给排水、火灾 报警、采暖通风、门禁、动力环境监视等辅助生产系统以及开关状态、设备状态等在线监测 设备的处理成为亟待解决的问题。
[0004] 在现有的电力系统领域中,存储数据主要分为两大类型:海量数据和信息数据。其 中,海量数据主要由多媒体数据(原始音、视频,图片)、传感器数据和系统设备数据等组 成,具有存储量大,访问频率低的特点,主要用于检索回放和备份存储;信息数据主要以业 务操作数据为主,具有存储量小,访问频率高的特点,主要用于报表查看等业务操作。
[0005] 目前,现有的文件系统难以满足电力行业实际的存储需求。直接用于电力系统中 会导致很多问题,例如:(1)磁盘空间利用率低。由于监控业务的并发突发,视频文件存储 量大,小文件多等特点,就安防监控业务来看,使用传统的文件系统会导致磁盘碎片过多, 使空间利用率不高;(2)文件检索效率不高。文件检索查找等业务操作会随着存储系统中 文件数量的急剧增多(增涨到数千万以上时)给系统效率带来巨大的考验。当文件的数量 超过一定数量时,甚至会造成系统崩溃等问题;(3)存储技术的融合不够。现有的技术手段 主要考虑的是现有硬件基础架构加上软件,以SAN架构+卷管理软件(或并行文件系统)为 代表。在继承了架构缺点的同时也继承了卷管理软件或并行文件系统的缺点,如:在构建和 维护上流程复杂,其次由于数据块和网络需求等多方面原因,基于SAN的系统也很难扩容, 无法满足大数据存储需求。

【发明内容】

[0006] 有鉴于此,本发明提供一种电力系统中基于Hadoop的电力云数据管理索引方法, 以解决上述问题。
[0007] 本发明提供的电力系统中基于Hadoop的电力云数据管理索引方法,包括:
[0008] b.将接收到的数据分为海量数据类型和信息数据类型;
[0009] c.根据数据的类型建立每种类型对应的索引;
[0010] d.根据用户的查询条件生成请求信息,根据请求信息进行搜索,并将搜索结果反 馈给用户。
[0011] 进一步,在步骤b之前还包括
[0012] a.将电力系统的数据处理架构划分为:
[0013] 数据访问层,用于根据用户的业务检索请求对数据进行判断和分类处理,
[0014] 数据处理层,用于接收电力系统中的数据并对电力系统中的数据类型进行判别,
[0015] 数据存储层,用于数据索引的创建、维护和原始数据存储。
[0016] 进一步,所述步骤b还包括
[0017] bl.将数据传输给数据处理层,数据处理层将数据进行分类处理并向存储层传递 待存储信息和数据类型信息。
[0018] 进一步,数据存储层对接收到的所述待存储信息和数据类型信息进行解析,并根 据数据类型信息将数据建立对应的索引。
[0019] 进一步,当数据类型为信息数据时,所述步骤c中建立索引包括
[0020] ell.判断请求信息是否为数据存储请求,
[0021] 若是存储请求,则将数据分析信息和原始数据信息传递给虚拟存储系统,虚拟存 储系统在可信服务器中进行索引创建形成对应的反向索引表和词典文件,并按照数据存储 结构进行存储;
[0022] 若不是存储请求,则将请求信息交由虚拟存储系统的存储层进行搜索,可信服务 器根据搜索的提交的关键词和语法树来计算文件权重,并返回用户查找相关信息数据类型 信息。
[0023] 进一步,当数据类型为海量数据时,所述步骤c中建立索引包括
[0024] c21.分别建立索引簇和Hbase簇,
[0025] c22.当海量数据到达时,系统同时将其传送给索引簇和Hbase簇;
[0026] c23.索引簇建立粗粒度索引,并向HBase簇发送信息;
[0027] c24. Hbase簇收到索引簇的发送的信息后,在每个存储块中建立一个细粒度索引, 获取需求ig息。
[0028] 进一步,所述c24中的细粒度索引为本地索引,所述本地索引的建立过程包括:
[0029] c241.将时间划分成η个间隔块,
[0030] c242.在一个时间间隔内,将其中的数据按类别动态的划分成对应的子部分,每一 个子部分的数据块存储到HBase中,
[0031] c243.当前划分的时间间隔结束后,随后产生的数据将会从下个时间间隔中重复 步骤c241进行存储。
[0032] 进一步,所述粗粒度索引包括时间间隔索引和数据类别索引。
[0033] 进一步,所述步骤cl 1中的数据存储结构为Store {ID, HEAD (Freq, Type, Keys, TSt amp),BODY},其中ID表示存储标号,Head是由内容标签页组成,分别为:Freq-表示频率, Type-表示类型,Keys-表示关键词和TStamp-表示时间戳;Body表示存储信息数据。
[0034] 进一步,所述步骤c 11中文件权重,通过如下公式计算
[0036] 其中,Wkid表示关键词key在存储数据中的权重,f kid表示关键词key在存储数据 中的频率,Μ表示该段存储数据的总大小,mkid表示关键词key在存储数据中所占的大小。
[0037] 本发明的有益效果:本发明将数据进行分类,符合电力行业在实际业务中所产生 的海量异构信息的特点,缓解分布式检索效率不高、空间利用率低磁盘碎片多的实际问题。 数据存储层对传递的数据中不同的标记进行分类,并分别为不同类型的数据构建生成不同 的索引,同时对原始数据做相应处理。将生成好的索引和处理后的原始数据根据不同的存 储策略进行存储,有效的满足频发更新、快速的多维查询要求,并且在一定程度上减少了索 引创建对系统写入性能的影响,减小了检索对系统稳定性造成的威胁。
【附图说明】
[0038] 下面结合附图和实施例对本发明作进一步描述:
[0039] 图1是本发明的系统构架示意图。
[0040] 图2是本发明的系统流程不意图。
[0041] 图3是本发明的信息数据存储格式示意图。
[0042] 图4是本发明的海量数据存储和检索流程示意图。
【具体实施方式】
[0043] 下面结合附图和实施例对本发明作进一步描述:图1是本发明的系统构架示意 图,图2是本发明的系统流程示意图,图3是本发明的信息数据存储格式示意图,图4是本 发明的海量数据存储和检索流程示意图。
[0044] 本实施例中的电力系统中基于Hadoop的电力云数据管理索引方法,包括
[0045] a.将电力系统的数据处理架构划分为:
[0046] 数据访问层一用于根据用户的业务检索请求对数据进行判断和分类处理,
[0047] 数据处理层一用于接收电力系统中的数据并对电力系统中的数据类型进行判 别,
[0048] 数据存储层一用于数据索引的创建、维护和原始数据存储;
[0049] b.将接收到的数据分为海量数据类型和信息数据类型;
[0050] c.根据数据的类型建立每种类型对应的索引;
[0051] d.根据用户的查询条件生成请求信息,根据请求信息进行搜索,并将搜索结果反 馈给用户。
[0052] 如图1所示,在本实施例中,数据访问层负责对用户提交的业务检索请求作类型 分类处理,例如报表查看、视频查看、机房硬件状态查看等;数据处理层包括数据接口模块 和数据类型认证模块,负责接收和判别电力系统的中的数据类型;数据存储层负责对数据 索引进行创建、维护以及原始数据进行存储的功能。其中,电力系统数据的存储和索引主要 在数据存储层中完成。
[0053] 如图2所示,所述步骤b还包括
[0054] bl.将数据传输给数据处理层,数据处理层将数据进行分类处理并向存储层传递 待存储信息和数据类型信息。在数据的虚拟化存储中电力系统将产生的数据通过数据处理 层的数据接口传输给数据类型认证模块后,数据类型认证模块将接收到的数据进行分类认 证处理并向数据存储层传递信息Message {Data, Type}(其中,Data为数据接口中传递的原 始数据;Type是数据类型的分类,按电力系统数据的特点分为海量数据类型和信息数据类 型,分别用0和1进行标记);
[0055] 数据存储层对接收到的所述待存储信息和数据类型信息进行解析,并根据数据类 型信息将数据建立对应的索引,本实施例中数据存储层接收到数据处理层发送的消息后解 析Message中的Type,并按照Type的类型将数据按照不同的存储策略,建立不同Type类型 对应的索引。
[0056] 在本实施例中,在数据检索部分,用户向系统发业务检索请求 Request {Type, Keys, Conditions}(其中,Type是系统根据用户的业务检索请求的数据 类型自动生成的标记,用于区别两种不同的数据类型:海量数据类型和信息数据类型; Keys主要用于信息数据类型的检索,用来表示用户搜索关键字的组合,通过异或实现; Conditions是用于识别用户请求业务数据的条件,如报表、时间等);数据存储层在接收到 系统根据用户业务检索请求生成的Request后,按对应的索引策略检索并返回用户的需求 信息。
[0057] 在本实施例中,当数据类型为信息数据时,所述步骤c中建立索引包括
[0058] cl 1.判断请求信息是否为数据存储请求,
[0059] 若是存储请求,则将数据分析信息和原始数据信息传递给虚拟存储系统,虚拟存 储系统在可信服务器中进行索引创建形成对应的反向索引表和词典文件,并按照数据存储 结构进行存储;
[0060] 若不是存储请求,则将请求信息交由虚拟存储系统的存储层进行搜索,可信服务 器根据搜索的提交的关键词和语法树来计算文件权重,并返回用户查找相关信息数据类型 信息。
[0061] 在本实施例中,构建反向索引主要使用两个Hash函数,分别实现对高频和低频词 映射形成倒排文件。由齐夫定律(Zi pf' s Law),一个单词在大规模文本集中出现的频率和 它在词组频率表中的排名成反比,即频率最高的单词出
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1