一种基于HBase的输电线路综合数据存储方法

文档序号:6626335阅读:307来源:国知局
一种基于HBase的输电线路综合数据存储方法
【专利摘要】本发明公开了一种基于HBase的输电线路综合数据存储方法,包括:采集输电线路综合数据,所述输电线路综合数据包括结构化数据及非结构化数据;将所述输电线路综合数据进行分类处理;根据分类结果构建HBase表;将所述HBase表内的输电线路综合数据转换为字节数组;将所述字节数组按照HBase表格式,依次存储至HBase分布式数据库,所述HBase分布式数据库构建于HDFS上。采用本发明,将输电线路综合数据与HDFS、HBase相结合,解决了原有数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。
【专利说明】一种基于HBase的输电线路综合数据存储方法

【技术领域】
[0001] 本发明涉及电力信息化【技术领域】,尤其涉及一种基于HBase的输电线路综合数据 存储方法。

【背景技术】
[0002] 信息和能源始终是世界关注的两大焦点话题。随着电网智能化、信息化、集成化程 度的不断加深和提高,由此产生的大量数据为电网的发展带来了新的挑战和机遇。在电力 系统的整个生产过程中,包括发、输、变、配、用、调度、协调等各个环节都伴随着各种各样的 信息流。输电线路作为保障电网安全可靠运行的重要组成部分,在实际运行中会产生种类 繁多、数量巨大的各类数据,包括线路自身的属性信息、各种状态监测数据、投运前离线实 验数据、电网运行数据、地理信息数据、公共安全信息数据、线路自身的运维记录数据等结 构化和非结构化数据。并且随着测量采集点越来越多,电网运行和设备检/监测产生的数 据量呈指数增长,构成了当今信息学界所关注的大数据。
[0003] 早在2011年全球知名的咨询公司麦肯锡发布了一份关于大数据的详尽报告,就 大数据的影响、关键技术和应用领域等都做了详尽的分析,阐明了大数据研究的地位以及 蕴含的巨大的社会价值。中国电机工程学会信息化专委会于2013年3月出版发布了《中国 电力大数据发展白皮书》,该书对电力大数据的起源、内涵、特征、价值分析、应用前景、发展 挑战、关机技术以及发展策略给出了详细的解释和说明。
[0004] 输电线路分为架空线和电力电缆两种。输电线路分布地域广、跨度大,与其相关 的数据分散、类型繁杂,如:架空线和电缆的生产日期、规格型号、离线实验、家族缺陷等属 性信息类数据;架空线杆塔坐标、电缆标识球位置坐标、电缆某段敷设方式等地理信息类数 据;微气象、雷击、覆冰、外力破坏、塔基滑坡等公共安全类数据;导线温度、弧垂、架空线绝 缘子泄漏电流、架空线视频监测、电缆护层环流等在线监测类数据;线路运行电流值等电网 运行类数据;线路的运行维护记录等运维数据等。输电线路综合数据种类繁多并呈现多样 化,数据对实时性的要求也不一致,如线路的运行电流值对于系统的调度影响重大,要求数 据实时、一致、准确;而其他类型的数据的如状态检测类数据对实时性的要求则较低。因此, 有区别的对数据规范化采集管理和科学、有效的处理非常必要。
[0005] 另一方面,架空线和电缆的架设方式、结构特性、环境影响差别大,导致两者的数 据类型和数据源不尽相同,如:覆冰数据、微气象、弧垂、视频监测、绝缘子泄漏电流是架空 线才有的数据,而电缆护层环流、电缆敷设方式则是电缆独有的数据,因此,在数据的采集、 清洗、转换和存储过程中要区别对待。其中,数据的多源性体现为数据来源于不同的子系 统。中山供电局的输电线路管理水平走在全国的前列,目前,在输电管理所装有电缆环流在 线检测系统、电缆可视化子系统、绝缘子泄露电流在线检测系统、架空线路视频检测系统、 输电线路智能故障诊断系统、塔基滑坡灾害监测系统、线路弧垂在线监测系统、生产管理信 息系统,各类型的数据大部分来源于以上各系统。还有一些如线路的属性信息是来自生产 厂家,线路运行电流值则来自EMS系统。以中山供电局为例,在图1中给出了输电线路综合 数据的详细数据信息。
[0006] 输电线路数据的异构性是建立在其复杂性和多源性的基础之上。复杂性和多源性 一定程度上决定了数据内在结构的不同,这些复杂的、多源的数据可以进一步细分为结构 化数据和非结构化数据。输电线路综合数据中结构化数据与非结构化数据的构成与划分如 图2所示。
[0007] 结构化数据是指存储在关系数据库中的数据,输电线路综合数据中的大部分数据 是这种形式,如:微气象、弧垂、绝缘子泄漏电流、电缆护层环流等,随着信息技术的发展和 智能电网建设的逐步推进,测量采集装置的增多以及采样频率的提高,这部分数据将会很 快地增长。
[0008] 相对于结构化数据而言,不方便用数据库二维逻辑表来存储和展示的数据即称为 非结构化数据。这部分数据增长非常迅速,互联网数据中心的一项调查报告指出:企业中 80%的数据都是非结构化数据,这些数据每年都按指数增长60%。在输电线路综合数据中, 电缆可视化子系统中的图片图像数据、架空线路视频监测的视频图像数据都是属于非结构 化数据。目前,大多数的电缆可视化系统均为"静态"系统,在电缆敷设时,对电缆的名称、 敷设类型(电缆槽、电缆沟、埋管、顶管)、与该段电缆相连的标识球编号等静态数据进行记 录并存储,只在显示时进行调用。在电缆可视化系统中重要的是标识球位置图,在敷设和更 新时对标识球位置现场的环境拍摄图片,当电缆发生故障需要维护检修时就要借助电缆可 视化系统中的标识球位置图帮助检修人员快速、准确的找到电缆实际的位置。
[0009] 现在较为常用的架空线视频监控方法是通过终端摄像头采集图像并编码后通过 MESH无线网络将数据接入供电企业的电力光纤通信网络,通过TCP/IP协议将数据传输到 线路监测中心。以中山供电局架空线路视频监测为例,说明该部分非结构化数据的规模和 体量问题。中山局供电局输电管理所现下辖38个视频监测点,这些监测点安装在比较重要 的和易受外力破坏的杆塔上,若摄像机采用8路、512 Kbps定码率录像,每天采集视频图像 12 h,则每小时产生的数据量为512X3 600/8/1 024=225 MB,每年所有的摄像头采集到的 数据量为38X365X 12X225 MB=36 571.29 GB=35. 71 TB,数据体量巨大,具有电网大数据 中规模大的特点,并且随着监测点的增多,数据量会越来越大。
[0010] 因此,现有的关系数据库已经无法满足大数据的存储需求,表现在以下4个方面: (1) 大数据的数据体量为TB或PB级,关系数据库已无法处理; (2) 数据访问时输入输出耗时,数据响应速度受到关系数据库的制约,导致大数据快速 访问能力较低; (3) 针对视频图像、图片、文档等非结构化数据缺乏处理能力; (4) 对海量数据处理的可扩展性差。


【发明内容】

[0011] 本发明所要解决的技术问题在于,提供一种基于HBase的输电线路综合数据存储 方法,可解决原有数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。
[0012] 为了解决上述技术问题,本发明提供了一种基于HBase的输电线路综合数据存储 方法,包括:采集输电线路综合数据,所述输电线路综合数据包括结构化数据及非结构化数 据;将所述输电线路综合数据进行分类处理;根据分类结果构建HBase表;将所述HBase表 内的输电线路综合数据转换为字节数组;将所述字节数组按照HBase表格式,依次存储至 HBase分布式数据库,所述HBase分布式数据库构建于HDFS上。
[0013] 作为上述方案的改进,所述HBase表的列定义由多个列族构成,每个列族可以包 含多个列,且列可以动态增加;所述HBase表包括关键字、时标、元数据,所述时标用于表示 元数据的采集时间;所述关键字由MAC地址及路号的字符串连接构成,所述MAC地址用于表 示采集设备,路号用于表示通道号。
[0014] 作为上述方案的改进,所述HBase分布式数据库包括RegionServer,所述 RegionServer上分布有多个Region,所述Region上分布有多个Store,所述Store由 MemSotre及存储在HDFS上的StoreFile组成,所述MemStore为排序内存缓冲区;字节数 组存入所述HBase分布式数据库时,先存入所述MemStore,当所述MemStore满载后,形成一 个StoreFile文件,当所形成的StoreFile文件数量到达预设阈值时,则触发合并操作,将 多个StoreFile文件合并成一个StoreFile文件,合并过程中进行版本合并及数据删除。
[0015] 作为上述方案的改进,所述StoreFile文件内的字节数组的存储通过HFile文件 实现,所述字节数组存储在所述HFi 1 e文件之中;所述HFi 1 e文件依次包括Data、Me ta、Data Index、Meta Index 及 Trailer,所述 Data Index 记录了 Data 的偏移,所述 Meta Index 记 录了 Meta的偏移,所述Trailer包括指向File Info的指针、指向Data Index的指针、指 向Meta Index的指针。
[0016] 作为上述方案的改进,所述合并操作包括"文件触发"、"文件选取"、"文件合并"三 个阶段,所述"文件触发"阶段决定触发合并的时机与方式,所述"文件选取"阶段决定合并 文件的选择,所述"文件合并"决定合并的方式;所述触发合并的时机与方式包括客户端触 发、RegjonServer进行周期检查时触发、MemStore清空时触发。
[0017] 作为上述方案的改进,当单个StoreFile文件的大小超过预设阈值,则触发分裂 操作,并把所述StoreFile文件所处的当前Region分裂为两个独立的Region,新形成的两 个Region会被分配到相应的RegionServer上。
[0018] 作为上述方案的改进,所述RegionServer上还分布有一个实现预写日志的对象 HLog ;当字节数组存入MemStore时,同时写入到所述HLog中,所述HLog定期删除已持久化 到StoreFile中的字节数组所对应的旧文件并滚动出新文件;当RegionServer意外终止 后,则根据所述HLog进行不同Region的字节数组的拆分、重新分配,实现字节数组的恢复。
[0019] 实施本发明,具有如下有益效果: 由上可知,将输电线路综合数据与HDFS、HBase相结合,从而构建基于HBase的输电线 路综合数据存储方法。其中,通过HBase对海量的输电线路综合数据进行存储及高速读写, 使结构化数据及非结构化数据经分类、转换后均能得到有效的处理。
[0020] 相应地,通过强大的合并功能,使StoreFile得到有效的合并,实现过期数据的 删除、提供读的性能;通过强大的分裂功能,使得原有一个Region的压力得以分流到两个 Region上,使资源空间得到最高效的利用;通过设置对象HLog,实现数据恢复,保证数据的 稳定性。解决了原有数据信息共享性差、信息呈孤岛、非结构化数据难以处理等问题。

【专利附图】

【附图说明】
[0021] 图1是输电线路综合数据的详细数据信息表; 图2是输电线路综合数据中结构化数据与非结构化数据的构成与划分示意图; 图3是本发明基于HBase的输电线路综合数据存储方法的实施例流程图; 图4是HDFS的结构体系示意图; 图5是基于HBase和HDFS的存储架构示意图; 图6是HFile文件的结构组成示意图; 图7是HFile的分裂过程示意图。

【具体实施方式】
[0022] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一 步地详细描述。
[0023] 图3是本发明基于HBase的输电线路综合数据存储方法的实施例流程图,包括: S101,采集输电线路综合数据。
[0024] 所述输电线路综合数据包括结构化数据及非结构化数据。
[0025] 如图1所示,输电线路综合数据来源于不同的子系统,可根据实际情况与各子系 统建立连接,采集各子系统中的输电线路综合数据。
[0026] S102,将所述输电线路综合数据进行分类处理。
[0027] 对采集到的输电线路综合数据按照数据的具体内容进行分类处理,例如,可划分 为:绝缘子泄漏电流、架空线杆塔地理坐标、出厂试验数据等等…… S103,根据分类结果构建HBase表。
[0028] 更佳地,所述HBase表的列定义由多个列族构成,每个列族可以包含多个列,且列 可以动态增加;所述HBase表包括关键字、时标、元数据,所述时标用于表示元数据的采集 时间;所述关键字由MAC地址及路号的字符串连接构成,所述MAC地址用于表示采集设备, 路号用于表示通道号。
[0029] 例如,以绝缘子泄漏电流为例进行说明。
[0030] 绝缘子泄漏电流数据一般包含设备节点物理地址、采集时刻、产生通道、微气候记 录(包括环境温度、湿度等)以及若干个周期长度的数据(默认值,在采样率固定的情况下每 个采样点的时间都可计算),具体如表1所示:

【权利要求】
1. 一种基于HBase的输电线路综合数据存储方法,其特征在于,包括: 采集输电线路综合数据,所述输电线路综合数据包括结构化数据及非结构化数据; 将所述输电线路综合数据进行分类处理; 根据分类结果构建HBase表; 将所述HBase表内的输电线路综合数据转换为字节数组; 将所述字节数组按照HBase表格式,依次存储至HBase分布式数据库,所述HBase分布 式数据库构建于HDFS上。
2. 如权利要求1所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述 HBase表的列定义由多个列族构成,每个列族可以包含多个列,且列可以动态增加; 所述HBase表包括关键字、时标、元数据,所述时标用于表示元数据的采集时间; 所述关键字由MAC地址及路号的字符串连接构成,所述MAC地址用于表示采集设备,路 号用于表示通道号。
3. 如权利要求1所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述 HBase分布式数据库包括RegionServer,所述RegionServer上分布有多个Region,所述 Region上分布有多个Store,所述Store由MemSotre及存储在HDFS上的StoreFile组成, 所述MemStore为排序内存缓冲区; 字节数组存入所述HBase分布式数据库时,先存入所述MemStore,当所述MemStore满 载后,形成一个StoreFile文件,当所形成的StoreFile文件数量到达预设阈值时,则触发 合并操作,将多个StoreFile文件合并成一个StoreFile文件,合并过程中进行版本合并及 数据删除。
4. 如权利要求3所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述 StoreFile文件内的字节数组的存储通过HFile文件实现,所述字节数组存储在所述HFile 文件之中; 所述 HFile 文件依次包括 Data、Meta、Data Index、Meta Index 及 Trailer,所述 Data Index记录了 Data的偏移,所述Meta Index记录了 Meta的偏移,所述Trailer包括指向 File Info的指针、指向Data Index的指针、指向Meta Index的指针。
5. 如权利要求3所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述 合并操作包括"文件触发"、"文件选取"、"文件合并"三个阶段,所述"文件触发"阶段决定 触发合并的时机与方式,所述"文件选取"阶段决定合并文件的选择,所述"文件合并"决定 合并的方式; 所述触发合并的时机与方式包括客户端触发、RegjonServer进行周期检查时触发、 MemStore清空时触发。
6. 如权利要求3所述的基于HBase的输电线路综合数据存储方法,其特征在于,当 单个StoreFile文件的大小超过预设阈值,则触发分裂操作,并把所述StoreFile文件 所处的当前Region分裂为两个独立的Region,新形成的两个Region会被分配到相应的 RegionServer 上。
7. 如权利要求3所述的基于HBase的输电线路综合数据存储方法,其特征在于,所述 RegionServer上还分布有一个实现预写日志的对象HLog ; 当字节数组存入MemStore时,同时写入到所述HLog中,所述HLog定期删除已持久化 到StoreFile中的字节数组所对应的旧文件并滚动出新文件; 当RegionServer意外终止后,则根据所述HLog进行不同Region的字节数组的拆分、 重新分配,实现字节数组的恢复。
【文档编号】G06Q50/06GK104216989SQ201410454492
【公开日】2014年12月17日 申请日期:2014年9月9日 优先权日:2014年9月9日
【发明者】彭子平, 刘波, 王干军, 于恒友, 陈清江, 戴征献, 杨晓勇, 郭栩文, 王荣鹏, 罗应文, 聂文翔 申请人:广东电网公司中山供电局, 广州运维电力科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1