一种基于电力调控大数据的多数据库混合存储方法及系统与流程

文档序号:17320291发布日期:2019-04-05 21:30阅读:192来源:国知局
一种基于电力调控大数据的多数据库混合存储方法及系统与流程

本发明属于电力自动化技术领域,具体涉及一种基于电力调控大数据的多数据库混合存储方法及系统。



背景技术:

随着特高压交直流混合电网的大规模建设以及“大运行”体系建设的全面推进,电网调度控制系统的服务范围快速扩大,数据来源增多,数据类型多样,数据规模和存储压力急剧增大,调控业务对海量多源数据的高效存储与快速处理的要求不断提升。目前电力调度控制系统中使用的数据库以关系型数据库为主,这是一种建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据,具有稳定、安全等特点。除此之外,也有部分系统采用非关系型数据库如hbase等,来解决海量多源异构数据的存储难题,非关系型数据库相对于关系型数据库具有更高的数据存储能力,特别针对于非结构化和半结构化数据,是解决电力调控大数据存储难题的一个常用方法。

但是调控数据种类繁多,包括实时数据、历史数据、模型数据等结构化数据,高频变化的时间序列数据,还有cim/g、case断面、电网综合故障报告和波形文件、dts教案、语音数据等非结构化数据。且不同业务对数据访问性能要求不同,单一的数据库存储技术无法满足所有业务对数据的存储、查询等性能要求,因此研究将多种数据库技术结合起来的适用于电力调控大数据的新型混合数据库存储与管理技术,来适应不同应用场景的特点和需求具有重要意义。



技术实现要素:

现有数据库种类包括关系数据库、列式数据库、实时数据库和mpp数据库等,每种数据库在电力调控大数据的存储中各有优劣。其中,关系数据库按照行进行存储,关系数据库擅长随机读操作,不适合用于大数据,主要用于数据访问的实时性不高的场合。列式存储适合于较低延迟的读写访问、高并发的访问请求。基于列存储的数据存储与管理装载速度快、易于压缩、易于做聚合分析,适宜于大数据规模下的统计、分析等应用功能。列式数据库按照键值对(key-valuepair)进行组织、索引和存储,适合结构复杂、关联较少的半结构化数据存储。分布式实时数据库基于内存进行存储,支持对实时数据的快速存储和访问,提供高速的本地访问接口、远方服务访问接口,支持数据关系描述和检索,主要用于存储电网运行的实时信息。分布式文件系统适合存储海量非结构化数据,即将数据存储在物理上分散的多个存储节点上,统一管理和分配节点资源。mpp数据库采用sharednothing架构,具备数据高效存储、高并发查询功能,具有完全的可伸缩性、高可用、高性能、资源共享等优势,适用于海量数据的统计分析。

为了克服传统单一数据库在面对海量多源异构数据时的技术瓶颈,本发明提出了一种基于电力调控大数据的多数据库混合存储方法,应用于基于电力调控大数据的混合存储系统,所述方法包括以下步骤:

数据采集步骤,从各电力调控系统中采集电力调控大数据,采用的采集方式为:手动数据文件导入,或者由采集设备自动抽取方式;

分类存储步骤,为方便对电力调控大数据进行高效存储及进一步的应用,将电力调控系统中采集到的数据分为不同类型,根据不同类型数据的数据特征和业务需求,选择不同的基础数据库进行数据存储;

需求接收步骤,用户访问多数据库混合存储系统,接收并分析用户的业务需求,形成对电力调控大数据进行计算分析的指令;

数据混合步骤,根据指令,选择业务需求所需数据,对一种或多种不同类型的数据进行混合,将一个或多个基础数据库中的异构数据导入到集中的数据存储层,同时协调不同基础数据库的数据访问和不同数据源之间的信息,在数据导入基础上进行数据清洗和预处理,统一不同类型数据的存储方式,为下一步计算分析提供数据基础;

计算分析步骤,对混合存储的数据进行抽取、加工、融合,根据业务需求,对存储数据进行计算分析,形成业务数据;

应用服务步骤,对业务数据进行再组织形成特定场景使用的专用数据,结合可视化技术提供给用户,

其中,所述分类存储步骤,将电力调控系统中采集到的数据分为不同类型,根据不同类型数据的数据特征和业务需求,选择不同的基础数据库进行数据存储,具体包括:

判断步骤,对于采集的电力调控大数据,首先判断其数据类型,所述数据类型包括模型数据、运行数据和统计分析数据;

对于模型数据,其数据量相对较少且更新频率稳定,存储在关系型数据库;

对于运行数据,电网系统产生各类运行数据,分为高活跃度数据和低活跃度数据,两种类型数据采用不同的存储策略:高活跃度数据为近期运行数据,将其存入mpp数据库,用于统计、分析、为应用提供数据支撑;低活跃度数据为活跃度较低的历史运行数据,将其存入hadoop数据库,用于基于电网长期的运行规律进行挖掘、分析;

对于统计分析数据,其数据量相对较少、更新频率较快且对查询处理实时性要求较高,将其存入mpp数据库,便于应用查询与展示;

其中,所述计算分析步骤,对混合存储的数据进行抽取、加工、融合,具体包括:

数据提取步骤:从一种或多种不同类型的数据中提取业务所需数据;

数据转换步骤:将一种或多种不同类型的数据按照业务需求,转换成目的数据存储层要求的形式,并对数据进行清洗和加工;

数据加载步骤:将转换后的数据融合装载到计算分析模块。

并提出一种基于电力调控大数据的多数据库混合存储系统,包括:基础数据库、数据存储层、数据采集模块、分类存储模块、需求接收模块、数据融合模块、计算分析模块、应用服务模块,用于实现所述多数据库混合存储方法。

本发明的有益效果包括:首先,针对现有单一数据库在电力调控系统中包含的模型数据、历史数据和实时数据等多个类型的海量数据存储与应用方面的不足,建立基于多数据库的混合存储方法,对多种类型的调控大数据进行统一存储与管理,在此基础上提高调控大数据的采集与汇聚、存储及使用与展示等多个方面不同业务的数据性能。其次,提高了电网数据的管理和使用水平,将电力行业分散的数据资源进行整合优化,降低各电力部门管理成本和各类应用开发运营复杂度,加快业务应用系统落地速度和随需而变的速度,提高了电力调控系统的可靠性和性能;再次,可以在对数据执行一个或多个分析操作之后从多个基础数据库提取源数据,执行用于数据细化的操作以对数据进行分类,通过执行映射,变换等操作来进一步处理数据,提高了数据混合存储的准确率,提高了系统并行处理大数据的能力。采用多种类型数据抽取安全机制,保证数据采集的完整性和正确性;最后,由于在存储不同种类的数据时,不同数据库都有各自的优势,将数据以混合方式来组织可以最优化数据存储,极大地提高了数据采集效率,以应对大量数据的处理,从而大幅降低建设成本。

附图说明

图1本发明的方法流程图;

图2本发明的系统框架图;

图3本发明的原理示意图。

具体实施方式

为了更好地理解本发明,下面结合附图参考实施例的描述,对本发明的方法和系统进行进一步的说明。

为了全面理解本发明,在以下详细描述中提到了众多具体细节。但是本领域技术人员应该理解,本发明可以无需这些具体细节而实现。在实施例中,不详细描述公知的方法、过程、组件,以免不必要地使实施例繁琐。

参见图1所示,本发明提供了一种基于电力调控大数据的混合存储方法,所述方法应用于基于电力调控大数据的混合存储系统,所述方法包括以下步骤:

数据采集步骤,从各电力调控系统中采集电力调控大数据,采用的采集方式为:手动数据文件导入,或者由采集设备自动抽取方式;

分类存储步骤,为方便对电力调控大数据进行高效存储及进一步的应用,将电力调控系统中采集到的数据分为不同类型,根据不同类型数据的数据特征和业务需求,选择不同的基础数据库进行数据存储;

需求接收步骤,用户访问多数据库混合存储系统,接收并分析用户的业务需求,形成对电力调控大数据进行计算分析的指令;

数据混合步骤,根据指令,选择业务需求所需数据,对一种或多种不同类型的数据进行混合,将一个或多个基础数据库中的异构数据导入到集中的数据存储层,同时协调不同基础数据库的数据访问和不同数据源之间的信息,在数据导入基础上进行数据清洗和预处理,统一不同类型数据的存储方式,为下一步计算分析提供数据基础;

计算分析步骤,对混合存储的数据进行抽取、加工、融合,根据业务需求,对存储数据进行计算分析,形成业务数据;

应用服务步骤,对业务数据进行再组织形成特定场景使用的专用数据,结合可视化技术提供给用户,

其中,所述分类存储步骤,将电力调控系统中采集到的数据分为不同类型,根据不同类型数据的数据特征和业务需求,选择不同的基础数据库进行数据存储,具体包括:

判断步骤,对于采集的电力调控大数据,首先判断其数据类型,所述数据类型包括模型数据、运行数据和统计分析数据;

对于模型数据,其数据量相对较少且更新频率稳定,存储在关系型数据库;

对于运行数据,电网系统产生各类运行数据,分为高活跃度数据和低活跃度数据,两种类型数据采用不同的存储策略:高活跃度数据为近期运行数据,将其存入mpp数据库,用于统计、分析、为应用提供数据支撑;低活跃度数据为活跃度较低的历史运行数据,将其存入hadoop数据库,用于基于电网长期的运行规律进行挖掘、分析;

对于统计分析数据,其数据量相对较少、更新频率较快且对查询处理实时性要求较高,将其存入mpp数据库,便于应用查询与展示;

其中,所述计算分析步骤,对混合存储的数据进行抽取、加工、融合,具体包括:

数据提取步骤:从一种或多种不同类型的数据中提取业务所需数据;

数据转换步骤:将一种或多种不同类型的数据按照业务需求,转换成目的数据存储层要求的形式,并对数据进行清洗和加工;

数据加载步骤:将转换后的数据融合装载到计算分析模块。

优选地,其中,所述应用服务步骤提供主题查询、实时关联查询、离线数据挖掘、历史曲线分析、系统管理、连表查询、报表统计、定时任务调度、数据审计、日志管理等功能。

优选地,其中,所述基础数据库包括:关系型数据库、mpp数据库、hadoop数据库。

优选地,其中,所述应用服务步骤,对业务数据进行再组织形成特定场景使用的专用数据,结合可视化技术提供给用户,具体包括:

数据连接步骤,使用数据连接器在平台和数据存储层之间建立统一的访问连接,通过配置数据存储位置ip地址、端口号和源数据类型,调用底层一种或多种数据连接协议,与数据之间建立数据传输通道,对数据进行访问和操作;

执行步骤,使用执行引擎执行操作序列,并返回查询的结果集;

组织步骤,对业务数据进行再组织形成特定场景使用的专用数据;

可视化步骤,将专用数据通过可视化技术实现于特定场景;

展示步骤,提供符合规范的直接访问的接口服务,前台展示页面与后台数据进行交互,结合可视化场景将数据提供给用户。

优选地,其中,所述数据类型包括模型数据、运行数据和统计分析数据,

所述模型数据主要包含电力调度控制相关设备的电气参数、关联信息等基础数据、以及元数据、字典数据及配置参数,

所述运行数据主要包括传统的电气量数据,具体包括电压、电流、频率、有功、无功、电量、保护故障录波等数据、以及其它非电气量数据,具体包括监控告警信息、营销数据、运检信息、气象环境数据、地理信息等,

所述统计分析数据主要是根据业务需求对模型数据和运行数据进行分析处理后产生的各类指标参数等数据。

优选地,其中,所述数据混合步骤具体包括:

数据抽取步骤,执行一个或多个基本分析操作,以一种或多种数据格式从一个或多个基础数据库中抽取所需数据,所述一个或多个基础数据库具有一种或多种类型的约束和结构,其中所述一个或多个基本分析操作用于条件检查;

精炼步骤,在数据被抽取的同时执行数据精炼操作,所述数据精炼操作与基本分析操作并行地执行;

验证步骤,执行重复数据分拣操作,其中重复数据分拣操作将抽取的数据识别为有效数据和无效数据,并且将有效数据和无效数据存储在数据存储层的不同位置;

所述精炼步骤具体包括:

映射步骤,基于一个或多个映射规则执行不同类型数据的一种或多种映射操作,其中所述一种或多种映射操作包括从一个表到另一个表的数据映射,将数据分割成多个输出路径;

转换模块,基于一个或多个业务规则对所映射的不同类型数据执行二次分析转换操作以获得转换的不同类型数据,其中将所转换的不同类型数据存储在数据存储层中的目标区域中。

参见图2和图3所示,本发明提供了一种基于电力调控大数据的混合存储系统,该系统包括:基础数据库、数据存储层、数据采集模块、分类存储模块、需求接收模块、数据融合模块、计算分析模块、应用服务模块,所述系统用于实现上述的多数据库混合存储方法。

本发明与现有技术相比,其显著优点为:首先,针对现有单一数据库在电力调控系统中包含的模型数据、历史数据和实时数据等多个类型的海量数据存储与应用方面的不足,建立基于多数据库的混合存储方法,对多种类型的调控大数据进行统一存储与管理,在此基础上提高调控大数据的采集与汇聚、存储及使用与展示等多个方面不同业务的数据性能。其次,提高了电网数据的管理和使用水平,将电力行业分散的数据资源进行整合优化,降低各电力部门管理成本和各类应用开发运营复杂度,加快业务应用系统落地速度和随需而变的速度,提高了电力调控系统的可靠性和性能;再次,可以在对数据执行一个或多个分析操作之后从多个基础数据库提取源数据,执行用于数据细化的操作以对数据进行分类,通过执行映射,变换等操作来进一步处理数据,提高了数据混合存储的准确率,提高了系统并行处理大数据的能力。采用多种类型数据抽取安全机制,保证数据采集的完整性和正确性;最后,由于在存储不同种类的数据时,不同数据库都有各自的优势,将数据以混合方式来组织可以最优化数据存储,极大地提高了数据采集效率,以应对大量数据的处理,从而大幅降低建设成本。

这里只说明了本发明的优选实施例,但其意并非限制本发明的范围、适用性和配置。相反,对实施例的详细说明可使本领域技术人员得以实施。应能理解,在不偏离所附权利要求书确定的本发明精神和范围情况下,可对一些细节做适当变更和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1