一种能源数据仓库系统的制作方法

文档序号:20768535发布日期:2020-05-15 19:19阅读:234来源:国知局
一种能源数据仓库系统的制作方法

本发明属于能源数据处理技术领域,尤其涉及一种能源数据仓库系统。



背景技术:

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库之父billinmon提出的企业数据仓库架构和ralphkimball提出的维度数据仓库架构是两个主流数据仓库构建方法。

传统数据仓库厂商都有比较成熟的数据仓库产品,也有针对某些行业的数据模型。例如,在银行业,teradata有自己的fs-ldm(teradatafinancialserviceslogicaldatamodel)模型,而ibm有自己的bdwm(bankingdatawarehousemodel)模型;在电信业,teradata有自己的cldm(teradatacommunicationslogicaldatamodel)模型,而ibm有tdwm(telecomdatawarehousemodel)。然而,这些模型主要针对传统行业,并没有针对能源行业的数据模型,无法适应能源行业特点;并且这些数据模型都是基于传统关系数据库构建的,不能适应当前海量数据的实时和准实时的分析需求,也无法根据分析主题的变化而进行灵活处理。



技术实现要素:

有鉴于此,本发明实施例提供了一种能源数据仓库系统,以解决现有技术中没有针对能源行业的数据仓库系统的技术问题。

本发明实施例提供了一种能源数据仓库系统,包括:

操作数据层,包括细节数据表,数据源的能源数据经第一数据处理后写入所述细节数据表;

基础数据层,包括各能源设备类型对应的基础数据表,所述细节数据表的数据经第二数据处理后写入所述基础数据表;

通用数据层,包括与业务分析需要对应的数据仓库主题,所述基础数据表的数据经第三数据处理后写入所述数据仓库主题;

应用数据层,包括与业务单元对应的数据集市,所述数据仓库主题的数据经第四数据处理后写入所述数据集市。

在一个实施例中,所述数据源的能源数据至少包括能源设备运行数据、能源系统配置数据、业务开展过程中的业务数据、通过网络获取的网络数据以及第三方系统提供的第三方数据中的一种。

在一个实施例中,所述操作数据层还包括原始数据表;

所述第一数据处理至少包括:

将所述能源数据加载至所述原始数据表;

对所述能源数据进行解析,以确定所述原始数据表中的新加载数据;

去除出所述新加载数据中的异常数据;

根据能源设备类型和获取时间对所述新加载数据进行分区。

在一个实施例中,所述细节数据表中至少包括站点信息、设备类型、设备标识、量测属性、量测时间以及量测值中的一项。

在一个实施例中,所述基础数据层至少包括燃气蒸汽锅炉基础数据表、空压机基础数据表、能量表基础数据表、业务数据基础数据表以及环境数据基础数据表中的一种。

在一个实施例中,所述第二数据处理至少包括:

根据能源设备类型对所述细节数据表中的数据进行分类,以获取每类能源设备对应的数据;

根据最小时间粒度对所述能源设备对应的数据进行时间对齐,以获取第一数据;

对所述第一数据进行数据扁平化处理,获得第二数据;

将所述第二数据写入各能源设备类型对应的基础数据表中。

在一个实施例中,所述通用数据层至少包括能源企业产能分析主题、用能企业用能分析主题、企业能效分析主题、设备状态运行趋势分析主题、设备预测性维护分析主题、企业数据接入质量分析主题中的一种。

在一个实施例中,所述第三数据处理至少包括:

根据确定的数据仓库主题,读取各能源设备类型对应的基础数据表中的数据;

对各能源设备类型对应的数据进行聚合,以获取聚合数据;

将所述聚合数据写入所述数据仓库主题。

在一个实施例中,所述应用数据层中至少包括用能数据集市、供能数据集市、运营数据集市以及人工智能数据集市中的一种。

在一个实施例中,所述第四数据处理至少包括:

根据确定的数据集市,对所述数据仓库主题中的数据进行分类;

将经过分类的所述数据仓库主题中的数据写入对应的数据集市中,并确定访问权限。

在一个实施例中,所述能源数据仓库系统还包括:

维度数据,至少包括时间维度、地理维度、用户维度、园区维度、系统维度、设备维度中的一种。

在一个实施例中,所述时间维度提供年、季度、月份、天、小时以及分钟的维度定义;

所述地理维度提供全国、大区、省、市、区县以及园区的维度定义;

所述用户维度提供用户所属行业、用户等级以及用户类别的维度定义;

所述设备维度中能源设备至少包括空气压缩机、制冷机、空调、燃气蒸汽锅炉、燃气热水锅炉、变压器、蒸汽表、电表、能量表、温度计、压力计、燃气流量表、液体流量表、压差计中的一种。

在一个实施例中,所述能源数据仓库系统还包括:

管理工具,包括元数据管理工具、工作流管理工具、数据采集工具、数据加工工具以及数据迁移工具。

在一个实施例中,所述元数据管理工具用于提供数据地图;

所述数据采集工具用于提供数据接入服务,以将所述数据源的能源数据采集至所述操作数据层;

所述数据加工工具用于对数据处理提供工具支持;

所述数据迁移工具用于将数据集市的数据迁移至外部系统提供工具支持;

所述工作流管理工具用于对数据采集、数据处理以及数据迁移提供工作流支持。

本发明实施例提供的能源数据仓库系统的有益效果至少在于:本发明实施例提供的针对能源行业的能源数据仓库系统包括含操作数据层、基础数据层、通用数据层以及应用数据层,有效解决了通用数据仓库无法应用于能源领域的问题,有助于形成统一、标准的数据体系,加快能源行业对能源设备数据加工和数据分析的速度,方便数据分析师和数据科学家基于高质量的海量数据进行实时有效分析。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的能源数据仓库系统的示意图;

图2是本发明实施例提供的能源数据仓库系统中从原始数据到基础数据的工作流的实现流程图;

图3是本发明实施例提供的能源数据仓库系统中基于基础数据生成用能报表的工作流的实现流程图;

图4是本发明实施例提供的能源数据仓库系统中数据采集的示意图;

图5是本发明实施例提供的能源数据仓库系统构建方法的实现流程示意图;

图6是本发明实施例提供的能源数据仓库系统构建方法中构建操作数据层的实现流程示意图;

图7是本发明实施例提供的能源数据仓库系统构建方法中构建基础数据层的实现流程示意图;

图8是本发明实施例提供的能源数据仓库系统构建方法中构建通用数据层的实现流程示意图;

图9是本发明实施例提供的能源数据仓库系统构建方法中构建应用数据层的实现流程示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。传统数据仓库厂商都有比较成熟的数据仓库产品,然而目前已有的通用数据仓库方案应用到能源数据仓库系统时实施难度巨大,如果是一个不带行业模型的数据仓库,应用到能源行业需要从零开始设计数据模型以及数据加工逻辑,并在通用工具上部署,工作量巨大,并且需要非常专业的行业知识背景,否则建立的数据模型很难满足能源数据分析的需求,而目前面向银行业和电信业等传统行业的数据模型由于与能源行业存在差异,从而无法应用到能源行业。

本实施例则提供了一种针对能源行业的能源数据仓库系统,其结合能源行业的业务特征,是基于能源行业的业务数据而集成的、面向能源分析主题的、相对稳定的、反映历史变化的能源数据集合,可以用于能源企业的数据分析,支撑能源企业的管理决策。

图1是本实施例提供的能源数据仓库系统的示意图。能源数据仓库系统包括依次连接的操作数据层11、基础数据层12、通用数据层13以及应用数据层14。其中,操作数据层11包括细节数据表111,数据源10的能源数据经第一数据处理后写入所述细节数据表111。基础数据层12包括各能源设备类型对应的基础数据表,细节数据表111的数据经第二数据处理后写入基础数据表。通用数据层13包括与业务分析需要对应的数据仓库主题,基础数据表的数据经第三数据处理后写入数据仓库主题。应用数据层14包括与业务单元对应的数据集市,数据仓库主题的数据经第四数据处理后写入数据集市。

本发明实施例提供的能源数据仓库系统构建方法的有益效果至少在于:本发明实施例提供的针对能源行业的能源数据仓库系统包括含操作数据层、基础数据层、通用数据层以及应用数据层,有效解决了通用数据仓库无法应用于能源领域的问题,有助于形成统一、标准的数据体系,加快能源行业对能源设备数据加工和数据分析的速度,方便数据分析师和数据科学家基于高质量的海量数据进行实时有效分析。

在本实施例中,操作数据层11作为一个缓冲层,增量存储每次数据采集间隔之间新产生或更新的数据。为了构建操作数据层11,需要对获取的能源数据进行数据处理,并将处理后的能源数据对应写入细节数据表中,从而实现对操作数据层11的构建。

数据源10是能源数据仓库系统的数据来源,能源数据仓库系统的能源数据来源主要包括能源设备运行数据101、能源系统配置数据102、业务数据103、互联网数据104以及第三方数据105等,每种类型的数据通过不同的方式进行采集,从而构建数据源。

能源设备运行数据101:能源设备运行数据是能源数据仓库系统的主要数据来源,大量的设备运行数据通过物联网采集、上传到消息总线,能源数据仓库系统的数据采集程序从消息总线实时消费数据,存入原始数据层。从消息总线接收的能源设备运行数据可以是物联网采集的标准json格式的数据,主要信息包括设备所属信息、量测属性、量测时间和量测值等信息。

能源系统配置数据102:关于能源系统的配置信息,是能源系统数据模型的关键信息,也是能源数据分析中维度信息的主要来源,如能源系统的结构,园区信息、系统信息、设备属性和关系信息。这部分数据通过从配置库同步,采集到能源数据仓库系统的数据源中。

业务数据103:业务数据是公司业务开展过程中关于人员、组织、流程相关的数据,包括员工信息、部门信息、产品信息、采购信息、销售信息、项目信息等。业务数据通过业务库同步,采集到能源数据仓库系统的数据源中。

互联网数据104:在能源数据分析过程中,需要一些外部数据,例如设备运行环境的天气数据(温度、湿度、风向、风力等),不同类型能源在不同区域的价格数据等。互联网数据通过互联网数据爬取程序采集到数据仓库系统的数据源中。

第三方数据105:在进行数据分析时,除了通过物联网上传采集的能源设备运行数据外,还需要大量第三方厂商已经采集并存储在第三方系统中的数据。第三方数据主要包括设备信息数据、设备运行数据等,这部分数据通过第三方数据接口服务,采集到能源数据仓库系统的数据源中。

当然,在其他实施例中,能源数据仓库系统的能源数据来源还可以为其他,并不仅限于上述的情形,此处不做限制。

在一个实施例中,操作数据层11还包括原始数据表110。所有采集到的能源数据会进入消息队列,消息程序从消息队列获取能源数据并存储在分布式文件系统中,批处理程序通过外部表的方式定期从分布式文件系统加载能源数据到原始数据表中。可选地,原始数据表结构与分布式文件系统接收到的能源数据格式一致。

由于能源数据在物联网采集阶段可能存在数据中断、数据多次上传、数据异常等情况,在从原始数据表向细节数据表加载时,可以对能源数据进行相应加工和处理。在本实施例中,对数据进行第一数据处理至少包括:

(1)将所述能源数据加载至所述原始数据表。

(2)对所述能源数据进行解析,以确定所述原始数据表中的新加载数据。为了方便后续处理和分析,能源数据在加载到原始数据表中时具有时间戳,从而可以方便后续的数据处理。例如,在对能源数据进行加载时,可以根据能源数据的处理时间来确定哪些能源数据是新加载数据,哪些数据不是新加载数据,只有新加载数据才需要进一步进行处理,而非新加载数据则可以在之前的过程中已经进行相应的处理后写入细节数据表中。

(3)去除出所述新加载数据中的异常数据。为了提高处理效率,需要对新加载数据中的异常数据进行识别,从而可以从新加载数据中筛选出正常数据,避免对异常数据进行无用处理。而对于正常数据,则对其进行格式转换,使得其转换为与细节数据表相同格式的中间数据。

(4)根据能源设备类型和获取时间对所述新加载数据进行分区。由于能源数据的数据量通常比较多,在细节数据表的设计中,结合能源数据特点,对数据进行获取时间维度和设备类型维度的分区,可以提高能源数据存储和后续处理的高效性。细节数据表的结构以时序为基础,结构中主要包括以下信息:站点信息、设备类型、设备标识(设备id)、量测属性、量测时间以及量测值等。

进一步地,由于同类能源设备之间的能源数据都是一致的,而不同类型能源设备之间的数据差异性较大,而后续对能源数据的分析主要以同类能源设备内部的分析为主,因此在基础数据层的设计上,主要以能源设备为单位建立相应的基础数据表。在本实施例中,基础数据层12中基础数据表的类型可以根据需要进行设置,例如可以包括燃气蒸汽锅炉基础数据表121、空压机基础数据表122、能量表基础数据表123、业务数据基础数据表124以及环境数据基础数据表125中的一种或多种。当然,在其他实施例中,基础数据层12还可以包括其他类型的基础数据表,并不仅限于上述的情形。

从细节数据表加工到基础数据表的过程中,主要需要做的事情包括:按照能源设备类型将能源数据进行分类、将窄表扁平化为宽表、数据标准化以及加载到相应能源设备的基础数据表中。在本实施例中,对数据进行第二数据处理至少包括:

(1)根据能源设备类型对所述细节数据表中的数据进行分类,以获取每类能源设备对应的数据。根据能源设备的类型不同,后续需要执行的业务分析也不相同,因此需要根据能源设备的类型对能源数据进行分类。

(2)根据最小时间粒度对所述能源设备对应的数据进行时间对齐,以获取第一数据。由于物联上传的能源数据可能会存在时差,同一个能源设备同一个时间的量测值可能在不同的时间点上传,因此为了便于后续分析,需要对这些能源数据进行最小时间粒度(如分钟级)的时间对齐,将时间信息中的秒级差异处理到同一分钟,并放入同一时间维度的同一行中,以获得第一数据。

(3)对所述第一数据进行数据扁平化处理,获得第二数据。通过将能源设备类型对应的数据进行扁平化处理,将同一时间维度的所有量测信息全部放入一行,以便于后续指标分析和数据对比。

(4)将所述第二数据写入各能源设备类型对应的基础数据表中。

在一个实施例中,以变压器为例,表名为fdm-tran,其基础数据表结构定义及说明如下表一所示:

表一

通过上述基础数据表结构定义,变压器的描述信息、状态信息和量测信息全部集中在这张基础数据表中,无论是物联采集的能源数据,还是从第三方接口接入的能源数据,都规范化为该定义模式,后续基于变压器的分析可以全部从这里提取数据。

在本实施例中,基础数据层对能源行业超过100多类常用能源设备定义了基础数据表结构,能够支持能源行业的大部分数据存储和分析需要,并且由于各能源设备类型之间的弱关联性,扩展新的能源设备类型非常方便。基础数据层除了大量能源设备信息表外,还有通过数据爬取程序获取的环境数据以及从业务系统同步的业务数据等,这些数据也都是在进入基础数据层之前进行标准化处理,为后续分析提供统一的视图。

进一步地,通用数据层是面向业务的,根据业务分析需要,自顶向下设计数据仓库主题。在本实施例中,第三数据处理包括读取各能源设备类型的基础数据表中的数据、对数据进行聚合等。第三数据处理至少包括:

(1)根据确定的数据仓库主题,读取各能源设备类型对应的基础数据表中的数据;

(2)对各能源设备类型对应的数据进行聚合,以获取聚合数据;

(3)将所述聚合数据写入所述数据仓库主题。

在本实施例中,通用数据层13包括数据质量主题131、设备状态主题132、设备能耗主题133以及企业用能主题134中的一种。然,在其他实施例中,通用数据层13还可以包括其他分析主题,例如能源企业产能分析主题、企业能效分析主题、设备状态运行趋势分析主题、设备预测性维护分析主题等,并不仅限于上述的情形。这里的业务分析会在不同层次进行,以如企业用能分析主题为例,其会在不同的时间维度(小时级、天级、月级、年级)、不同用能单元维度(部门、产线、车间、班组)、不同用能设备维度(制冷、照明、加工设备)进行多维分析,主题设计需要能满足支持多维分析的需要。通用数据层的计算,是由基础数据逐步聚合汇总的过程,首先计算低维度的数据,再由低维度的计算结果聚合为高维度的数据。以计算用电量和用电费用为例,首先计算分钟级别的电量,由分钟级别的电量结合电价策略(尖峰平谷不同时段的电价)计算出小时级的电量和电费,再由小时级电量和电费计算出天级(或班组时段级)电量和电费,继续聚合为月级电量和电费,最终聚合为季度和年度的电量和电费。有了这些不同时间维度的聚合数据,在基于时间维度的分析时,就可以基于已经计算好的结果快速响应分析操作。

进一步地,应用数据层14是将能源数据仓库系统计算的结果对外提供应用访问的数据层,应用包括前端产品、报表系统、算法平台、运营分析等,由于能源数据仓库系统主要计算和存储在大数据平台,这里集成了企业内外的所有能源数据。应用数据层14中可以包括用能数据集市141、供能数据集市142、运营数据集市143以及人工智能数据集市144中的一种或多种。第四数据处理至少包括:

(1)根据确定的数据集市,对所述数据仓库主题中的数据进行分类。在对数据进行分类前,根据业务单元,确定数据集市,数据集市的类型包括用能数据集市、供能数据集市、运营数据集市、人工智能数据集市等,当然还可以包括其他类型的集市,此处不做限制。

(2)将经过分类的所述数据仓库主题中的数据写入对应的数据集市中,并确定访问权限。这是由于有些能源数据并不是允许所有应用或分析人员访问,所以通过数据集市的方式,将不同业务单元需要的数据分开,将不同业务单元需要的数据放在相应的数据集市中,并在数据集市中对访问权限进行控制,保证数据的安全性。

进一步地,为了对能源数据的加工处理以及多维分析提供标准支撑和统一的视角,本实施例提供的能源数据仓库系统还包括维度数据15,维度数据15可以包括时间维度151、地理维度152、用户维度153、园区维度154、系统维度155、设备维度156中的一种或多种。维度数据可以为通用数据层进行数据加工(包括数据关联、数据聚合以及数据汇总等)提供参照,同时也可以为应用数据层进行数据加工、数据迁移提供维度信息。所述维度数据至少包括时间维度、地理维度、用户维度、园区维度、系统维度、设备维度中的一种,这些维度数据是进行数据清洗、数据处理的基础,也是后续多维建模和数据分析的基础,只有在数据清洗和处理时将数据按照标准进行统一,才能保证后续分析的一致性和准确性。

依据能源数据分析需要,时间维度提供年(包括自然年和企业自定义财年)、季度、月份(包括自然月和自定义计算和结算月)、天(包括自然日和自定义班组时段)、小时、分钟等不同层级的维度定义;地理维度提供包括全国、大区、省(市)、市(区)、区县、园区等不同地理维度的定义;按照用户特性,提供用户所属行业、用户等级、用户类别等维度定义;每个能源系统都属于一个园区,通过系统建模时的园区和系统信息,以及系统所属能源类型,建立相应的维度;能源系统的产能、用能设备,按照设备大类、设备小类、设备厂商等维度提供标准,例如以下常见设备类型:空气压缩机、制冷机、空调、燃气蒸汽锅炉、燃气热水锅炉、变压器、蒸汽表、电表、能量表、温度计、压力计、燃气流量计、液体流量表、压差计等。

进一步地,为了便于构建的能源数据仓库系统中数据和任务相关的配置、运行和监控等,本实施例提供的能源数据仓库系统还包括管理工具16,管理工具16包括元数据管理工具161、工作流管理工具162、数据采集工具163、数据加工工具164以及数据迁移工具165。其中,元数据管理工具161用于提供数据地图;数据采集工具163用于提供数据接入服务,以将所述数据源的能源数据采集至所述操作数据层11;数据加工工具164用于对数据处理提供工具支持;数据迁移工具165用于将数据集市的数据迁移至外部系统提供工具支持;工作流管理工具162用于对数据采集、数据处理以及数据迁移提供工作流支持。

元数据管理工具161:能源数据仓库系统中存在各类错综复杂的能源数据,为了能够让使用者对能源数据有清晰的认识,提供元数据管理工具,主要解决数据的三个问题:各个环节的数据是什么、各个环节的数据从哪里来、各个环节的数据到哪里去。其中,各个环节的数据是什么,可以通过工具搜索和查看各类数据的名称、类型、长度、业务含义等,对于编码数据可以查看编码的含义;各个环节的数据从哪里来,解决数据溯源的问题,对于能源数据仓库系统中的所有数据,都有上游数据,当需要分析一个数据是否有问题、一个任务失败原因、一个计算指标不正确的原因时,都需要对上游数据进行溯源,沿着上游节点逐步上溯,直到找出问题出现的源头;各个环节的数据到哪里去,解决数据影响分析的问题,当需要对能源数据仓库系统中任何一个环节的计算逻辑、处理方式进行改动时,需要评估改动对现有系统的影响,需要找到所有依赖该节点的后续数据处理流程和数据,评估修改是否可行。能源数据的三个问题结合在一起,就形成了一张全局的错综复杂的数据网络,这个数据网络就是数据地图。元数据管理工具可以提供这样一个能够看到数据仓库全局的数据地图,通过这个地图,能够看到能源数据仓库系统全部数据的点,可以查看每个点的说明,可以在任意一个点进行溯源分析和影响分析。

工作流管理工具162:由于能源数据仓库系统中存在大量的数据采集、加工以及迁移任务,并且这些任务之间存在依赖关系,为了支持能源数据仓库系统自动化周期性有序执行,需要工作流支持。在能源数据仓库系统中最大的一个工作流就是从数据增量采集到文件系统开始,依次执行以下任务:

(1)加载能源数据到能源数据仓库系统的原始数据表;

(2)从原始数据表解析获取新加载数据并写入细节数据表;

(3)从细节数据表读取数据进行清洗转换,并按照能源设备类型分别加载到各基础数据表;

(4)并行执行通用数据层各数据仓库主题计算任务,并把计算结果写入各数据仓库主题;

(5)将各数据仓库主题结果按照业务需要加载到数据集市;

(6)将数据集市迁移到各业务数据库。

能源数据仓库系统中的工作流管理工具提供任务调度、工作流或任务依赖关系管理、拓扑关系管理、任务执行策略、执行结果管理、工作流和任务重新执行支持等,工作流系统驱动整个能源数据仓库系统有序正常运转。

上述第(1)至第(3)步构成一个从原始数据到基础数据的工作流,如图2所示。从原始数据到基础数据的工作流每小时运行一次,负责将最近一个小时到达的数据加工到基础数据层中,借助工作流管理工具,将这些任务组织在一起,并设置调度周期为每个小时的第5分钟执行(也可以为其他时间执行,此处不做限制)。工作流的第一步是启动多个并行任务,分别将综合站数据、用能域数据、换气站数据、光伏站数据、供热站数据等分别加载到原始表,当所有这些并行执行的任务全部完成以后,启动第二步任务;将新加载的数据写入细节数据表,判断新加载数据的依据是,在第一步装载数据时会增加数据的处理时间,依据处理时间判断是否为新装载数据,在将数据写入细节表的过程中,需要进行数据格式的判断,对于异常数据,写入异常日志,只有正确的数据才会写入细节数据表,同时会根据数据所属能源设备类型进行分区,方便后续基于能源设备类型的数据处理;第三步任务基于能源设备类型,将数据处理并加载到基于能源设备类型的基础数据表中(即fdm表),每个能源设备类型一个单独的任务,这些任务并行执行,每个任务主要处理两方面的逻辑:一是将所有数据的时间进行对齐,由于物联上传的数据可能会存在时差,同一个设备同一个时间的量测值可能在不同的时间点上传,为了便于后续分析,需要对这些数据进行最小时间粒度(如分钟级)的时间对齐,将时间信息中的秒级差异处理到同一分钟,并放入同一时间维度的同一行中;二是将数据扁平化处理,将同一时间维度的所有量测信息全部放入一行,便于后续指标分析和数据对比。所有能源设备类型的基础数据全部处理完成之后,此次工作流结束。

上述第(4)至第(6)步构成多个面向分析主题的工作流,这些工作流都依赖第一个工作流,图3给出了基于基础数据进行企业用能报表的数据加工的工作流。基于基础数据的分析按分析主题会有很多,如变压器分析、空压机设备分析、燃气锅炉设备分析、企业用能结构分析、产能能效分析等。在企业用能报告分析中,会将企业所用到的各类能源结构(包括电能、热能、天然气、蒸汽等)进行综合分析,首先基于各类能源的表底数,即各类能源测量的表计上传的数据,计算出不同时段的各类能源用量,根据计价策略(如电能的按尖峰平谷时段电价或用量阶梯电价、天然气的阶梯价格等)计算出不同时段的费用,再将所有费用按企业(核算单元)进行汇总,生成最低时间粒度(小时级)的聚合数据(包括各能源类型的用量和费用),接下来汇总高一级时间粒度(天级)的聚合数据,再汇总出更高一级时间粒度(月级和年级)的聚合数据,再给需要报表的企业分别生成数据集市,最终把各企业的数据集市导出到报表系统,用于生成报表。以能源数据导出到报表系统任务为标志,工作流结束。

数据采集工具163:数据采集工具主要为各类数据源接入能源数据仓库系统提供便利,数据采集的主要功能如图4所示,提供各类能源数据的接入服务。物联设备数据直接从消息队列采集,推送到数据仓库的分布式文件系统;业务和配置数据从业务系统进行定期数据同步;第三方数据通过接口调用方式,定期从第三方系统拉取数据,接口调用过程中,需要进行权限认证、数据获取,提取数据之后进行数据映射,之后推送到能源数据仓库系统;互联网数据通过程序爬取方式获取,对爬取的数据进行解析并推送到能源数据仓库系统。数据采集任务需要定期周期性执行,任务的调度由前述工作流管理工具支持。

数据加工工具164:对于能源数据仓库系统中大量的数据加工任务,数据在各层之间的流转、分类、清洗、聚合、计算等都是一个个的数据加工任务,如此大量的加工任务需要提供工具支持,支持界面化配置加工逻辑。在数据加工过程中,需要根据数据的业务时间和处理时间进行区分,业务时间是数据在业务过程中的实际发生时间,如表计设备的表底数,都是在某个具体时刻对应的数值,与数值对应的时间就是业务时间;而处理时间是指加工程序执行时的系统时间,这个时间一般比业务时间晚,用这两个时间进行不同需求的数据处理,如需要计算某一天的能源量,需要根据业务时间来计算,如果某一天的任务失败或存在问题,需要重新执行,就需要根据处理时间来计算。在数据加工中,可以提供${biztime}、${bizdate}、${systime}和${sysdate}几个变量分别表示业务时间、业务日期、处理时间和处理日期,可以在数据加工时调用,另外还增加了许多能源系统特有的内置变量,如数据所属园区${parkid}、所属系统${systemid}、所属站点${stationid}等,这些也作为数据加工的内置变量供选择。在配置数据加工任务的过程中,对于加工逻辑并不是一步完成的,其中会有多次修改调整的过程,所以数据加工支持调试,每次调试任务会检查语法、生成任务执行计划等,通过调试信息确认任务逻辑是否正确。数据加工任务需要定期周期性执行,任务的调度及依赖关系由前述工作流管理工具支持。

数据迁移工具165:对于能源数据仓库系统与外部系统之间的数据迁移,需要一个工具化支持,可以将原系统的数据定期迁移到能源数据仓库系统,或者将能源数据仓库系统加工的结果数据迁移到数据应用系统,如报表系统等。数据迁移工具支持基于库级别、表级别的数据迁移,设定源表与目的表之间的映射关系,设置增量方式(增量迁移还是全量迁移),设置对目标的数据覆盖策略等,结合任务调度,让迁移任务周期性执行或者在上游加工任务完成时触发执行。数据迁移任务需要定期周期性执行,任务的调度及依赖关系由前述工作流管理工具支持。

本实施例提供的能源数据仓库系统的有益效果至少在于:

(1)本实施例提供的能源数据仓库系统包括操作数据层、基础数据层、通用数据层以及应用数据层,有效解决了通用数据仓库无法应用于能源领域的问题,有助于形成统一、标准的数据体系,加快能源行业对能源设备数据加工和数据分析的速度,方便数据分析师和数据科学家基于高质量的海量数据进行实时有效分析。

(2)本实施例的能源数据仓库系统在不同层面吸纳了不同构建方法的优势,从而有助于提高能源数据仓库系统的性能,例如在构建基础数据层时采用billinmon的企业数据仓库架构方法,为能源数据仓库系统打造坚实的基础底座;而在通用数据层和应用数据层则采用ralphkimball提出的维度数据仓库构建方法,为上层灵活多变的分析提供良好支撑。

(3)本实施例的能源数据仓库系统包括维度数据,从而可以为数据加工和数据多维分析提供标准支撑和统一的视角,确保了数据清洗和处理等数据加工过程可以按照标准进行统一,从而确保后续分析的一致性和准确性。

(4)本实施例的能源数据仓库系统包括管理工具,管理工具包括元数据管理工具、工作流管理工具、数据采集工具、数据加工工具以及数据迁移工具中,可以支持能源数据仓库系统中的数据和任务相关的配置、运行与监控等,有助于维持能源数据仓库系统的有效运行。

请参阅图5,本实施例提供的能源数据仓库系统可以通过下述的能源数据仓库系统构建方法进行构建:

步骤s21:对数据源的能源数据表进行第一数据处理,获得所述能源数据对应的细节数据表,以构建操作数据层。

步骤s22:根据能源设备类型对所述细节数据表进行第二数据处理,获取基础数据表,以构建基础数据层。

步骤s23:根据业务分析需要对所述基础数据表进行第三数据处理,获取数据仓库主题,以构建通用数据层。

步骤s24:根据业务单元对所述数据仓库主题进行第四数据处理,获取所述业务单元对应的数据集市,以构建应用数据层。

步骤s25:根据能源数据分析维度,构建维度数据。所述维度数据至少包括时间维度、地理维度、用户维度、园区维度、系统维度、设备维度中的一种,这些维度数据是进行数据清洗、数据处理的基础,也是后续多维建模和数据分析的基础。

步骤s26:构建管理工具,所述管理工具至少包括元数据管理工具、工作流管理工具、数据采集工具、数据加工工具以及数据迁移工具中的一种。

请参阅图6,在一个实施例中,步骤s21包括以下步骤:

步骤s211:加载所述数据源中的能源数据至原始数据表。

步骤s212:根据所述能源数据的处理时间解析所述原始数据表,确定所述原始数据表中的新加载数据。

步骤s213:判断所述新加载数据是否为异常数据;

若所述新加载数据不是异常数据,则:

步骤s214:对所述新加载数据进行格式转换,获取中间数据;

若所述新加载数据是异常数据,则:

步骤s215:将所述新加载数据加入数据异常日志;

为了提高处理效率,需要对新加载数据中的异常数据进行识别,从而可以从新加载数据中筛选出正常数据,避免对异常数据进行无用处理。而对于正常数据,则对其进行格式转换,使得其转换为与细节数据表相同格式的中间数据。

步骤s216:根据能源设备类型和获取时间对所述中间数据进行分区,将所述中间数据写入细节数据表中,以构建操作数据层。

请参阅图7,在一个实施例中,步骤s22包括以下步骤:

步骤s2221:根据能源设备类型对所述细节数据表中的数据进行分类,以获取每类能源设备对应的数据。

步骤s222:根据最小时间粒度对所述能源设备对应的数据进行时间对齐,以获取第一数据。

步骤s223:对所述第一数据进行数据扁平化处理,获得第二数据。

步骤s224:将所述第二数据写入各能源设备类型对应的基础数据表中,以构建基础数据层。

请参阅图8,在一个实施例中,步骤s23包括以下步骤:

步骤s231:根据业务分析需要,确定数据仓库主题。

步骤s232:根据数据仓库主题,读取各能源设备类型对应的基础数据表中的数据。

步骤s233:参照维度数据对各能源设备类型对应的数据进行聚合,以获取聚合数据。

步骤s234:将所述聚合数据写入所述数据仓库主题,以构建通用数据层。

请参阅图9,在一个实施例中,步骤s24包括以下步骤:

步骤s241:根据业务单元,确定数据集市,数据集市的类型包括用能数据集市、供能数据集市、运营数据集市、人工智能数据集市等,当然还可以包括其他类型的集市,此处不做限制。

步骤s242:根据所述数据集市,对所述数据仓库主题中的数据进行分类。

步骤s243:将经过分类的所述数据仓库主题中的数据写入对应的数据集市中,并确定访问权限,以构建应用数据层。

进一步地,为了提升数据访问的效率,步骤s143之后还可以包括:

步骤s244:将所述数据集市迁移至报表系统中,以生成报表。即有些业务或报表系统通过数据迁移的方式将数据集市放入自己的数据库中,提升数据访问效率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1