一种基于大数据技术的图形化的数据预处理的装置及方法与流程

文档序号:12720192阅读:208来源:国知局

本发明涉及设备监测分析应用领域,具体涉及到一种基于大数据技术的图形化的数据预处理的装置及方法。



背景技术:

随着智能电网的迅猛发展,电力系统已经开始迈向能源互联网和“大数据”时代,电力行业大量运行数据日益呈现体量大、类型多、价值高等特征,数据分析处理能力落后与数据快速增长之间的矛盾将更加突出;随着数据量、数据类型的不断增多,也出现数据分析性能瓶颈、缺少数据分析挖掘的高级方法、非结构化数据尚缺乏有效利用等问题,这制约了电力行业信息化从数字化向智能化的发展。能源互联网时代的大数据关键技术包括数据采集、传输、存储、质量管理、融合共享和深度挖掘等多个方面。

电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。

近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。

Hadoop是一个可扩展框架,能够对大数据进行可靠的分布式处理,Hadoop的框架最核心的设计包括HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是一个分布式文件系统,具有低成本、高可靠性性、高吞吐量的特点。MapReduce是一个变成模型和软件框架,它可以极大地简化大规模数据的处理过程。Spark是一种分布式大数据处理工具,本身不提供数据存储功能,它可以运行在Hadoop的HDFS或其它的分布式文件系统之上,Spark的设计初衷就是为了解决Hadoop MapReduce反复读写文件系统从而效率低下的问题,它通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,实现了In-memory MapReduce架构,在特定应用场景下弥补MapReduce的不足。Hadoop、Spark等通用的开源技术组件在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业的业务需求,异构数据源的整合、集成是企业信息化建设过程经常遇到的一个现实问题,随着数据量的急剧增加,特别是非结构化数据的增加,传统的数据仓库技术和数据抽取工具在数据预处理单元方面的表现捉襟见肘,无法满足海量异构数据和杂乱低质量数据的数据处理性能要求,构建一种基于大数据技术的图形化的数据预处理单元装置及方法,具有深远的意义和较强的利用价值。

智能电网大数据结构复杂、种类繁多,除传统的结构化数据外,还包含大量的半结构化、非结构化数据,如客户服务中心95598系统的语音数据,设备在线监测系统中的视频数据与图像数据等。这些数据的采样频率与生命周期也各不同,从微秒级、分钟级、小时级,一直到年度级。目前电网公司海量、多样的数据资源为数据深层次分析提供了良好条件,如何提升数据处理的性能、充分挖掘数据价值并实现数据资产管理使数据成为企业核心资产,成为当前待解决的问题。

鉴于此,亟需一种能够实现海量多源异构电力大数据的统一表述、灵活采集、集中存储、有效评估、快速处理和安全共享的解决方案,研究基于元数据的多源异构大数据管理系统迫在眉睫。

大数据的分布式计算能力应对异构数据整合问题,基于Spark内存计算引擎构建ETL处理单元,将数据抽取、数据转换、数据加载逻辑转化为支持参数配置和动态组合的计算单元,配合图形化的流程组态工具实现数据预处理单元过程的灵活定制,不仅可以解决异构数据预处理单元的性能问题,还可以有效提高数据预处理单元程序的复用度和灵活度。

然而构建一种基于大数据技术的图形化的数据预处理单元的装置及方法,解决传统ETL工具无法妥善处理的海量异构数据整合的性能问题,提高数据预处理单元程序的复用度、灵活度和执行效率。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于大数据技术的图形化的数据预处理装置及方法,可以快速、高效、及时地处理海量异构数据,同时保证设备安全、稳定、高效地运行。

本发明提供了一种基于大数据技术的图形化的数据预处理单元的装置,包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、ETL处理单元、数据预处理单元,其中数据采集装置与设备监测装置连接,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、ETL处理单元;

数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;

设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;

分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。

Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;

计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;

计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;

ETL处理单元,用于基于计算单元动态编排形成作业,基于Spark内存计算引擎构建,将数据抽取、数据转换、数据加载逻辑转化为支持图形化参数配置和动态组合;

数据预处理单元,用于将设备信息异构数据,依据ETL处理单元进行数据的抽取、转换、加载的预处理,同时可以进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;通过平滑聚集,数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程。

优选地,数据采集装置为安装于监测设备上的数据采集传感器;

优选地,所述数据采集装置为监测设备安装区域的红外线检测器或者温度检测器

优选地,还包括与设备监测装置连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。

优选地,所述数据预处理单元还用于调用和接收分布式存储器中设备监测装置推送产生的新的时序数据,并对新的时序数据重复执行训练过程,对数据挖掘模型进行更新。

优选地,所述人工输入装置为笔记本电脑、平板电脑或手机。

优选地,数据预处理单元相关的计算单元包括但无效值过滤单元、缺失值补充单元、数据列选择单元、数据列变换单元、数据列追加单元和数据集合并单元中的一个或多个,根据具体的业务相互组合,并支持扩展,具体地:

无效值过滤单元:采用规则引擎实现了组合条件判断规则的自由配置,将无效记录移除,保留符合要求的数据进入下一个处理环节;

缺失值补充单元:采用计算函数实现了缺失值计算逻辑的自由配置,在具体计算作业中可以自定义缺失值补算逻辑,完成补算操作的数据进入下一个处理环节;

数据列选择单元:原有数据集包含n个字段,自由选择m个字段进入下一个处理环节,其中(m<=n);

数据列变换单元:改变原有数据集某些列的名称或数据格式,完成变换的数据进入下一个处理环节;

数据列追加单元:原有数据集包含n个字段,自由追加m个字段,新增字段的名字、数据类型、数据值能够自定义,完成列追加的数据进入下一个处理环节;

数据集合并单元:多数据集的汇聚节点,支持SQL语句查询,结果数据集进入下一个处理环节。

本发明还提供了一种基于大数据技术的图形化的数据预处理的装置的处理方法,包括如下步骤:

(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制数据采集装置的采样周期为每小时10次,采样时间为7天,将7天内采样的数据求平均值A;

(2)在同样的初始参数条件下,实时采集数据,将每连续采集的4个数据作为一组[B C D E],4个数据分别记为B、C、D、E,利用公式分别计算出误差分数M,其中:

式中A’为B、C、D、E中的一个取值;

(3)如果误差分数在阈值范围内,则认为次采集数据组有效,将B、C、D、E求平均数M,令P'为数据采集装置的实时测量数值,则:

A.如果则数据采集装置性能稳定,进入步骤(4);

B.如果则数据采集装置性能不稳定,则进入步骤(1);

(4)实时或准实时获取设备信息监测数据,并将采集到的设备信息监测数据传输给设备监测装置中,以数据推送的方式,推送到分布式存储器中(主要包括台账数据和历史数据,海量异构数据),或者以流式输出的方式,将设备监测数据输出至数据预处理单元过程;

(5)以批量接入的方式,通过预定义的调度计划自动获取分布式存储器中的常规台账数据和历史数据,将设备海量异构数据以预处理规则进行数据的抽取、转换、加载的数据预处理单元,并将预处理后的数据输出至分布式存储器进行存储;

(6)以流式接入的方式,通过预定义的系统驱动获取分布式存储器中的设备海量异构数据,在预处理规则下进行数据的抽取、转换、加载的数据预处理单元,并将预处理后的数据输出至分布式存储器进行存储;

(7)通过数据预处理单元过程中计算引擎驱动调度规则引擎来调用和接收分布式存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过ETL处理单元处理后的数据回传到分布式存储器。

本发明的基于大数据技术的图形化的数据预处理的装置及方法,可以实现:

1)以稳定、可靠、高效的开源分布式存储系统和并行计算服务为核心,将数据的预处理过程、交由分布式计算单元执行,不仅能够降低数据处理复杂度、提高时序数据接入吞吐量;

2)基于Spark内存计算引擎构建ETL处理单元,将数据抽取、数据转换、数据加载逻辑转化为支持参数配置和动态组合的计算单元,配合图形化的流程组态工具实现数据预处理单元过程的灵活定制,不仅可以解决异构数据预处理单元的性能问题,还可以有效提高数据预处理单元程序的复用度和灵活度;

3)针对系统数据的可靠性,设计了平均值数据确认方案,使得设备监测数据更加稳定可靠,减轻了装置的工作负荷,使用寿命更长,性能更加稳定。

4)优化的数据采集装置性能评判方式,使得数据更可靠。

附图说明

图1基于大数据的图形化数据预处理的装置结构示意图

具体实施方式

下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。

本发明提供了一种基于大数据技术的图形化的数据预处理单元的装置及方法,如附图1所示,包括数据采集装置1、设备监测装置2、分布式存储器3、Spark内存计算引擎4、计算单元5、ETL处理单元6、数据预处理单元7,其中设备监测装置2分别与数据采集装置1和分布式存储器3连接,分布式储存器3与数据预处理单元7连接,数据预处理单元7包括ETL处理单元6,ETL处理单元6包括spark内存计算引擎4和计算单元5;

数据采集装置,用于实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给设备监测装置,数据采集装置为安装于监测设备上的信息采集传感器,还可以为监测设备安装区域的摄像头、温度检测器等传感器,设备监测装置可以实时的将设备信息监测数据存储,并且以推送的方式或者以流式输出的方式,将设备信息监测数据输出至分布式存储器。

设备监测装置,用于将设备信息数据采集,并且以推送的方式或者流式输出的方式,将设备监测装置数据推送到分布式存储器中。

分布式存储器,又称时序数据存储器,用于设备监测装置推送或经过数据预处理单元后的台账数据,历史数据,指标数据,海量异构数据的存储。

Spark内存计算引擎,是数据进行计算的驱动器,通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器。

计算单元,又称算子,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,能够依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型。将数据抽取、数据转换、数据加载逻辑转化为支持参数配置和动态组合的计算单元,在图形化的流程组态工具中,根据实际业务需求,编排数据预处理单元过程,通过拖拽算子的方式对数据预处理单元过程进行灵活配置。其中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业。每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;

同时计算单元是计算作业的组成部分,计算作业用于定义计算任务的(也称作业节点)拓扑结构和执行逻辑,类似于工作流(Workflow),其定义过程可在系统提供的图形化的流程组态工具中完成,通过拖拽作业节点的方式,将作业节点自由组合和配置,形成一条作业任务。从计算引擎的视角看,每个作业节点对应于一个计算单元(Compute Unit),计算单元对应的程序逻辑称之为算子(Transformation)。系统提供可视化建模工具、预置丰富的数据处理和数据展示算子,同时开放算子开发规范,支持实际业务场景的二次开发。

ETL负责将分散的、异构数据源中的数据如关系数据、非结构化数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为数据挖掘提供决策支持的数据。ETL处理单元集成ETL工具大部分功能,主要是计算单元动态编排形成作业,基于Spark内存计算引擎构建ETL可视化处理框架,将数据抽取、数据转换、数据加载逻辑转化为支持图形化参数配置和动态组合的计算单元,更加直观地展示ETL数据处理过程。

数据预处理单元,用于将设备信息异构数据,依据ETL处理单元进行数据的抽取、转换、加载的预处理,同时可以进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的数据形式的过程。接入的海量异构数据在存储之前,可以进行必要的预处理,利用预先配置好的预处理规则进行数据抽取、数据转换、数据加载等操作。设备数据(或其他数据)以数据流、定时调度、手工导入等形式进入数据预处理单元程序,处理结果将根据具体处理作业的配置输出到指定位置。预处理逻辑实现了组态化、配置化、可视化,每个可组态的逻辑单元被称作算子,根据实际的业务需求,在图形化工具中,拖拽数据预处理单元算子,动态编排形成预处理过程,并配置算子相关参数。整个预处理逻辑被称作作业,通过算子的并行化实现了作业的并行化。

数据预处理单元相关的算子包括但不限于无效值过滤、缺失值补充、数据列选择、数据列变换、数据列追加、数据集合并等单元,可以根据具体的业务相互组合,并支持扩展。

无效值过滤:采用规则引擎实现了组合条件判断规则的自由配置,可以将无效记录移除,保留符合要求的数据进入下一个处理环节。

缺失值补充:采用计算函数实现了缺失值计算逻辑的自由配置,在具体计算作业中可以自定义缺失值补算逻辑,完成补算操作的数据进入下一个处理环节。

数据列选择:原有数据集包含n个字段,可以自由选择m个字段(m<=n)进入下一个处理环节。

数据列变换:改变原有数据集某些列的名称或数据格式(例:数字类型转换为字符串类型),完成变换的数据进入下一个处理环节。

数据列追加:原有数据集包含n个字段,可以自由追加m个字段,新增字段的名字、数据类型、数据值可自定义(例:为包含“创建时间”字段的数据集追加“创建年份”字段),完成列追加的数据进入下一个处理环节。

数据集合并:多数据集的汇聚节点,支持SQL语句查询,结果数据集进入下一个处理环节。

本发明还提供一种基于大数据技术的图形化的数据预处理的装置及方法,依次包括如下步骤:

(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制数据采集装置的采样周期为每小时10次,采样时间为7天,将7天内采样的数据求平均值A;

(2)在同样的初始参数条件下,实时采集数据,将每连续采集的4个数据作为一组[B C D E],4个数据分别记为B、C、D、E,利用公式分别计算出误差分数M,其中:

式中A’为B、C、D、E中的一个取值;

(3)如果误差分数在阈值范围内,则认为次采集数据组有效,将B、C、D、E求平均数M,令P'为数据采集装置的实时测量数值,则:

A.如果则数据采集装置性能稳定,进入步骤(4);

B.如果则数据采集装置性能不稳定,则进入步骤(1);

(4)实时或准实时获取设备信息监测数据,并将采集到的设备信息监测数据传输给设备监测装置中,以数据推送的方式,推送到分布式存储器中(主要包括台账数据和历史数据,海量异构数据),或者以流式输出的方式,将设备监测数据输出至数据预处理单元过程;

(5)以批量接入的方式,通过预定义的调度计划自动获取分布式存储器中的常规台账数据和历史数据,将设备海量异构数据以预处理规则进行数据的抽取、转换、加载的数据预处理单元,并将预处理后的数据输出至分布式存储器进行存储;

(6)以流式接入的方式,通过预定义的系统驱动获取分布式存储器中的设备海量异构数据,在预处理规则下进行数据的抽取、转换、加载的数据预处理单元,并将预处理后的数据输出至分布式存储器进行存储;

(7)通过数据预处理单元过程中计算引擎驱动调度规则引擎来调用和接收分布式存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过ETL处理单元处理后的数据回传到分布式存储器。

本发明的基于大数据技术的图形化的数据预处理单元的装置及方法是通过软件和硬件装置的配合完成,但是并不局限于此,在一定条件下,也可以完全通过软件的方式实现。

尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1