一种基于大数据技术的图形化的数据质量评测的装置及方法与流程

文档序号:12720196阅读:254来源:国知局

本发明涉及设备监测分析应用领域,具体涉及到一种基于大数据技术的图形化的数据质量评测的装置及方法。



背景技术:

随着智能电网的迅猛发展,电力系统已经开始迈向能源互联网和“大数据”时代,电力行业大量运行数据日益呈现体量大、类型多、价值高等特征,数据分析处理能力落后与数据快速增长之间的矛盾将更加突出;随着数据量、数据类型的不断增多,也出现数据分析性能瓶颈、缺少数据分析挖掘的高级方法、非结构化数据尚缺乏有效利用等问题,这制约了电力行业信息化从数字化向智能化的发展。能源互联网时代的大数据关键技术包括数据采集、传输、存储、质量管理、融合共享和深度挖掘等多个方面。

电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。

近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。

Hadoop是一个可扩展开源软件单元,能够对大数据进行可靠的分布式处理,Hadoop的单元最核心的设计包括HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是一个分布式文件系统,具有低成本、高可靠性性、高吞吐量的特点。MapReduce是一个变成模型和软件单元,它可以极大地简化大规模数据的处理过程。Spark是一种分布式大数据处理工具,本身不提供数据存储功能,它可以运行在Hadoop的HDFS或其它的分布式文件系统之上,Spark的设计初衷就是为了解决Hadoop MapReduce反复读写文件系统从而效率低下的问题,它通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,实现了In-memory MapReduce架构,在特定应用场景下弥补MapReduce的不足。Hadoop、Spark等通用的开源技术组件在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业的业务需求,异构数据源的整合、集成是企业信息化建设过程经常遇到的一个现实问题,随着数据量的急剧增加,特别是非结构化数据的增加,传统的数据仓库技术和数据抽取工具在数据质量评测方面的表现捉襟见肘,无法满足海量异构数据和杂乱低质量数据的数据处理性能要求,构建一种基于大数据技术的图形化的数据质量评测装置及方法,具有深远的意义和较强的利用价值。

数据是电力企业数据中心的重要资产,获取并维护高质量数据对高效的IT和业务运营至关重要,有效收集数据、分析数据、利用数据的前提就是加强数据质量管理。面对复杂度不断增加的海量业务数据如何全面保证数据质量,是有效挖掘数据价值过程中不可回避的关键课题。

数据质量保障是大数据成功的关键和基础,数据质量管理(Data Quality Management)涉及数据的计划、获取、存储、共享、维护、应用、消亡等生命周期的各个阶段,在任何阶段可能引发数据质量问题的隐患都必须被实行识别、度量、监控、预警等一系列措施,始终保持对于数据质量问题的规避,从而保障对于大数据的有效分析和充分利用,真正让企业从大数据应用中获得利益。数据质量问题可以归结为“缺、重、散、慢、差”,这些因素严重影响了大数据分析及应用效果,也是目前电力数据质量管理面临的严峻形势。数据质量管理作为横在电力行业大数据发展面前的一座大山,是每个电力信息化服务商在发展大数据时都必须要面对和解决的问题,相关标准体系及配套工具的研发势在必行。

结合大数据背景下的数据质量评价标准和管理体系,运用大数据处理技术提升质量检核工作效率,为数据治理提供决策依据。研究企业数据管理成熟度模型(Data Management Maturity,DMM),基于发现问题、解决问题、避免问题的思路探索大数据背景下的数据质量管理体系,研发评估、防止和修复数据缺陷的数据质量管理和改进机制,面向完整性、一致性、准确性、及时性等评价维度,基于大数据处理技术配合元数据系统研发数据质量评估(Data Quality Assessment)系统。

针对企业海量数据提供全面的数据质量管控,通过实施数据质量检核,发现数据质量问题、监控数据质量波动情况。基于Spark内存计算引擎构建数据质量检核单元,将数据完整性、规范性、一致性、准确性等质量校验规则转化为支持参数配置和动态组合的计算单元,配合图形化的流程组态工具实现数据预处理单元过程的灵活定制。

然而构建一种基于大数据技术的图形化的数据质量评测的装置及方法,帮助企业实施数据质量检核,运用大数据技术突破海量数据质量评估的性能瓶颈,实现数据质量评测的规范化管理,有效降低数据质量管理成本。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于大数据技术的图形化的数据质量评测的装置及方法,可以快速、高效、及时地处理和评估海量数据,同时保证设备安全、稳定、高效地运行。

本发明提供了一种基于大数据技术的图形化的数据质量评测的装置,包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、数据质量检核单元、数据预处理单元,其中数据采集装置分别与设备监测装置,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、数据质量检核单元;

数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;

设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;

分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。

Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;

计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;

计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;

数据质量检核单元,用于计算单元动态编排形成作业,基于Spark内存计算引擎构建数据质量检核单元,将数据完整性、规范性、一致性、准确性的质量校验规则转化为支持图形化参数配置和动态组合的计算单元;

数据预处理单元,用于将设备信息异构数据,依据数据质量检核单元进行数据的完整性、规范性、一致性、准确性的预处理,同时进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程,并将预处理后的数据输出至分布式存储器。

优选地,所述数据采集装置为安装于监测设备上的数据采集传感器。

优选地,所述数据采集装置为监测设备安装区域的红外线检测器或者温度检测器。

优选地,还包括与设备监测装置连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。

优选地,所述数据预处理单元还用于调用和接收分布式存储器中设备监测装置推送产生的新的时序数据,并对新的时序数据重复执行训练过程,对数据挖掘模型进行更新。

优选地,所述人工输入装置为笔记本电脑、平板电脑或手机。

本发明还提供一种基于大数据技术的图形化的数据质量评测的装置及方法,依次包括如下步骤:

(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制数据采集装置的采样周期为每小时10次,采样时间为7天,将7天内采样的数据求平均值A;

(2)在同样的初始参数条件下,实时采集数据,将每连续采集的4个数据作为一组[B C D E],4个数据分别记为B、C、D、E,利用公式分别计算出误差分数M,其中:

式中A’为B、C、D、E中的一个取值;

(3)如果误差分数在阈值范围内,则认为次采集数据组有效,将B、C、D、E求平均数M,令P'为数据采集装置的实时测量数值,则:

A.如果则数据采集装置性能稳定,进入步骤(4);

B.如果则数据采集装置性能不稳定,则进入步骤(1);

(4)实时或准实时获取设备信息监测数据,并将采集到的设备信息监测数据传输给设备监测装置中,以数据推送的方式,推送到分布式存储器中(主要包括台账数据和历史数据,海量异构数据),或者以流式输出的方式,将设备监测数据输出至数据预处理单元过程;

(5)以批量接入的方式,通过预定义的调度计划自动获取分布式存储器中的常规台账数据和历史数据,将设备海量异构数据以预处理规则进行数据的数据完整性、规范性、一致性、准确性的数据预处理单元,并将预处理后的数据输出至分布式存储器进行存储;

(6)以流式接入的方式,通过预定义的系统驱动获取分布式存储器中的设备海量异构数据,在预处理规则下进行数据数据完整性、规范性、一致性、准确性的数据预处理单元,并将预处理后的数据输出至分布式存储器进行存储,其中一致性评估指标参数的具体方式为:

在一致性算子中配置相关参数,M为问题数据项数,Q为缺少数据项个数,C为数据集的记录数,P为元数据定义数据项个数,

数据的一致性为:其中n为数据集的个数;

(7)通过数据预处理单元过程中计算引擎驱动调度规则引擎来调用和接收分布式存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过数据质量核检处理单元处理后的数据回传到分布式存储器。

本发明的基于大数据技术的图形化的数据质量评测的装置及方法,可以实现:

1)以稳定、可靠、高效的开源分布式存储系统和并行计算服务为核心,将数据的预处理过程、交由分布式计算单元执行,不仅能够降低数据处理复杂度、提高时序数据接入吞吐量;

2)基于Spark内存计算引擎构建数据质量检核单元,将数据完整性、规范性、一致性、准确性等质量校验规则转化为支持图形化参数配置和动态组合的计算单元,配合图形化的流程组态工具实现数据预处理单元过程的灵活定制,不仅可以突破海量数据质量评估的性能瓶颈,实现数据质量评测的规范化管理,有效降低数据质量管理成本;

3)针对系统数据的可靠性,设计了平均值数据确认方案,使得设备监测数据更加稳定可靠,减轻了装置的工作负荷,使用寿命更长,性能更加稳定。

4)优化的数据采集装置性能评判方式,使得数据更可靠。

附图说明

图1基于大数据的图形化数据质量评测的数据预处理单元的装置结构示意图

具体实施方式

下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。

本发明提供了一种基于大数据技术的的图形化的数据质量评测的装置及方法,如附图1所示,包括数据采集装置1、设备监测装置2、分布式存储器3、Spark内存计算引擎4、计算单元5、数据质量检核单元6、数据预处理单元7,其中设备监测装置2分别与数据采集装置1和分布式存储器3连接,分布式储存器3与数据预处理单元7连接,数据预处理单元7包括数据质量检核单元6,数据质量检核单元6包括spark内存计算引擎4和计算单元5;

数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置,数据采集装置为安装于监测设备上的信息采集传感器,还可以为监测设备安装区域的红外线成像、摄像头、温度检测器等传感器,设备监测装置可以实时的将设备信息监测数据存储,并且以推送的方式或者以流式输出的方式,将设备信息监测数据输出至分布式存储器。

设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;

分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。

Spark内存计算引擎,是数据进行计算的驱动器,通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器。

计算单元,又称算子,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,能够依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型。将数据完整性、规范性、一致性、准确性逻辑转化为支持参数配置和动态组合的计算单元,在图形化的流程组态工具中,根据实际业务需求,编排数据预处理单元过程,通过拖拽算子的方式对数据预处理单元过程进行灵活配置。其中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业。每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行数据质量检核后实时输出,并将数据输出到分布式数据存储器;

同时计算单元是计算作业的组成部分,计算作业用于定义计算任务的(也称作业节点)拓扑结构和执行逻辑,类似于工作流(Workflow),其定义过程可在系统提供的图形化的流程组态工具中完成,通过拖拽作业节点的方式,将作业节点自由组合和配置,形成一条作业任务。从计算引擎的视角看,每个作业节点对应于一个计算单元(Compute Unit),计算单元对应的程序逻辑称之为算子(Transformation)。系统提供可视化建模工具、预置丰富的数据处理和数据展示算子,同时开放算子开发规范,支持实际业务场景的二次开发。

数据质量检核单元,主要是计算单元动态编排形成作业,基于Spark内存计算引擎构建数据质量检核单元,将数据完整性、规范性、一致性、准确性等质量校验规则转化为支持图形化参数配置和动态组合的计算单元。

数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值。以自由组合检核函数形成的检核方法,随着检核函数的并行化而具备了大数据处理能力,可以大幅提升质量检核工作效率,为数据治理提供决策依据。

检核方法所对应的数据质量检核逻辑本身可视作一个计算作业,其定义过程通过可视化的设计器完成,通过检核方法的周期调度执行,形成数据质量趋势,以此监控数据质量管理工作的实施效果,同时确保数据保持高质量,防止随时间推移导致数据质量下降。

可拖拽的逻辑单元(算子)本质上是一个实现了并行化的规则引擎,诸如数据的重复性、关联性、正确性、完全性、一致性、合规性等检查逻辑被预先定义为一组函数,这些函数可以在规则引擎算子的配置界面供用户自由选择,配置形成各种各样的检核方法判断逻辑。检核方法判断逻辑采用“打标签”的模式为数据集追加数据列,新的数据集运用数据过滤、数据统计算子完成评测数据的定制化输出。

数据预处理单元,用于将设备信息异构数据,依据数据质量检核单元进行数据的完整性、规范性、一致性、准确性的预处理.接入的海量异构数据在存储之前,可以进行必要的预处理,利用预先配置好的预处理规则进行数据抽取、数据转换、数据加载等操作。设备数据(或其他数据)以数据流、定时调度、手工导入等形式进入数据预处理单元程序,处理结果将根据具体处理作业的配置输出到指定位置。预处理逻辑实现了组态化、配置化、可视化,每个可组态的逻辑单元被称作算子,根据实际的业务需求,在图形化工具中,拖拽数据预处理单元算子,动态编排形成预处理过程,并配置算子相关参数。整个预处理逻辑被称作作业,通过算子的并行化实现了作业的并行化.

本发明还提供一种基于大数据技术的图形化的数据质量评测的装置及方法,依次包括如下步骤:

(1)初始化,设置数据采集装置的初始参数,根据设置好的初始参数控制数据采集装置的采样周期为每小时10次,采样时间为7天,将7天内采样的数据求平均值A;

(2)在同样的初始参数条件下,实时采集数据,将每连续采集的4个数据作为一组[B C D E],4个数据分别记为B、C、D、E,利用公式分别计算出误差分数M,其中:

式中A’为B、C、D、E中的一个取值;

(3)如果误差分数在阈值范围内,则认为次采集数据组有效,将B、C、D、E求平均数M,令P'为数据采集装置的实时测量数值,则:

A.如果则数据采集装置性能稳定,进入步骤(4);

B.如果则数据采集装置性能不稳定,则进入步骤(1);

(4)实时或准实时获取设备信息监测数据,并将采集到的设备信息监测数据传输给设备监测装置中,以数据推送的方式,推送到分布式存储器中(主要包括台账数据和历史数据,海量异构数据),或者以流式输出的方式,将设备监测数据输出至数据预处理单元过程;

(5)以批量接入的方式,通过预定义的调度计划自动获取分布式存储器中的常规台账数据和历史数据,将设备海量异构数据以预处理规则进行数据的数据完整性、规范性、一致性、准确性的数据预处理单元,并将预处理后的数据输出至分布式存储器进行存储;

(6)以流式接入的方式,通过预定义的系统驱动获取分布式存储器中的设备海量异构数据,在预处理规则下进行数据数据完整性、规范性、一致性、准确性的数据预处理单元,并将预处理后的数据输出至分布式存储器进行存储,其中一致性评估指标参数的具体方式为:

在一致性算子中配置相关参数,M为问题数据项数,Q为缺少数据项个数,C为数据集的记录数,P为元数据定义数据项个数,

数据的一致性为:其中n为数据集的个数;

(7)通过数据预处理单元过程中计算引擎驱动调度规则引擎来调用和接收分布式存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,将经过数据质量核检处理单元处理后的数据回传到分布式存储器。

本发明的基于大数据技术的图形化的数据质量评测的装置及方法是通过软件和硬件装置的配合完成,但是并不局限于此,在一定条件下,也可以完全通过软件的方式实现。

尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1