一种基于电力物联网平台的数据质量检测方法与流程

文档序号:20113050发布日期:2020-03-17 19:25阅读:658来源:国知局

本发明涉及数据质量检测方法技术领域,尤其涉及一种基于电力物联网平台的数据质量检测方法。



背景技术:

当前国家电网公司信息内网建成了覆盖公司总部及27家省(市)公司的两级全业务统一数据中心分析域,初步具备了数据接入、数据存储计算、数据分析应用相关能力,实现公司核心业务系统数据的接入及整合汇聚,支撑了各专业数据分析类应用的构建,全业务统一数据中心已成为国家电网公司泛在电力物联网平台的重要组成部分。

全业务统一数据中心分析域在数据分析应用中发挥了一定的作用,但从应用角度来看仍存在技术门槛高、数据难读懂、数据获取难等问题,具体如下:

技术组件多样,应用难度大。分析域主要包括数据接入、数据存储、数据计算等方面的多个技术组件,涉及厂商多,组件之间技术集成复杂,对专业能力要求高,应用难度大。

找数据困难,数据应用门槛高。一是当前分析域未形成完整的数据资源目录,数据资源检索困难;二是分析域目前尚未构建数据服务,数据应用复用性差,增加数据应用难度。

数据模型管控机制待完善。当前全域数据模型尚不成熟,需要在应用过程中快速持续迭代;另外,数据模型管控基于人工线下流程处理,效率低,响应慢。

因此,一套成熟完整的电力物联网平台的数据质量检测方法的设计与实现,具有现实意义。



技术实现要素:

为了解决现有技术中存在的问题,本发明提出了一种基于电力物联网平台的数据质量检测方法,以便通过发现量测数据异常点,提升泛在电力物联网平台接入数据质量监测能力,提升泛在电力物联网平台数据质量,从而释放全业务统一数据中心的数据价值,加快“三型两网”型企业建设步伐。

为了实现上述目的,本发明提出了一种基于电力物联网平台的数据质量检测方法,包括以下步骤:

步骤1、数据采集,其包括以下步骤:

步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据;

步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测;

步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库;

步骤2、数据分析,其包括以下步骤:

步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模;

步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算;

步骤203、将离线数据借助hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求;

步骤3、数据异常检测,其包括以下步骤:

步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器;

步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值;

步骤303、引入集成学习方法,构建多颗隔离树;

步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据,当深度值的大小超过预设的最大值,则为异常,反之,数据是正常;

步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。

优选的是,在所述步骤102中,通过消息队列、数据复制或etl形式,将采集到的数据按照预定频度传送至数据存储层。

本发明的该方案的有益效果在于上述基于电力物联网平台的数据质量检测方法能够通过发现量测数据异常点,提升泛在电力物联网平台接入数据质量监测能力,提升泛在电力物联网平台数据质量,从而释放全业务统一数据中心的数据价值,加快“三型两网”型企业建设步伐。

具体实施方式

下面对本发明的具体实施方式作进一步的说明。

本发明所涉及的基于电力物联网平台的数据质量检测方法包括以下步骤:

步骤1、数据采集,其包括以下步骤:

步骤101、通过电力物联网平台以及电力物联管理中心的设备量测采集数据。采集的数据类型包括结构化数据、非结构化数据、采集量测类数据以及e格式文件和特定规约的消息数据,例如一些特殊部门或者某项业务需要收集某一个电力系统指标数据的时候,我们就需要对此类需求进行特定规约收集。

步骤102、将采集到的数据按照预定频度传送至数据存储层,并将各类数据落地到电力物联网平台,再根据相关需求对数据进行加工计算,以方便后续数据质量检测。其中可以通过消息队列、数据复制、etl等形式,将采集到的数据按照一定频度传送至数据存储层。其中根据相关需求对数据进行加工计算,例如是根据相关业务部门或者电力检测对于某一项业务数据的需要进行筛选判定,此时,对数据进行一些阈值筛选和数据源转换计算,以方便后续数据质量检测。

步骤103、对数据进行筛选、过滤、汇总、整合后,将数据分布在文件系统、列式数据库和关系型数据库。

步骤2、数据分析,其包括以下步骤:

步骤201、根据数据的类型、采集时间、数据项、数据间逻辑关系,对量测类实时数据进行建模。随着操作时间的增加,量测数据异常的概率增加。假设已知n个量测数据异常类型,并且有第i个量测异常类型的数据集xi,还有一个正常数据的量测数据集xnormal。然后可以获得一个训练量测数据集x={x1,x2,…,xn,xnormal},normal=n+1。对于任何量测数据集,它可能包含新的未知数据异常x'new,x'={x'1,…,x'n,x'normal,x'new},new=n+2。上述方法针对量测数据,分类识别出新出现的量测数据异常x'new。

步骤202、分层分步实时分析数据的异常情况、关联关系、以及分类分层和预测,根据需要关联的离线数据选取外存技术,利用缓存或外存进行状态数据存储及更新,分层进行汇聚及逻辑计算。

步骤203、将离线数据借助hbase及外部缓存存储与实时流数据形成实时明细及聚合层数据,通过实时同步组件,提供前端实时数据服务,在实时分析流程的各个环节中分析实时数据质量监测及改进的需求。

步骤3、数据异常检测,其包括以下步骤:

步骤301、在实时分析流程的各环节中,使用基于隔离森林集成学习算法对实时流数据进行异常检测,输入历史量测数据构建初始探测器,获得初始的异常检测器。

步骤302、提取历史数据离线构建时间序列趋势及周期性特征,选择分割属性和对应的分割值构建隔离树,确定树构造的停止条件及深度预设最大值。

步骤303、引入集成学习方法,构建多颗隔离树。由于随机特性,仅仅构建一颗隔离树并不能良好的进行异常判断,故引入集成学习方法,构建多颗隔离树。

步骤304、构建滑动时间窗口模型,利用指数平滑算法处理改进数据丢失点和噪声,同时对量测实时流数据计算平均分割深度,根据深度值确定是否是异常数据。当深度值的大小超过预设的最大值,则为异常,反之,数据是正常。

步骤305、按时间分界点初始化历史数据,同时修改实时数据的消费偏移量,保证批处理和实时处理数据的无缝衔接。

本发明所涉及的基于电力物联网平台的数据质量检测方法具有以下优点:

(1)提升电力物联网平台数据质量:随着国家电网业务规模的不断扩大,全业务统一数据中心分析域在数据分析应用中发挥了一定的作用,但从应用角度来看仍存在技术门槛高、数据难读懂、数据获取难等问题。通过分析泛在电力物联网平台接入实时数据的类型、采集时间、数据项、数据间逻辑关系等,对量测类实时数据进行建模,实时进行数据质量检测,从而进一步提升物联网平台数据质量。

(2)提升电力物联网平台数据应用能力:当前国家电网业务规模日趋庞大,数据规模也日益增多。数据应用能力包括数据分析和数据服务两部分。数据分析是为分析模型和分析算法提供管理,为数据报表与可视化展示提供工具集。通过本方法,可以有效提升数据应用能力,更好的挖掘出数据的价值。

(3)提升数据管理能力以及平台的数据处理效率:随着互联网的快速发展,每时每分都在产生数据,大数据时代,如何更好的利用好业务平台所产生的数据,是极其重要的也是必须重视的。数据管理能力包括数据资源管理和运营管理两部分。本方法既能做到加强数据管理能力,同时还能进一步提高系统的效率和资源的有效性。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1