一种流程化处理机制的数据质量提升方法与流程

文档序号:29205268发布日期:2022-03-11 23:46阅读:105来源:国知局
一种流程化处理机制的数据质量提升方法与流程

1.本发明涉及大数据技术领域,尤其涉及一种流程化处理机制的数据质量提升方法。


背景技术:

2.随着泛在电力物联网以及智能电网技术的不断发展,电力行业的数据量规模不断扩大,大数据技术在电力领域得到了更广泛的应用。电力大数据的普及使得泛在电力物联网环境下出现了更多精确、智能的电力服务。
3.同时,大数据环境也带来了一些问题,传统的电力数据维度较低,数据量不大,靠人工或者一些简单的算法便可以实现日常运维及故障排查。而当下海量电力数据规模巨大,维度较高,同时由于电力系统日益复杂,数据采集以及网络传输异常频发,电力感知数据的质量很难保证,同时其中的各种问题难以排查。
4.因此,数据质量的提升对电网的稳定运行及电力物联网数据服务具有重要价值。


技术实现要素:

5.本发明的目的在于克服现有技术存在的以上问题,提供一种流程化处理机制的数据质量提升方法。
6.为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:一种流程化处理机制的数据质量提升方法,包括以下步骤:步骤1、制定数据质量提升目标;步骤2、根据提升目标获取数据;步骤3、对获取的数据进行预处理,所述预处理包括:数据集成、识别异常数据;步骤4、修正异常数据;步骤41、判断数据在时间上是否具有连续性,若具有连续性,即为时间连续数据,跳转至步骤42,若不具有连续性,即为时间随机数据,跳转至步骤43;步骤42,判断时间连续数据是否有规律,若有规律,即为周期性数据,则利用时间相关性对异常数据进行修正,若无规律,即为非周期性数据,则利用异常数据同组的正常数据对异常数据进行修正;步骤43,判断时间随机数据的异常数据规模是否超过预设阈值,若超过预设阈值,则直接舍弃该组数据,若不超过预设阈值,则将异常数据置零处理。
7.其中,所述数据集成是将从同一数据源获取的同一字段的数据作为一个数据组合,然后将相同字段的数据组合集成为一个数据集。
8.其中,所述异常数据包括错误数据、缺失数据、冗余数据。
9.其中,所述数据修正包括采用交叉验证法对所述错误数据和缺失数据进行修正、根据数据的相似性去除冗余数据。
10.其中,所述交叉验证法将异常数据所在数据组合分割成k个子样本集,其中一个子
样本集为验证数据集,其它k-1个子样本集为训练数据集,采用拓扑特征分析或邻近特征分析,将所述验证数据集和所述训练数据集交叉验证k次,将k次的验证结果进行平均得到修正数据。
11.其中,所述采用拓扑特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的特征值,所述特征值包括均值、中位数或差值;根据所述关注变量的均值、中位数或差值,对所述验证数据集和所述训练数据集交叉验证。
12.其中,所述采用邻近特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的邻近数据的均值;根据所述关注变量的邻近数据的均值,对所述验证数据集和所述训练数据集交叉验证。
13.本发明的有益效果是:通过制定数据质量提升目标,将获取的数据按照设定的数据质量提升流程对获取的数据进行流程化处理,能够提高数据质量提升的效率和客观性,数据质量的提升有助于电网的稳定运行及电力物联网数据服务。
附图说明
14.此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是本发明的数据质量提升方法的流程示意图。
具体实施方式
15.下面将参考附图并结合实施例,来详细说明本发明。
16.如图1所示,一种流程化处理机制的数据质量提升方法,包括以下步骤:步骤1、制定数据质量提升目标;步骤2、根据提升目标获取数据;步骤3、对获取的数据进行预处理,所述预处理包括:数据集成、识别异常数据;步骤4、修正异常数据;步骤41、判断数据在时间上是否具有连续性,若具有连续性,即为时间连续数据,跳转至步骤42,若不具有连续性,即为时间随机数据,跳转至步骤43;步骤42,判断时间连续数据是否有规律,若有规律,即为周期性数据,则利用时间相关性对异常数据进行修正,若无规律,即为非周期性数据,则利用异常数据同组的正常数据对异常数据进行修正;步骤43,判断时间随机数据的异常数据规模是否超过预设阈值,若超过预设阈值,则直接舍弃该组数据,若不超过预设阈值,则将异常数据置零处理。
17.其中,所述数据集成是将从同一数据源获取的同一字段的数据作为一个数据组合,然后将相同字段的数据组合集成为一个数据集。
18.其中,所述异常数据包括错误数据、缺失数据、冗余数据。
19.其中,所述数据修正包括采用交叉验证法对所述错误数据和缺失数据进行修正、根据数据的相似性去除冗余数据。
20.交叉验证法将异常数据所在数据组合分割成k个子样本集,其中一个子样本集为验证数据集,其它k-1个子样本集为训练数据集,采用拓扑特征分析或邻近特征分析,将验证数据集和训练数据集交叉验证k次,将k次的验证结果进行平均得到修正数据。
21.采用拓扑特征分析,将验证数据集和所述训练数据集交叉验证,包括:确定验证数据集或所述训练数据集的关注变量;计算关注变量的特征值,特征值包括均值、中位数或差值;根据关注变量的均值、中位数或差值,对验证数据集和训练数据集交叉验证。
22.采用邻近特征分析,将验证数据集和所述训练数据集交叉验证,包括:确定验证数据集或训练数据集的关注变量;计算关注变量的邻近数据的均值;根据关注变量的邻近数据的均值,对验证数据集和训练数据集交叉验证。
23.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
24.以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。


技术特征:
1.一种流程化处理机制的数据质量提升方法,其特征在于,包括以下步骤:步骤1、制定数据质量提升目标;步骤2、根据提升目标获取数据;步骤3、对获取的数据进行预处理,所述预处理包括:数据集成、识别异常数据;步骤4、修正异常数据;步骤41、判断数据在时间上是否具有连续性,若具有连续性,即为时间连续数据,跳转至步骤42,若不具有连续性,即为时间随机数据,跳转至步骤43;步骤42,判断时间连续数据是否有规律,若有规律,即为周期性数据,则利用时间相关性对异常数据进行修正,若无规律,即为非周期性数据,则利用异常数据同组的正常数据对异常数据进行修正;步骤43,判断时间随机数据的异常数据规模是否超过预设阈值,若超过预设阈值,则直接舍弃该组数据,若不超过预设阈值,则将异常数据置零处理。2.根据权利要求1所述的流程化处理机制的数据质量提升方法,其特征在于:所述数据集成是将从同一数据源获取的同一字段的数据作为一个数据组合,然后将相同字段的数据组合集成为一个数据集。3.根据权利要求1所述的流程化处理机制的数据质量提升方法,其特征在于:所述异常数据包括错误数据、缺失数据、冗余数据。4.根据权利要求3所述的流程化处理机制的数据质量提升方法,其特征在于:所述数据修正包括采用交叉验证法对所述错误数据和缺失数据进行修正、根据数据的相似性去除冗余数据。5.根据权利要求4所述的流程化处理机制的数据质量提升方法,其特征在于:所述交叉验证法将异常数据所在数据组合分割成k个子样本集,其中一个子样本集为验证数据集,其它k-1个子样本集为训练数据集,采用拓扑特征分析或邻近特征分析,将所述验证数据集和所述训练数据集交叉验证k次,将k次的验证结果进行平均得到修正数据。6.根据权利要求5所述的流程化处理机制的数据质量提升方法,其特征在于:所述采用拓扑特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的特征值,所述特征值包括均值、中位数或差值;根据所述关注变量的均值、中位数或差值,对所述验证数据集和所述训练数据集交叉验证。7.根据权利要求5所述的流程化处理机制的数据质量提升方法,其特征在于:所述采用邻近特征分析,将所述验证数据集和所述训练数据集交叉验证,包括:确定所述验证数据集或所述训练数据集的关注变量;计算所述关注变量的邻近数据的均值;根据所述关注变量的邻近数据的均值,对所述验证数据集和所述训练数据集交叉验证。

技术总结
本发明涉及一种流程化处理机制的数据质量提升方法,包括以下步骤:步骤1、制定数据质量提升目标;步骤2、根据提升目标获取数据;步骤3、对获取的数据进行预处理,所述预处理包括:数据集成、识别异常数据;步骤4、修正异常数据。本发明的有益效果是:通过制定数据质量提升目标,将获取的数据按照设定的数据质量提升流程对获取的数据进行流程化处理,能够提高数据质量提升的效率和客观性,数据质量的提升有助于电网的稳定运行及电力物联网数据服务。助于电网的稳定运行及电力物联网数据服务。助于电网的稳定运行及电力物联网数据服务。


技术研发人员:陈凤超 吴钟飞 黎鸣 梅傲琪 何毅鹏 赵俊炜 李祺威 周立德 饶欢 张锐 徐睿烽
受保护的技术使用者:广东电网有限责任公司东莞供电局
技术研发日:2020.09.10
技术公布日:2022/3/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1