一种用于数据中台数据质量的监控方法及系统与流程

文档序号:35701011发布日期:2023-10-12 00:23阅读:35来源:国知局
一种用于数据中台数据质量的监控方法及系统与流程

本发明属于数据中台、数据质量监控,具体涉及一种用于数据中台数据质量的监控方法及系统。


背景技术:

1、随着社会经济和信息技术的飞速发展,人类日常的生产和生活产生了大量的数据,对大数据进行处理分析已成为人们重要的决策支持和可靠的业务优化手段。然而,大数据处理过程中,各个系统获得的海量数据往往存储在不同的数据库中,导致数据碎片化和数据孤岛现象,使得数据无法高效整合和共享。因此,数据中台应运而生,它是一种集中的数据管理和服务平台,将各个系统的数据进行集中治理,帮助人们打破数据孤岛,消除数据碎片化。

2、然而,数据中台中的数据是海量且冗杂的,其价值密度较低,数据质量往往良莠不齐,导致数据可信度低,从而影响基于数据中台做出的决策的准确性和有效性。目前,人们对数据质量的进行监控的关注点通常在于两端数据是否一致,即数据中台端从数据源端进行数据同步时是否发生错误,从而导致数据不完整或不准确。而事实上,数据质量低不仅仅是因为两端数据不一致,还可能是数据源端获取的数据受到了干扰。在这种情况下,数据从一开始就是错误或不准确的,即使后期做到两端数据完全一致,也只是数据中台同步了这些错误或不准确的数据,其数据质量自然无法提高。因此,需要一种用于数据中台数据质量的监控方法及系统,使数据中台能够判断数据源端获取的数据是否受到了干扰,期望达到直接监控数据源端数据质量的目的。


技术实现思路

1、本发明的目的在于提出一种用于数据中台数据质量的监控方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。

2、为了实现上述目的,根据本发明的一方面,提供一种用于数据中台数据质量的监控方法,所述方法包括以下步骤:

3、s100,配置数据中台的分布式监控网络;

4、s200,通过分布式监控网络持续获取电力数据画像;

5、s300,利用电力数据画像计算画像紊性水平;

6、s400,根据画像紊性水平向数据中台进行预警。

7、进一步地,在步骤s100中,配置数据中台的分布式监控网络的方法是:数据中台的建立采用分布式系统,以分布式系统中的各个服务器分别作为节点,各个节点分别与数据中台连接并进行数据交换或者数据传输;

8、以一个数据采集点作为一个单元,其中数据采集点为用于采集数据中台所需数据的位置或者地点;各个单元均布置有电力分析仪,通过电力分析仪采集监测信息,一个单元采集的监测信息包括电压、电流、功率、电能、频率和功率因数中的两种或两种以上,将单元采集的监测信息的数量记作nsen;把连接于同一个节点的单元数量记作nuni;通过各个节点和单元构建成的信息网络作为分布式监控网络。

9、进一步地,在步骤s200中,通过分布式监控网络持续获取电力数据画像的方法是:设定一个时间区间作为测量间隔t1,t1∈[1,60]秒;各个单元每隔t1获取一次电力信息,其中电力信息包括所有监测信息对应的实时测量值;以同一个监测信息下不同单元的实时测量值为一列,以同一个单元下不同监测信息的实时测量值为一行,构建一个矩阵fmx;以fmx中任意一列的极大值与极小值之差作为该列对应监测信息的实测水平,获取各个监测信息对应的实测水平;

10、设定一个时间区间作为测量间隔t2,t2∈[60,120]分钟;设定一个关于时刻数量的变量tk,其取值范围为tk∈[1,20]个,以一个时刻与其前tk个时刻的实测水平的算术平均值作为该时刻的预测水平;以监测信息在t2时段内各个时刻的实测水平与预测水平分别构建一个序列,分别记作监测序列与预测序列;通过监测序列与预测序列计算获得均方根误差作为该监测信息的测模距离;各个监测数据种的测模距离构建一个序列作为测模序列;以测模序列作为当前时刻的电力数据画像。

11、进一步地,在步骤s300中,利用电力数据画像计算画像紊性水平的方法是:获取当前时刻的电力数据画像中各个元素的平均值efl,如果电力数据画像中一个元素的数值大于efl,则将该元素对应监测信息定义为一阶监测信息;将任意一个一阶监测信息中的各个时刻的预测水平与实测水平进行比较,如果一个时刻下预测水平小于实测水平,则定义该时刻的预测水平为第一紊扰值,

12、以一阶监测信息在t2时间内获得的各个第一紊扰值的均方根值作为该一阶监测信息的偏模距离;计算获得画像紊性偏向比do_pr,其计算方法为:

13、;

14、其中v1和v2均为累加变量,mmdv2为第v2个一阶监测信息的测模距离,dmdv1为第v1个一阶监测信息的偏模距离,以nq代表一阶监测信息的数量;

15、将一阶监测信息的各个第一紊扰值中的中位数与最小值的差值记作下标域值;将一阶监测信息的各个第一紊扰值中的最大值与中位数的差值记作上标域值;计算获得画像紊性水平dol,计算方法为:

16、;

17、其中v3为累加变量,avg_lfdv3为第v3个监测信息的各个第一紊扰值的均值,llvv3和hlvv3分别为第v3个一阶监测数据的下标域值和上标域值。

18、由于画像紊性水平是根据采集的数据结合数学模型处理后计算获得,有效将电力数据画像中的数据质量进行量化,然而在测量间隔t2的取值较大的情况下,利用上述方法所算出的画像紊性水平经常会出现量化程度不足的现象,这是因为这个方法着重强调个体测模距离,对各个时刻下的数据都具有等同的敏感性,无法较为有效地实时放大并且划分各个测模距离之间的差异,导致处理所得的紊性水平出现欠拟合问题,而目前尚未存在可行的技术来弥补这个方法带来的量化不足现象,为消除测模距离之间的差异划分不足对紊性水平出现欠拟合的现象,本发明提出了一个更优选的方案:

19、优选地,在步骤s300中,利用电力数据画像计算画像紊性水平的方法是:在t2时间段内,获取同一个监测信息各个时刻的测模距离构建成序列作为检测序列;对任一个监测信息对应的检测序列,从当前时刻往前搜索首次出现极大值的时刻对应的序号,将序号的数值记作该监测信息的端值区间;获取各个监测信息的端值区间后把其中的最大值记作mvz;在各个检测序列中每隔mvz个元素分割出一个序列作为拟应序列rtm;

20、以j作为拟应序列的序号,则第j个拟应序列记作rtmj,其中j>1;当检测序列中剩余元素的数量无法满足构成拟应序列,则不再构建拟应序列;将检测序列中首个拟应序列作为第一拟应序列rtmfs,其余拟应序列作为第二拟应序列rtmj;以i1作为拟应序列的元素的序号;

21、如果rtmj(i1)≤rtmfs(i1),则将rtmj(i1)标记为对应监测信息的低标指量,否则标记为对应监测信息的高标指量,其中rtmj(i1)和rtmfs(i1)分别代表第一拟应序列和第二拟应序列的第i1个元素;对各个第二拟应序列均进行对比后,将标记的各个指量和高标指量分别构成低标指量序列lsl和高标指量序列hsl;计算得到监测信息的子紊性值dov,其算方法为:

22、;

23、其中k1为累加变量,sum<>为求和函数,rtmfs为第一拟应序列,l_siv(k1)代表低标指量序列中第k1个元素,np为低标指量序列中的元素的总数量;

24、计算得到画像紊性水平dol,计算方法为:

25、;

26、其中k2和k3均为累加变量,exp()为自然常数e为底数的指数函数,dovk2为第k2种监测信息的子紊性值,tavk3为第k3种监测数据下第一拟应序列中元素的算术平均值,lslk3和hslk3分别代表第k3种监测信息的低标指量序列以及高标指量序列,nsen为监测信息的总数量。

27、有益效果:画像紊性水平是通过划分的各个拟应序列之间的对应的测模距离在进行比较筛选而获取的特征数据后计算得出,从而将各个测模距离之间形成规律对比,具有较为稳定可信的总体参考价值,实现对各个测模距离的差异的有效放大,弥补了相关衍生计算值的全局代表性不足的缺点。通过画像紊性水平实现对电力数据画像中监控数据源端数据质量进行评价的目的,为画像中感兴趣区域的数值特征量化形成精数值量化数据,为进一步对数据质量把控做数据支撑,提高数据中台中获得的异样数据质量的评价灵敏性,实现对低质量数据的标记或排除。

28、进一步地,在步骤s400中,所述根据画像紊性水平向数据中台进行预警的方法是:连续获取同一个服务器获得的各个画像紊性水平,将时间段t2内获得的各个画像紊性水平通过异常验算判断当前时刻的画像紊性水平是否异常,其中异常验算的方法为拉依达准则法、狄克逊准则法或者肖维勒准则法中的任一种;如果当前时刻的画像紊性水平异常,则将当前时刻的前t1时间段中获得的所有电力信息做电力信息异常标记,并且向客户端或者管理程序发送数据异常警报,所述数据异常警报包括文本、声音、图像或者表格。

29、优选地,其中,本发明中所有未定义的变量,若未有明确定义,均可为人工设置的阈值。

30、本发明还提供了一种用于数据中台数据质量的监控系统,所述一种用于数据中台数据质量的监控系统包括:处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种用于数据中台数据质量的监控方法中的步骤,所述一种用于数据中台数据质量的监控系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端数据中心等计算设备中,可运行的系统可包括,但不仅限于,处理器、存储器、服务器集群,所述处理器执行所述计算机程序运行在以下系统的单元中:

31、网络配置单元,用于配置数据中台的分布式监控网络;

32、数据采集单元,用于通过分布式监控网络持续获取电力数据画像;

33、质量分析单元,用于利用电力数据画像获得画像紊性水平;

34、监控告警单元,用于根据画像紊性水平向数据中台进行预警。

35、本发明的有益效果为:本发明提供一种用于数据中台数据质量的监控方法及系统,通过画像紊性水平实现对电力数据画像中监控数据源端数据质量进行评价,为画像中感兴趣区域的数值特征量化形成数值量化数据,为进一步对数据质量把控做数据支撑,提高数据中台中获得的异样数据质量的评价灵敏性,实现对低质量数据的排除,再通过持续获得各个节点所管理的各个单元的电力信息,分析其数据采集是否受到干扰,从而使数据中台能够直接监控数据源端数据质量,提高了数据中台所获得的数据的可信度,大大保障了基于数据中台做出的决策的准确性和有效性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1