电能表检定数据上链数据规划方法、装置和存储介质与流程

文档序号:36176437发布日期:2023-11-28 23:23阅读:48来源:国知局
电能表检定数据上链数据规划方法与流程

本发明属于电能表检定数据上链数据规划,具体涉及电能表检定数据上链数据规划方法、装置和存储介质。


背景技术:

1、区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法;区块链是比特币等数字虚拟货币的底层技术,通过去中心化的数据记录,由全网所有的节点共同维护数据,实现安全地存储数据,具有不可伪造性、不可篡改性、可追溯性、匿名性等特点;区块链的去中心化技术方案是以区块为基本单位来管理和存储数据,区块由两个部分的数据结构组成,分别为区块头部和梅克尔树结构;区块的头部包括矿工可以修改的临时随机数、前序区块的哈希值、时间戳、挖矿难度、交易树的树根等数据;区块的另一部分是梅克尔树,用来存储有效交易,当包含交易数据信息的区块有序链接时,就形成了区块链;随着中国互联网基础设施加快建设和产业变革的加速,区块链技术已经被广泛深入到了金融、教育、交通、房产、娱乐、医疗等方方面面,以提供区块链场景应用服务为主的企业也如雨后春笋般冒出,在计量数据管理方面,通过计量标准体系的“区块链+”实现电表表等检定数据的可追溯性、真实性,业务的规范性和体系的合法性,提升检测的规范化、自动化、智能化水平,为公司计量设备的质量管控提供技术支撑;但区块链能够解决链上数据的真实性与安全性问题,而不能解决数据上链之前的准确性问题,因此,提供一种电能表检定数据上链数据规划方法,对电能表检定数据进行上链前的处理是很有必要的。


技术实现思路

1、本发明的目的是为了克服现有技术的不足,而提供一种电能表检定数据上链数据规划方法、装置和存储介质,以对电能表检定数据进行上链前的处理,通过对电能表检定数据在上链前对数据进行清洗、降维、融合,提高数据可用性,为上链存储提供数据支撑。

2、本发明的目的是这样实现的:电能表检定数据上链数据规划方法,包括:

3、在上链前对电能表检定数据进行数据清洗;

4、在上链前对清洗后的电能表检定数据进行数据降维;

5、在上链前对降维后的电能表检定数据进行数据融合。

6、在上链前对电能表检定数据进行数据清洗包括:按照一定的规则将电能表检定数据中的脏数据过滤,并确认过滤掉还是由业务单位进行修正;

7、其中所述脏数据包括有残缺数据、错误数据和重复数据;

8、残缺数据:是需要的信息缺失,要求在规定的时间内补全,补全后才写入数据仓库;

9、错误数据:是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,需要业务系统数据库用sql的方式挑出来,修正之后再抽取;

10、重复数据:是重复记录的数据,对于重复数据,需要将重复数据记录的所有字段导出来,确认整理并去除重复数据。

11、所述按照一定的规则将电能表检定数据中的脏数据过滤包括:基于电能表检定数据内容,按照检定数据规则,筛选出不符合预期的残缺数据、错误数据和重复数据;

12、通过配置检定数据采集装置的可编程功能节点,针对检定数据特色,结合数据清洗技术,进行脏数据清洗,过滤不符合要求数据,将过滤的结果汇总管理,确认是否过滤掉还是由数据业务来源方修正之后再进行抽取;

13、数据清洗包括重复记录清洗和噪声数据消除两部分;

14、(1)重复记录清洗

15、为了从数据集中检测并消除重复记录,首要的问题就是如何判断两条记录是否是重复的;这就需要比较记录的各对应属性,计算其相似度,再根据属性的权重,进行加权平均后得到记录的相似度,如果两记录相似度超过了某一阈值,则认为两条记录是匹配的,否则,认为是指向不同实体的记录;

16、采用基本近邻排序算法对重复数据进行检测,包括:

17、通过抽取数据集中相关属性的值为每个实例生成一个关键字;

18、按上步生成的关键字为数据集中的数据排序;使潜在的重复记录调整到一个邻近的区域内,对于特定的记录将进行记录匹配的对象限制在一定的范围之内;

19、在已排序的数据集上依次移动一个固定大小的窗口,数据集中每条记录仅与窗口内的记录进行比较;如果窗口的大小是包含m个记录,则每条新进入窗口的记录都要与先前进入窗口的m条记录进行比较,来检测重复记录,然后最先进入窗口内的记录滑出窗,最后一条记录的下一条记录移入窗口;

20、(2)消除噪声数据

21、采用分箱方法消除噪声数据;分箱方法通过参考周围实例的值来平滑需要处理的数据值;将需要处理的数据分布到一些箱中,采用等深的分箱法将数据划分到相同深度的不同箱内,然后对这些值进行不同的平滑,具体方法包括按箱平均值平滑和按箱边界平滑:

22、按箱平均值平滑:把箱中的所有值平均,然后使用箱的平均值替代箱中所有数据;

23、按箱边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的箱边界值替换。

24、所述在上链前对清洗后的电能表检定数据进行数据降维包括:

25、数据降维是一个过程,要保证在降低数据集维度的过程中,数据不丢失、不失真,降维后的数据依然要包含数据的原有信息;对电能表检定数据进行非可逆的数据特征提取,对原始数据的标签信息进行匿名化处理,降低数据中包含的隐私信息,然后对数据进行降维,具体为:对于数据特征中的线性特征,采用主成分分析降维方法,找到数据中最主要的元素和结构,去除噪声和冗余,对原有的复杂数据进行降维;对于数据特征中的非线性特征,采用基于自编码的数据降维方法;

26、主成分分析算法(pca)

27、对于数据特征中的线性特征,采用pca降维方法,目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性;

28、设n维向量w为目标子空间的一个坐标轴方向(称为映射向量),最大化数据映射后的方差,有:

29、

30、其中m是数据实例的个数,xi是数据实例i的向量表达,是所有数据实例的平均向量,定义w为包含所有映射向量为列向量的矩阵,经过线性代数变换,得到如下优化目标函数:

31、

32、其中tr表示矩阵的迹,a是数据协方差矩阵。

33、最优的w由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成,这些特征向量形成一组正交基并且最好地保留了数据中的信息;

34、pca需要计算其特征值和正交归一化的特征向量,这两个向量在实际应用中都会非常大,直接计算非常困难,通常会用svd分解来解决这个问题;

35、svd即singularvaluedecomposition,它是处理维数很高的矩阵经常用的方法,通过svd分解可以有效的将很高维的矩阵分解到低维空间里面来进行求解;通过svd分解可以很容易的求解出高维矩阵的特征值和其相应的特征向量;

36、pca降维处理的具体流程如下:

37、①首先计算特征平均值构建特征数据的协方差矩阵;

38、②再通过svd分解求解该协方差矩阵的特征值以及特征向量;

39、③求出来的特征值依次从大到小的排列以便于选出主成分的特征值;

40、④当选出了主成分的特征值后,这些特征值所对应的特征向量就构成了降维后的子空间。

41、基于自编码的数据降维方法

42、对于数据特征中的非线性特征,采用自编码降维方法,自编码器是一种无监督学习算法,其输出能够实现对输入数据的复现,自编码器是一种数据压缩算法,它使用编码器实现数据压缩,使用解码器实现解压缩,编码阶段将高维数据映射成低维数据,减少数据量;而解码阶段正好相反,从而实现对输入数据的复现;自编码器通过对输入数据进行压缩,将其映射到低维空间中,从而避免了“维度灾难”;在解码阶段实现对输入数据的还原,从而实现非监督的特征学习;

43、自编码器算法流程:

44、(a)对于给定的无标签数据,使用无监督学习方法学习特征;对于无类标签的数据,通过编码器将输入数据进行编码,然后使用解码器得到一个输出信息,如果输出近似等于输入数据,则可以通过调整编码和解码阶段的参数,使得重构误差最小;

45、(b)将编码器产生的特征作为输入,逐层训练下面层的网络;由于第一个训练层得到的编码可以看作是输入数据的复现,所以下面层的训练过程类似第一层。

46、所述在上链前对降维后的电能表检定数据进行数据融合包括:

47、基于特征提取技术,针对非可逆的数据特征提取到的数据,采用自适应数据融合算法在神经元数据融合系统上融合数据,获取尽可能大的信息量,而后采用基于多元概率推理模型对数据进行学习,形成高价值的信息库支撑,具体包括:

48、多源数据有效融合

49、针对非可逆的数据特征提取到的数据,采用自适应数据融合算法在神经元数据融合系统上融合数据,用涵盖最大信息量的特征值进行特征提取;

50、设有n个训练数据对某一对象进行测量,考虑某被观测对象产生k个模式,每个模式被相互独立的n个训练数据同时检测后产生n组数据,对应的每一个训练数据k时刻的实际输出xi(k),可得到数据集{xi(k),i≤n,k≤n},作为线性神经元的输入;y(k)为期望输出,作为学习算法的输入;输入到融合系统后产生n个输出模式{y(k),k≤n};

51、对线性测量系统而言,输入与输出之间的关系可表示成矩阵形式如下:

52、xw=y

53、利用统计理论,根据各个训练数据x(k)在总均方误差最小这一最优条件下,以自适应的方式寻找其相应的最优权值wi,保证融合后的估计值x'达到最优,最终将方均误差最小的数据融合估计值x'作为融合系统的目标样本,解决了该融合系统的标定问题;

54、设n个训练数据的方差分别为σ12,σ22,…,σn2,所要估计的真值为x,各训练数据的测量值分别为x1,x2,…,xn,它们彼此相互独立,并且是x的无偏估计,各训练数据的权值分别为w1,w2,…,wn,则融合后的x'值和权值满足以下两式:

55、

56、

57、根据多元函数求值理论,总均方误差最小时对应的权值为:

58、

59、此时所对应的最小方均误差为:

60、

61、各训练数据方差的求取

62、任意两个不同的训练数据p、q,其测量值分别为xp、xq,则训练数据p的方差为:

63、

64、rpq、rpq为xp的自相关系数和xp、xq的互相关系数,可由其时间域估计值得出;设训练数据个数为k,则:

65、

66、同理:

67、

68、多特征概率推理

69、通过使用内类散布矩阵作为每个类的协方差矩阵,然后运用贝叶斯规则作为分类标准,在最小贝叶斯错误率的意义上进行最优分类;采用如下形式在特征空间里计算协方差矩阵计算如下:

70、

71、其中,是向量wd中第i个特征元素的方差;是第t个类别的第j个样本中的第i个特征元素出现的频率;mti是第t个类别的q个样本里第i个元素出现频率的均值;

72、通过如下式子得到概率密度分布函数:

73、

74、利用贝叶斯定理可得到基分类器结果(设先验概率相等):

75、

76、其中,rt∈{r1,r2,…,rp},将上式归一化后得到基分类器所给出的测试文本属于第t个类别at∈{a1,a2,…,ap}的后验概率为:

77、

78、满足下式:

79、

80、mprm算法的详细流程如下所示:

81、输入s:训练样本集;x:某一测试样本;c:基分类器算法;l:基分类器数量;n:子空间选取粒度;

82、输出:测试样本x所属类别,x∈{a1,a2,…,ap};

83、step1由mprm随机采样法从s中抽取l组粒度为n的训练子集组成l个子空间

84、step2基分类器(1≤k≤l)分别训练每个训练子集,得到各基分类器模型{h1,h2,…,hl};

85、step3应用构造的l个基分类器模型分别对x进行分类识别;

86、step4统计各基分类器对测试样本的概率决策值;

87、step5根据概率求和法的融合策略得到x所属的类别结果:

88、

89、

90、其中,result(x)表示待测文本的最终识别结果;表示集成后测试文本属于第t个类别的at的隶属度;表示第k个基分类器所得到的测试文本属于第t个类别at的后验概率。

91、电能表检定数据上链数据规划的装置,包括:

92、数据清洗模块:用于在上链前对电能表检定数据进行数据清洗;

93、数据降维模块:用于在上链前对清洗后的电能表检定数据进行数据降维;

94、数据融合模块:用于在上链前对降维后的电能表检定数据进行数据融合。

95、所述数据清洗模块包括:

96、脏数据过滤单元,所述脏数据过滤单元用于按照一定的规则将电能表检定数据中的脏数据过滤,并确认过滤掉还是由业务单位进行修正。

97、所述数据降维模块包括:

98、线性特征降维单元,所述线性特征降维单元用于对数据特征中的线性特征,采用主成分分析降维方法,找到数据中最主要的元素和结构,去除噪声和冗余,对原有的复杂数据进行降维;

99、非线性特征降维单元,所述非线性特征降维单元用于对数据特征中的非线性特征,采用基于自编码的数据降维方法进行降维。

100、所述数据融合模块包括:

101、多源数据融合单元,所述多源数据融合单元用于针对非可逆的数据特征提取到的数据,采用自适应数据融合算法在神经元数据融合系统上融合数据,以涵盖最大信息量的特征值进行特征提取;

102、多特征概率推理单元,所述多特征概率推理单元用于通过使用内类散布矩阵作为每个类的协方差矩阵,运用贝叶斯规则作为分类标准,在最小贝叶斯错误率的意义上进行最优分类。

103、一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现本发明电能表检定数据上链数据规划方法中的各步骤。

104、本发明的有益效果:本发明的电能表检定数据上链数据规划方法,通过步骤1、在上链前对电能表检定数据进行数据清洗;步骤2、在上链前对清洗后的电能表检定数据进行数据降维;步骤3、在上链前对降维后的电能表检定数据进行数据融合,以对电能表检定数据进行上链前的处理,通过对电能表检定数据在上链前对数据进行清洗、降维、融合,提高数据可用性,为上链存储提供数据支撑。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1