一种工业设备数据的重要性评估方法与流程

文档序号:16532265发布日期:2019-01-05 10:51阅读:390来源:国知局
一种工业设备数据的重要性评估方法与流程

本发明涉及工业设备数据处理技术领域,尤其涉及一种工业设备数据的重要性评估方法。



背景技术:

在现代社会,数据是工业企业走向信息化的必要基础,然而随着企业设备的不断老化、传感器失效、传输网络的不稳定性等情况的发生,数据质量问题变得日益突出。在对数据质量情况进行评估时,会涉及到多种数据质量评估指标,比如完整性、准确性、一致性、可靠性等,每种指标对数据质量情况都有一定的影响,影响有大有小,想要得到数据质量情况的准确评估结果,首先需要准确的衡量不同指标的重要性对最终数据质量评估结果的影响情况,并将此影响情况以定量化的形式进行表示。

目前对指标重要性的评价,主要依靠邀请行业经验丰富的专家,专家的经验知识对不同指标的重要性进行打分,以此得到各指标的重要性量化结果。通过实体专家基于专家经验进行打分的方式虽然是一种有效的评分方式,但是在数据质量评估过程中,仅靠实体专家基于经验进行指标重要性打分具有较大风险。这种方式的主要缺点有:人力成本投入巨大、经验依赖性强、处理滞后。



技术实现要素:

本发明技术方案所要解决的技术问题是提供一种工业设备数据的重要性评估方法,该方法可以在不邀请实体专家的情况下,实时对待评估数据的重要性进行评估。

为解决上述技术问题,本发明技术方案提供了一种工业设备数据的重要性评估方法,包括如下步骤:

s1:收集工业设备样本数据集,对该数据集的质量评估指标的重要性进行打分,形成样本打分数据评分表;

s2:建立基于样本数据的虚拟打分模型;

s3:根据虚拟打分模型对待评估数据集进行打分;

s4:基于打分结果并结合数据质量评估模型,得到待评估数据集的数据质量评估得分。

可选的,步骤s1具体为:收集若干组不同的样本数据集,记录样本数据集的类型、大小、数据变量个数、数据分析目的,选取若干名专家针对若干组样本数据集的质量评估指标的重要性分别进行打分,形成样本打分数据评分表。

进一步可选的,所述质量评估指标包括准确性、完整性、可靠性及冗余性中的至少一种。

进一步可选的,步骤s2具体为:建立样本数据集与相应样本打分数据之间的若干非线性映射模型,即为若干基于样本数据的虚拟打分模型。

进一步可选的,采用神经网络、支持向量机、随机森林中的至少一种模型进行建模。

可选的,步骤s3具体为:通过若干基于样本数据的虚拟打分模型对待评估数据集进行打分,得到若干打分结果。

可选的,在步骤s4中,所述数据质量评估模型如下:

其中,其中,s表示数据集的数据质量评估得分;n表示虚拟打分模型的个数;rij表示第i个专家对第j个评估指标的打分;wi为第i个专家的权重系数;si为第i个虚拟打分模型的打分结果得到的数据质量评估得分;b2和b1为设定参数。

可选的,还包括步骤s5:重复步骤s3和步骤s4若干次,获得若干组数据质量评估得分,并对每个得分的权重进行迭代调整。

进一步可选的,迭代过程具体为:计算si与sj之间的相关系数,若相关系数达到预设值,将对第i个虚拟打分模型的打分结果进行增权δω,相关系数的计算公式如下:

其中,sj为真实得分;var(si)为si的方差;var(sj)为sj的方差;cov(si,sj)为si与sj的协方差。

进一步可选的,δω∈[1‰,1%]。

可选的,上述待评估数据集为风力发电场数据采集与监视控制系统数据中的数据变量。

进一步可选的,所述变量包括风机号、风机有功功率、无功功率、电压、电流、功率因数、瞬时风速、风轮转速、温度、发电量、发电机转速、桨距角中的至少一种。

与现有技术相比,本发明实现了工业设备数据重要性的实时评估,通过虚拟打分模型的建立,避免了需要邀请实体专家的情况,降低了人力成本;基于专家样本打分数据评分表训练的虚拟打分模型,能够实时有效的计算专家打分结果,并且具有自我迭代调整打分权重的功能,使打分结果更加准确可靠;全天待命、全年无休、实时完成打分任务。

附图说明

图1为本发明实施例1的工业设备数据的重要性评估方法的流程示意图。

具体实施方式

实施例1

如图1所示,本发明实施例的工业设备数据的重要性评估方法,其步骤如下:

s1:收集工业设备样本数据集,对该数据集的质量评估指标的重要性进行打分,形成样本打分数据评分表;

s2:建立基于样本数据的虚拟打分模型;

s3:根据虚拟打分模型对待评估数据集进行打分;

s4:基于打分结果并结合数据质量评估模型,得到待评估数据集的数据质量评估得分;

s5:重复步骤s3和步骤s4若干次,获得若干组数据质量评估得分,对每个得分的权重进行迭代调整。

在本实施例中,步骤s1具体按如下方式操作:首先进行样本数据的初步筛选,收集若干组不同的样本数据集,记录样本数据集的类型、大小、数据变量个数、数据分析目的,选取100名数据挖掘领域内经验丰富的专家,对收集的样本数据集的数据质量评估指标的重要性分别进行打分,形成样本打分数据评分表。专家的人数建议大于十名,以保证后续模型的准确度,在此对人数不作限制,根据实际情况进行确定。其中质量评估指标包括但不限于准确率、完整率、可靠率及不冗余率,在其他实施例中也可选择性的加入回归性、分类性、聚类性等指标。

步骤s2具体为:输入样本数据集,基于步骤s1形成的样本打分数据评分表对样本数据集进行打分并输出样本数据集的打分结果,其实际包括了100组打分结果,再通过神经网络模型建立输入数据与输出数据之间的100个非线性映射模型,即

本实施例的神经网络建立模型的过程如下:首先对神经网络模型进行参数初始化,初始化模型的权值和偏置值,然后将样本数据集输入模型,计算出初步的输出结果,将此输出结果分别与100组打分结果分别进行对比,计算两者间的均方根误差,基于此误差的大小对模型初始参数进行调优,最终使得误差达到设定值,之后对调节好的模型参数进行固定,这样就形成了100个基于样本数据的虚拟打分模型。

当然在其他实施例中,可不用神经网络建立模型,通过支持向量机、随机森林等模型建立样本数据集与相应样本打分数据之间的100个非线性映射模型。

收集到新的数据质量评估任务,进行步骤s3,通过上述建立好的基于样本数据的虚拟打分模型进行后台计算,每个虚拟打分模型均会对数据进行打分,所以计算结束同时得到100个打分结果。

系统获得虚拟打分模型的打分结果后,进行步骤s4,结合数据质量评估模型,最终得到该数据集的数据质量评估得分,数据质量评估模型如下:

其中,其中,s表示数据集的数据质量评估得分;n表示虚拟打分模型的个数;rij表示第i个专家对第j个评估指标的打分;wi为第i个专家的权重系数;si为第i个虚拟打分模型的打分结果得到的数据质量评估得分;b2和b1为设定参数。

在本实施例中,数据质量评估指标包括准确性、完整性、可靠性及冗余性,首先设定待评估的数据集为m×n的矩阵,其中m为数据条数,n为变量个数,数据的总个数为r。

准确率r1对应于准确性指标,包含异常率和不合规率,其计算公式如下:

其中,a1表示数据异常率,a2表示数据不合格率,ho表示数据集中的异常数据个数,hc表示数据集中的不合规数据个数,r表示数据集中的数据总个数,p表示所使用的指标个数。

完整率r2对应于完整性指标,包含缺失值率、缺失变量率以及缺失时间戳率,其计算方法如下:

其中,b1表示缺失值率,b2表示缺失变量率,b3表示缺失时间戳率,hm表示数据集中的缺失数据个数,hv表示数据集中的缺失变量个数,ht表示数据集中的缺失时间戳个数。

可靠率r3,对应于可靠性指标,包含数据超出值域率,其计算方法如下:

r3=1-c1;

其中,c1表示数据超过值域率,hr表示数据集中数据超出值域的个数。

不冗余率r4,对应于冗余性指标,包含数据重复率、变量相关率以及变量无效率,计算方法如下:

其中,ccuv表示数据集中变量u与变量v之间的相关性,ui表示变量u中第i行的值,表示变量u的平均值,σu表示变量u的标准差,vi表示变量v中第i行的值,表示变量v的平均值,σv表示变量v的标准差,d1表示数据重复率,d2表示变量相关率,d3表示变量无效率,hq表示数据集中的重复数据条数,hs表示数据集中的无效变量个数。

为了得到更准确的数据质量评分结果,需要进行步骤s5:对打分结果进行迭代调整。具体地,重复步骤s3和步骤s4,系统进行若干遍的运行,100个虚拟打分模型会得到大量的打分结果,计算si与sj之间的相关系数,若相关系数达到预设值,将对第i个虚拟打分模型的打分结果si进行增权δω,δω∈[1‰,1%],相关系数的计算公式如下:

其中,sj为真实得分;var(si)为si的方差;var(sj)为sj的方差;cov(si,sj)为si与sj的协方差。

系统每运行一段时间(时间根据具体需求进行设定),100个虚拟打分模型的打分权重会进行一次动态调整,力求得到更准确的数据质量评分结果。

实施例2

本实施例对风机运行数据的质量评估指标的重要性进行评估,具体实施流程如下:

(1)收集100组风场scada控制系统中的数据变量(风机号、风机有功功率、无功功率、电压、电流、功率因数、瞬时风速、风轮转速、温度、发电量、发电机转速、桨距角)作为100组样本数据集,并记录样本数据集的类型、大小、数据变量个数、数据分析目的,邀请10个数据挖掘领域内经验丰富的专家,对质量评估指标的重要性进行打分,形成专家样本打分数据评分表。

(2)基于专家样本打分数据评分表,通过神经网络算法建立输入数据与输出数据之间的10个非线性映射模型,以此形成10个基于样本数据的虚拟打分模型。

(3)将风机运行的数据集输入虚拟打分模型,经过计算得到10个虚拟打分模型针对该风机运行数据对各个数据质量评估指标的重要性打分结果。

(4)基于该打分结果,利用数据质量评估模型计算该数据的质量评估得分,数据质量评估模型与实施例1一致。

(5)将数据质量评估得分结果反馈给用户,用户后续对该数据进行数据挖掘与分析,得到数据挖掘与分析的真实得分结果,将此误差数据反馈给虚拟打分模型。

(6)虚拟打分拿到此得分结果,计算真实得分与虚拟打分模型的打分结果之间的相关系数,该真实得分与其中两个专家的相关系数超过了预设值,因此得到了相应两个专家的增权值,将这两个增权值进行记录,待下一次任务中调用计算。

以上详细描述了本发明的具体实施例,应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1