一种数据增广方法及电子设备与流程

文档序号:20190554发布日期:2020-03-27 19:37阅读:173来源:国知局
一种数据增广方法及电子设备与流程

本发明涉及工业信息技术领域,尤其涉及一种数据增广方法及电子设备。



背景技术:

随着现代工业自动化水平的日益提高,现代工业系统规模不断扩大,系统各部分之间协作的复杂性不断增加,一旦工业系统中某部分发生故障,则整个系统无法正常工作,会造成巨大的停机损失。

工业机械设备作为长期运转设备,其运行寿命一般行业规定使用不少于20年,连续运转不少于三年,故在其出厂合格的情况下,设备在实际场景运转中很难出现大量的工况发生,导致在设备实际运转过程中带有工况标签的数据不易获取。很多工业机械设备的工况诊断模型都是在这种工况小样本的状态下进行训练的,从而导致因过量的正常数据使得模型在分类时候大部分会判断为正常,从而使得模型漏报率增加。

而且现有技术中缺乏对于小样本的一维工业机械设备信号数据进行数据增广的方法,而只有保证一定量的数据,才能有效提高工业机械设备的工况诊断模型准确度。

因此如何对于工业机械信号数据进行数据增广已经成为业界亟待解决的问题。



技术实现要素:

本发明实施例提供一种数据增广方法及电子设备,用以解决上述背景技术中提出的技术问题,或至少部分解决上述背景技术中提出的技术问题。

第一方面,本发明实施例提供一种数据增广方法,包括:

获取工况标签数据,并制造与工况标签数据尺寸一致的任意数量随机数据作为增广数据的初始化数据;

将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型,得到增广工况数据;

其中,所述训练好的数据增广模型是通过真实标签正常数据和虚假标签的初始化样本增广数据及训练得到的。

更具体的,在所述获取工况标签数据的步骤之前,所述方法还包括:

将工业原始数据拆分为真实标签非工况数据和工况标签数据;

清洗所述真实标签非工况数据中的异常点,得到真实标签正常数据。

更具体的,所述训练好的工况数据增广模型包括训练好的生成器和训练好的判别器。

更具体的,在所述将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型的步骤之前,所述方法还包括:

获取真实标签正常数据,并制造任意数量的与真实标签正常数据尺寸一致的任意数量随机数据的初始化样本增广数据;

将所述初始化样本增广数据输入数据增广模型中的生成器,得到带虚假标签的样本增广假性数据,将所述带虚假标签的样本增广假性数据作为初始化样本增广数据,再次输入数据增广模型中的生成器进行训练,直至生成器的损失函数达到稳定收敛,得到训练好的生成器;

将带虚假标签的样本增广假性数据和真实标签正常数据混合输入数据增广模型中的判别器,当判别器的损失函数达到稳定收敛,得到训练好的判别器;

根据所述训练好的生成器和训练好的判别器得到训练好的数据增广模型。

更具体的,在所述将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型的步骤之前,所述方法还包括:

获取真实标签正常数据,并制造任意数量的与真实标签正常数据尺寸一致的任意数量随机数据的初始化样本增广数据;

将所述初始化样本增广数据输入数据增广模型中的生成器,得到带虚假标签的样本增广假性数据,将所述带虚假标签的样本增广假性数据作为初始化样本增广数据,再次输入数据增广模型中的生成器进行训练,直至生成器的损失函数达到稳定收敛,得到训练好的生成器;

将带虚假标签的样本增广假性数据和真实标签正常数据混合输入数据增广模型中的判别器,当判别器的损失函数达到稳定收敛,得到训练好的判别器;

根据所述训练好的生成器和训练好的判别器得到训练好的数据增广模型。

更具体的,所述数据增广模型中的生成器由卷积神经网络编码器和卷积神经网络解码器结合构成。

更具体的,所述生成器的损失函数具体为:

根据卷积神经网络编码器分别对真实标签正常数据和初始化样本增广数据进行运算,提取真实标签正常数据特征向量和初始增广特征向量,根据所述真实标签正常数据特征向量和初始增广特征向量的均方误差得到第一损失函数;

根据所述卷积神经网络解码对所述初始增广特征向量进行解码,得到样本增广假性数据,根据所述样本增广假性数据和真实标签正常数据的均方误差得到第二损失函数;

根据样本增广假性数据的快速傅里叶函数变换结果和真实标签正常数据的快速傅里叶变换结果间的余弦距离得到第三损失函数;

分别对所述第一损失函数、第二损失函数和第三损失函数进行赋权,得到生成器的损失函数。

更具体的,所述生成器的损失函数具体为:

根据卷积神经网络编码器分别对真实标签正常数据和初始化样本增广数据进行运算,提取真实标签正常数据特征向量和初始增广特征向量,根据所述真实标签正常数据特征向量和初始增广特征向量的均方误差得到第一损失函数;

根据所述卷积神经网络解码对所述初始增广特征向量进行解码,得到样本增广假性数据,根据所述样本增广假性数据和真实标签正常数据的均方误差得到第二损失函数;

根据样本增广假性数据的快速傅里叶函数变换结果和真实标签正常数据的快速傅里叶变换结果间的余弦距离得到第三损失函数;

分别对所述第一损失函数、第二损失函数和第三损失函数进行赋权,得到生成器的损失函数。

第二方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述数据增广方法的步骤。

第三方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述数据增广方法的步骤。

本发明实施例提供的一种数据增广方法及电子设备,通过从设备大样本数据出发,构建一个可以增广出于设备大样本标签数据相似的数据增广模型,再针对小样本工况标签数据,对数据增广模型进行调整,从而可以增广出小样本工况标签数据,使得小样本增广数据的分布空间更接近大样本数据的分布广度,保证了数据增广模型可以合理的对小样本的分布广度进行合理扩张,保障了处在小样本分布边缘的增广数据可信度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例中所描述的数据增广方法流程示意图;

图2为本发明一实施例所描述的数据增广装置结构示意图;

图3为本发明一实施例所描述的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明一实施例中所描述的数据增广方法流程示意图,如图1所示,包括:

步骤s1,获取工况标签数据,并制造与工况标签数据尺寸一致的任意数量随机数据作为增广数据的初始化数据;

步骤s2,将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型,得到增广工况数据;

其中,所述训练好的数据增广模型是通过真实标签正常数据和虚假标签的初始化样本增广数据及训练得到的。

本发明实施例中所描述的工况标签数据是指工业机械设备中的故障信息,且该故障信息中还包含了工况标签。

本发明实施例中所描述的增广数据的初始化数据是指随机生成的数据,其数据尺寸与工况标签数据一致,作为增广数据的初始化数据。

本发明实施例中所描述的训练好的工况数据增广模型应用于现代工业机械领域,针对于工业机械设备的自动学习模型的工况样本较少的问题,可以将工况标签数据输入训练好的工况数据增广模型,对工况标签数据进行增广,得到增广工况数据。

本发明实施例中所描述的增广工况数据是扩充后的多个工况数据,在得到增广工况数据可以有效提升针对于工业机械设备的自动学习模型准确度。

本发明实施例中描述的训练好的工况数据增广模型是通过真实标签正常数据和虚假标签的初始化样本增广数据及训练得到的。

此处所描述的真实标签正常数据是带有真实数据标签的大数据量数据,本发明实施例中所描述的真实数据标签代表不是随机生成的数据,而是实际数据中得到的。本发明实施例中所描述的虚假标签指的是通过数据扩广模型中的生成器随机生成的数据,

首先,通过真实标签正常数据和与真实标签正常数据尺寸一致的任意数量随机数据的初始化样本,训练得到能够实现对于大数据样本数据增广的模型,然后以此为基模型,通过工况数据对基模型进行训练,从而得到可以对工况数据进行扩张的训练好的工况数据增广模型。

本发明实施例通过从设备大样本数据出发,构建一个可以增广出于设备大样本标签数据相似的数据增广模型,再针对小样本工况标签数据,对数据增广模型进行调整,从而可以增广出小样本工况标签数据,保证了数据增广模型可以合理的对小样本的分布广度进行合理扩张,保障了处在小样本分布边缘的增广数据可信度。

在上述实施例的基础上,在所述获取工况标签数据的步骤之前,所述方法还包括:

将工业原始数据拆分为真实标签非工况数据和工况标签数据;

清洗所述真实标签非工况数据中的异常点,得到真实标签正常数据。

具体的,本发明实施例中所描述的工业原始数据是从工业机械设备系统所直接提取的原始数据。

本发明实施例中所描述的真实标签非工况数据是指工业机械设备系统中的真实大样本数据,工况标签数据是指工业机械设备系统中的小样本真实工况数据。

本发明实施例中通过清洗真实标签非工况数据中的异常点,提升数据可靠性,并通过区分真实标签非工况数据和工况标签数据;从而保证模型训练可以有效针对于工况数据进行。

在上述实施例的基础上,所述训练好的工况数据增广模型包括训练好的生成器和训练好的判别器。

所述将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型的步骤之前,所述方法还包括:

获取真实标签正常数据,并制造任意数量的与真实标签正常数据尺寸一致的任意数量随机数据的初始化样本增广数据;

将所述初始化样本增广数据输入数据增广模型中的生成器,得到带虚假标签的样本增广假性数据,将所述带虚假标签的样本增广假性数据作为初始化样本增广数据,再次输入数据增广模型中的生成器进行训练,直至生成器的损失函数达到稳定收敛,得到训练好的生成器;

将带虚假标签的样本增广假性数据和真实标签正常数据混合输入数据增广模型中的判别器,当判别器的损失函数达到稳定收敛,得到训练好的判别器;

根据所述训练好的生成器和训练好的判别器得到训练好的数据增广模型。

具体的,本发明实施例中所描述的初始化样本增广数据任意数量随机生成的数据,初始化样本增广数据的数据格式和真实标签正常数据尺寸一致。

用卷积神经网络编码器分别对初始化样本增广数据和真实标签正常数据进行运算,得到初始的增广特征向量和真实标签正常数据特征向量,计算所述真实标签正常数据特征向量和初始增广特征向量的均方误差得到第一损失函数;

用卷积神经网络解码器对初始增广特征向量进行解码,得到样本增广假性数据,计算所述样本增广假性数据和真实标签正常数据的均方误差得到第二损失函数;

根据样本增广假性数据的快速傅里叶函数变换结果和真实标签正常数据的快速傅里叶变换结果间的余弦距离得到第三损失函数;

将卷积神经网络编码器和卷积神经网络解码器作为数据增广模型的生成器,然后分别对所述第一损失函数、第二损失函数和第三损失函数进行赋权,得到生成器的损失函数。

将训练初始阶段,将初始化样本增广数据输入数据增广模型中的生成器,得到带虚假标签的样本增广假性数据,若生成器的损失函数没有稳定收敛,则继续进行循环训练,此时将生成器输出的带虚假标签的样本增广假性数据替换初始化样本增广数据作为输入,进行循环训练,直至生成器的损失函数稳定收敛,停止训练,得到训练好的生成器。

在生成器的每轮训练过程中,不仅将生成器的输出重新作为生成器后续训练过程中的输入,还将生成器的输出作为判别器的输出,同时判别器的输入还包括真实标签正常数据,此时判别器跟随生成器的循环训练进行多次训练,以上两个步骤交叉进行,每训练一次生成器就训练一次判别器,直至判别器的损失函数达到稳定收敛,最终得到能够实现对于大样本数据进行增广的数据增广模型。

本发明实施例通过对于能实现大量样本数据的数据增广模型的训练,从而可以便于将其引导在针对小样本数据增广模型的训练上,并且其可以使得以其为基模型训练的工况数据增广模型更合理的扩展工况数据分布空间,让其更接近大样本数据的分布广度。

在上述实施例的基础上,在所述根据所述训练好的生成器和训练好的判别器得到训练好的数据增广模型的步骤之后,所述方法还包括:

获取样本工况标签数据并制造任意数量的与样本工况标签数据尺寸一致的初始化样本工况增广数据;

以所述训练好的数据增广模型为基模型,根据所述初始化样本工况增广数据和所述样本工况标签数据对所述基模型继续训练,当所述基模型的损失函数达到稳定收敛时,得到训练好的工况数据增广模型。

具体的,以该数据增广模型为基模型,将真实标签正常数据替换为工况标签数据,对基模型进行训练,当基模型的损失函数稳定收敛时,得到训练好的增广工况标签数据。

本发明实施例通过从设备大样本数据出发,构建一个可以增广出于设备大样本标签数据相似的数据增广模型,再针对小样本工况标签数据,对数据增广模型进行调整,从而可以增广出小样本工况标签数据,使得小样本增广数据的分布空间更接近大样本数据的分布广度,保证了数据增广模型可以合理的对小样本的分布广度进行合理扩张,保障了处在小样本分布边缘的增广数据可信度。

在上述实施例的基础上,所述生成器的损失函数具体为:

根据卷积神经网络编码器分别对真实标签正常数据和初始化样本增广数据进行运算,提取真实标签正常数据特征向量和初始增广特征向量,根据所述真实标签正常数据特征向量和初始增广特征向量的均方误差得到第一损失函数;

根据所述卷积神经网络解码对所述初始增广特征向量进行解码,得到样本增广假性数据,根据所述样本增广假性数据和真实标签正常数据的均方误差得到第二损失函数;

根据样本增广假性数据的快速傅里叶函数变换结果和真实标签正常数据的快速傅里叶变换结果间的余弦距离得到第三损失函数;

分别对所述第一损失函数、第二损失函数和第三损失函数进行赋权,得到生成器的损失函数。

将卷积神经网络作为判别器,以真实标签或虚假标签作为标签,以交叉熵作为判别器的损失函数。

在所述得到增广工况数据之后,所述方法还包括:

将所述增广工况数据输入工业机械设备自动学习提升算法,有效提升自动学习算法正确率,最终结合自动学习算法形成自动学习提升算法。

本发明实施例没有直接从小样本工况数据出发,而是从更具有分布广度的同设备大样本出发,再向小样本进行调整,这样就能保证增广模型参数可以合理的对小样本的分布广度进行适当扩张,保障了处在小样本分布边缘的数据点的分类准确性。

图2为本发明一实施例所描述的数据增广装置结构示意图,如图2所示,包括:获取模块210和增广模块220;其中,获取模块210用于获取工况标签数据,并制造与工况标签数据尺寸一致的任意数量随机数据作为增广数据的初始化数据;其中,增广模块220用于将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型,得到增广工况数据;其中,所述训练好的工况数据增广模型是通过真实标签正常数据和虚假标签的初始化样本增广数据及训练得到的。

本发明实施例提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。

本发明实施例通过从设备大样本数据出发,构建一个可以增广出于设备大样本标签数据相似的数据增广模型,再针对小样本工况标签数据,对数据增广模型进行调整,从而可以增广出小样本工况标签数据,使得小样本增广数据的分布空间更接近大样本数据的分布广度,保证了数据增广模型可以合理的对小样本的分布广度进行合理扩张,保障了处在小样本分布边缘的增广数据可信度。

图3为本发明一实施例所描述的电子设备结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communicationsinterface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法:获取工况标签数据,并制造与工况标签数据尺寸一致的任意数量随机数据作为增广数据的初始化数据;将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型,得到增广工况数据;其中,所述训练好的数据增广模型是通过真实标签正常数据和虚假标签的初始化样本增广数据及训练得到的。

此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取工况标签数据,并制造与工况标签数据尺寸一致的任意数量随机数据作为增广数据的初始化数据;将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型,得到增广工况数据;其中,所述训练好的数据增广模型是通过真实标签正常数据和虚假标签的初始化样本增广数据及训练得到的。

本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述各实施例提供的方法,例如包括:获取工况标签数据,并制造与工况标签数据尺寸一致的任意数量随机数据作为增广数据的初始化数据;将所述工况标签数据和所述增广数据的初始化数据输入训练好的工况数据增广模型,得到增广工况数据;其中,所述训练好的数据增广模型是通过真实标签正常数据和虚假标签的初始化样本增广数据及训练得到的。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1