基于环保大数据的自动分析判别方法与流程

文档序号:26009849发布日期:2021-07-23 21:29阅读:100来源:国知局
基于环保大数据的自动分析判别方法与流程

本发明涉及深度学习网络技术领域,具体地说,涉及基于环保大数据的自动分析判别方法。



背景技术:

工业中各个部门在生产过程中都会有污染物的产生,随着技术的不断发展以及社会对生态环境保护的重视,对用污染物排放量有着更为严格的要求,所以对工业排污数据的检测就格外重要。传统的方式是人工根据工业部门所提交的生产总量与相关污染物排放量的数值来进行判定,但部分工业部门为了降低环保成本提升效益进行瞒报谎报工业排污数据,因而通常需要相关环保部门出动大量人力物力对工厂上报的排污数据的真伪进行核验。

随着人工智能与大数据等相关技术的不断发展,基于大数据的智能判别与预测也在不断的被人们所提及。在海量的工业污染物排放与产值数据中,工业污染物的排放量与产值的比例是衡量该工厂环保是否达标的重要评判指标,所以对工业污染物的排放量与产值数据的真实性判别是一份十分重要的工作。

工业污染物的排放量与产值数据的真实性判别往往是根据人为的结合相关模型、经验与实地考察判断,除了需要消耗大量的人力物力,当生产环境发生变化时(如疫情影响工业总产值降低),传统模型有着较低的鲁棒性,会导致判断出错。因此,我们可以采用机器学习与大数据挖掘的相关知识来解决这个问题,对工厂数据进行预先筛选判断。



技术实现要素:

本发明的目的在于提供了基于环保大数据的自动分析判别方法,以解决上述背景技术中提出的问题。

为实现上述技术问题的解决,本发明的目的之一在于,提供了基于环保大数据的自动分析判别方法,包括如下步骤:

s1、设计自动分析识别方法,对工业产值与污染物排放数据进行整理;

s2、对工业产值数据进行预测判别;

s3、对污染物排放数据进行预测判别。

作为本技术方案的进一步改进,所述s1中,自动分析识别方法包括如下步骤:

s1.1、通过原始环保大数据数据库,剔除明显有误的数据,根据数据来源及工厂种类进行划分与初始计算;

s1.2、根据分类好的数据与初始计算结果,训练一个弱分类器并训练数据筛选网络,通过筛选后的数据训练一个强分类器,对弱分类器与强分类器的分类结果与实际上报数据的误差进行加权融合,并根据阈值输出置信度;

s1.3、根据s1.2的判别结果,在剔除工业产值为伪的数据后,通过现有的真实数据训练神经网络预测模型,并根据连续三年的相关污染物排放数据预测今年的污染物排放占比,并根据阈值输出置信度;

s1.4、结合s1.2与s1.3的判别结果,输出整合后的判别结果。

其中,所述s1.1中,对工厂种类进行划分,例如将炼钢工厂分为一类,纺织业工厂分为一类等,因为相同类型的工厂所受的外界影响有着共同之处,例如,假设钢需求降低,那么所有的钢厂都会相应的降低总产值而纺织业不受影响。

进而,在此基础上,根据历年核实过的真实数据计算连续三年的工业产值增加/下降百分比作为神经网络的输入,将计算今年上报的工业总产值的增长/下降百分比作为神经网络的输出的真实值,并针对不同类型的工厂数据进行训练。

其中,所述s1.2中,根据输入输出对神经网络进行简单的训练后将其作为数据筛选网络,因为此时的作为神经网络的真实值中的数据有部分数据可能是虚假上报的,因此在对神经网络进行简单训练后(防止过拟合虚假数据),根据输入与输出的误差,筛选出一批真实的数据,根据这类数据重新训练一个与数据筛选网络结构相同的神经网络作为强分类器;同时对原有的数据进行训练(训练迭代次数大于数据筛选网络的迭代次数)作为弱分类器,弱分类器的作用是避免强分类器由于训练数据缺失所造成的判别误差。

其中,所述s1.3中,将数据分别作为输入,根据强分类器输出结果与弱分类器的输出结果计算与今年上报的工业总产值的增长/下降百分比的误差,并将两者的误差进行加权融合,最后根据误差可接受的阈值对今年所上报的工业总产值的数据真伪性进行判别。

作为本技术方案的进一步改进,所述s1.1中,剔除明显有误的数据采用信息量的熵算法,其计算公式为:

h(x)=-∑p(xi)log2p(xi);

其中,i=1,2,3,...,n,xi表示第i个状态(共n个状态),p(xi)代表出现第i个状态时的概率,h(x)为消除不确定性所需的信息量,单位为比特(bit)。

作为本技术方案的进一步改进,所述s2中,对工业产值数据进行预测判别的方法包括如下步骤:

s2.1、根据上报的工厂种类对数据类别进行划分,计算连续三年的工业产值增加/下降百分比,并根据规则剔除明显有误的数据,完成数据的预处理;

s2.2、通过数据筛选网络,通过大数据挖掘出近几年该类工厂的发展趋势,根据整体趋势剔除违背整体发展趋势的数据;

s2.3、通过s2.2剔除部分置信度较低的数据,在剩余数据集的基础上训练一个强分类器,强分类器网络结构与损失函数同数据筛选网络;

s2.4、在s2.1分类好的基础上训练一个弱分类器,该分类器网络结构、损失函数与数据的输入输出同s2.1分数据筛选网络,不同的是训练的迭代次数大于数据筛选网络;

s2.5、在s2.3与s2.4的基础上,对其与真实值的差异进行加权,计算出最终的差异,并根据误差阈值进行工业总产值的数据真伪性判别。

其中,所述s2.4中,训练弱分类器的作用是避免训练强分类器所用的筛选后的数据丢掉部分特征。

作为本技术方案的进一步改进,所述s2.2中,数据筛选网络由3个全连接层构成,输入维度为3*1,输出为1*1,将核实过的真实数据计算连续三年的工业产值增加/下降百分比作为神经网络的输入特征,将计算今年上报的工业总产值的增长/下降百分比作为神经网络的输出的标签,针对不同类型的工厂数据进行简单的预训练,损失函数采用mse,预训练好的网络即为数据筛选网络,根除输出与真实值的误差剔除部分置信度较低的数据。

作为本技术方案的进一步改进,所述s2.2中,mse函数的计算表达式如下:

作为本技术方案的进一步改进,所述s2.5中,通过对真实值的差异进行加权,计算出最终的差异的计算表达式如下:

errortotal=λerrorstrong+(1-λ)errorweak;

其中,λ设为0.2。

作为本技术方案的进一步改进,所述s3中,对污染物排放数据进行预测判别的方法包括如下步骤:

s3.1、根据上报的污染物种类对数据类别进行划分,污染物排量/工业总产值的百分比,并根据规则剔除明显有误的数据,完成数据的预处理;

s3.2、根据不同类别,将前三年污染物排量/工业总产值的百分比作为输入特征,以第四年的结果作为神经网络的输出,完整特征构建;

s3.3、通过卷积神经网络自动提取三年之间污染物排量/工业总产值的百分比之间的关系与污染物之间的相关性;

s3.4、通过计算预测污染物排量/工业总产值的百分比与真实污染物排量/工业总产值的百分比的误差或计算预测污染物排量与真实污染物排量的误差,根据误差阈值来判断数据是否真实。

其中,值得说明的是,在对所上报的污染物的排放量的进行真伪性进行判别中,污染物的排放量一般受工厂环保设施与工业总产值的影响,因而通过神经网络对污染物排放量的数据真伪性进行判别时,需在工业总产值的数据真伪性确定的前提下进行。

具体地,根据上报的工厂种类对污染物排放数据进行简单整理,该部分的数据划分不同于工业总产值判别数据的划分,而是根据检测污染物种类进行划分。

作为本技术方案的进一步改进,所述s3.2中,构建维度为n*1*3的特征时,此处n为污染物种类,1为1列,每一个n*1的特征为一年的特征,将三年的特征叠加起来作为神经网络的输入。

作为本技术方案的进一步改进,所述s3.3中,卷积神经网络有3个卷积层,2个全连接层,第一层卷积层采用参数为3*2*1*2的卷积核,第二层卷积层采用2*2*1*2的卷积层,第三层卷积层采用2*2*1*1的卷积层,第一个全连接层将输入特征维度变为原来的一半,第二个全连接层输出预测污染物排量/工业总产值的百分比,损失函数采用mse。

其中,进一步可以通过卷积神经网络自动提取三年之间污染物排量/工业总产值的百分比之间的关系与污染物之间的相关性。

具体地,在测试阶段,针对目标工厂所提交的污染物排放数据,将连续三年的污染物排量/工业总产值的百分比作为输入,预测今年的工业污染物排放量占工业总产值的百分比,与所上报的污染物排放数据进行比对,根据可接受的误差阈值进行真伪性判别。

其中,误差阈值可以进行设定及调整。

本发明的目的之二在于,提供了基于环保大数据的自动分析判别方法的操作系统。

本发明的目的之三在于,提供了基于环保大数据的自动分析判别方法的操作系统运行装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述任一的基于环保大数据的自动分析判别方法的步骤。

本发明的目的之四在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一的基于环保大数据的自动分析判别方法的步骤。

与现有技术相比,本发明的有益效果:该基于环保大数据的自动分析判别方法中,先基于深度学习网络以及大数据处理的算法来设计自动分析识别方法的基本流程,并依次分别对工业产值数据及污染物排放数据进行真伪判别;同时通过神经网络来提取连续几年工业总产值数据之间的相关信息,并根据同类工厂的工业总产值变化建立适应于特殊影响的模型,再分别训练出数据筛选器、弱分类器及强分类器,在此基础上,对当年所上报的工业总产值数据的真伪性进行判别,可以实现对工业总产值数据的预测判别;另外训练基于卷积神经网络的污染物排放数据预测模型,可以实现对污染物排放数据进行预测判别。

附图说明

图1为本发明的整体流程框图;

图2为本发明的整体方法流程图;

图3为本发明的局部方法流程图;

图4为本发明的局部流程框图;

图5为本发明的局部方法流程图;

图6为本发明的局部流程框图;

图7为本发明的局部方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

如图1-图7所示,本实施例的目的在于,提供了基于环保大数据的自动分析判别方法,包括如下步骤:

s1、设计自动分析识别方法,对工业产值与污染物排放数据进行整理;

s2、对工业产值数据进行预测判别;

s3、对污染物排放数据进行预测判别。

本实施例中,s1中,自动分析识别方法包括如下步骤:

s1.1、通过原始环保大数据数据库,剔除明显有误的数据,根据数据来源及工厂种类进行划分与初始计算;

s1.2、根据分类好的数据与初始计算结果,训练一个弱分类器并训练数据筛选网络,通过筛选后的数据训练一个强分类器,对弱分类器与强分类器的分类结果与实际上报数据的误差进行加权融合,并根据阈值输出置信度;

s1.3、根据s1.2的判别结果,在剔除工业产值为伪的数据后,通过现有的真实数据训练神经网络预测模型,并根据连续三年的相关污染物排放数据预测今年的污染物排放占比,并根据阈值输出置信度;

s1.4、结合s1.2与s1.3的判别结果,输出整合后的判别结果。

其中,s1.1中,对工厂种类进行划分,例如将炼钢工厂分为一类,纺织业工厂分为一类等,因为相同类型的工厂所受的外界影响有着共同之处,例如,假设钢需求降低,那么所有的钢厂都会相应的降低总产值而纺织业不受影响。

进而,在此基础上,根据历年核实过的真实数据计算连续三年的工业产值增加/下降百分比作为神经网络的输入,将计算今年上报的工业总产值的增长/下降百分比作为神经网络的输出的真实值,并针对不同类型的工厂数据进行训练。

其中,s1.2中,根据输入输出对神经网络进行简单的训练后将其作为数据筛选网络,因为此时的作为神经网络的真实值中的数据有部分数据可能是虚假上报的,因此在对神经网络进行简单训练后(防止过拟合虚假数据),根据输入与输出的误差,筛选出一批真实的数据,根据这类数据重新训练一个与数据筛选网络结构相同的神经网络作为强分类器;同时对原有的数据进行训练(训练迭代次数大于数据筛选网络的迭代次数)作为弱分类器,弱分类器的作用是避免强分类器由于训练数据缺失所造成的判别误差。

其中,s1.3中,将数据分别作为输入,根据强分类器输出结果与弱分类器的输出结果计算与今年上报的工业总产值的增长/下降百分比的误差,并将两者的误差进行加权融合,最后根据误差可接受的阈值对今年所上报的工业总产值的数据真伪性进行判别。

具体地,s1.1中,剔除明显有误的数据采用信息量的熵算法,其计算公式为:

h(x)=-∑p(xi)log2p(xi);

其中,i=1,2,3,...,n,xi表示第i个状态(共n个状态),p(xi)代表出现第i个状态时的概率,h(x)为消除不确定性所需的信息量,单位为比特(bit)。

本实施例中,s2中,对工业产值数据进行预测判别的方法包括如下步骤:

s2.1、根据上报的工厂种类对数据类别进行划分,计算连续三年的工业产值增加/下降百分比,并根据规则剔除明显有误的数据,完成数据的预处理;

s2.2、通过数据筛选网络,通过大数据挖掘出近几年该类工厂的发展趋势,根据整体趋势剔除违背整体发展趋势的数据;

s2.3、通过s2.2剔除部分置信度较低的数据,在剩余数据集的基础上训练一个强分类器,强分类器网络结构与损失函数同数据筛选网络;

s2.4、在s2.1分类好的基础上训练一个弱分类器,该分类器网络结构、损失函数与数据的输入输出同s2.1分数据筛选网络,不同的是训练的迭代次数大于数据筛选网络;

s2.5、在s2.3与s2.4的基础上,对其与真实值的差异进行加权,计算出最终的差异,并根据误差阈值进行工业总产值的数据真伪性判别。

其中,s2.4中,训练弱分类器的作用是避免训练强分类器所用的筛选后的数据丢掉部分特征。

进一步地,s2.2中,数据筛选网络由3个全连接层构成,输入维度为3*1,输出为1*1,将核实过的真实数据计算连续三年的工业产值增加/下降百分比作为神经网络的输入特征,将计算今年上报的工业总产值的增长/下降百分比作为神经网络的输出的标签,针对不同类型的工厂数据进行简单的预训练,损失函数采用mse,预训练好的网络即为数据筛选网络,根除输出与真实值的误差剔除部分置信度较低的数据。

具体地,s2.2中,mse函数的计算表达式如下:

具体地,s2.5中,通过对真实值的差异进行加权,计算出最终的差异的计算表达式如下:

errortotal=λerrorstrong+(1-λ)errorweak;

其中,λ设为0.2。

本实施例中,s3中,对污染物排放数据进行预测判别的方法包括如下步骤:

s3.1、根据上报的污染物种类对数据类别进行划分,污染物排量/工业总产值的百分比,并根据规则剔除明显有误的数据,完成数据的预处理;

s3.2、根据不同类别,将前三年污染物排量/工业总产值的百分比作为输入特征,以第四年的结果作为神经网络的输出,完整特征构建;

s3.3、通过卷积神经网络自动提取三年之间污染物排量/工业总产值的百分比之间的关系与污染物之间的相关性;

s3.4、通过计算预测污染物排量/工业总产值的百分比与真实污染物排量/工业总产值的百分比的误差或计算预测污染物排量与真实污染物排量的误差,根据误差阈值来判断数据是否真实。

其中,值得说明的是,在对所上报的污染物的排放量的进行真伪性进行判别中,污染物的排放量一般受工厂环保设施与工业总产值的影响,因而通过神经网络对污染物排放量的数据真伪性进行判别时,需在工业总产值的数据真伪性确定的前提下进行。

具体地,根据上报的工厂种类对污染物排放数据进行简单整理,该部分的数据划分不同于工业总产值判别数据的划分,而是根据检测污染物种类进行划分。

进一步地,s3.2中,构建维度为n*1*3的特征时,此处n为污染物种类,1为1列,每一个n*1的特征为一年的特征,将三年的特征叠加起来作为神经网络的输入。

进一步地,s3.3中,卷积神经网络有3个卷积层,2个全连接层,第一层卷积层采用参数为3*2*1*2的卷积核,第二层卷积层采用2*2*1*2的卷积层,第三层卷积层采用2*2*1*1的卷积层,第一个全连接层将输入特征维度变为原来的一半,第二个全连接层输出预测污染物排量/工业总产值的百分比,损失函数采用mse。

其中,进一步可以通过卷积神经网络自动提取三年之间污染物排量/工业总产值的百分比之间的关系与污染物之间的相关性。

具体地,在测试阶段,针对目标工厂所提交的污染物排放数据,将连续三年的污染物排量/工业总产值的百分比作为输入,预测今年的工业污染物排放量占工业总产值的百分比,与所上报的污染物排放数据进行比对,根据可接受的误差阈值进行真伪性判别。

其中,误差阈值可以进行设定及调整。

本实施例还提供了基于环保大数据的自动分析判别方法的操作系统。

本实施例还提供了基于环保大数据的自动分析判别方法的操作系统运行装置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。

处理器包括一个或一个以上处理核心,处理器通过总线与处理器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于环保大数据的自动分析判别方法。

可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于环保大数据的自动分析判别方法的步骤。

可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于环保大数据的自动分析判别方法的步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储与一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1