基于环保大数据的自动分析判别方法与流程

文档序号：26009849发布日期：2021-07-23 21:29阅读：来源：国知局

技术特征：

1.基于环保大数据的自动分析判别方法，其特征在于：包括如下步骤：

s1、设计自动分析识别方法，对工业产值与污染物排放数据进行整理；

s2、对工业产值数据进行预测判别；

s3、对污染物排放数据进行预测判别。

2.根据权利要求1所述的基于环保大数据的自动分析判别方法，其特征在于：所述s1中，自动分析识别方法包括如下步骤：

s1.1、通过原始环保大数据数据库，剔除明显有误的数据，根据数据来源及工厂种类进行划分与初始计算；

s1.2、根据分类好的数据与初始计算结果，训练一个弱分类器并训练数据筛选网络，通过筛选后的数据训练一个强分类器，对弱分类器与强分类器的分类结果与实际上报数据的误差进行加权融合，并根据阈值输出置信度；

s1.3、根据s1.2的判别结果，在剔除工业产值为伪的数据后，通过现有的真实数据训练神经网络预测模型，并根据连续三年的相关污染物排放数据预测今年的污染物排放占比，并根据阈值输出置信度；

s1.4、结合s1.2与s1.3的判别结果，输出整合后的判别结果。

3.根据权利要求2所述的基于环保大数据的自动分析判别方法，其特征在于：所述s1.1中，剔除明显有误的数据采用信息量的熵算法，其计算公式为：

h(x)＝-∑p(xi)log2p(xi)；

其中，i＝1,2,3，...，n，xi表示第i个状态(共n个状态)，p(xi)代表出现第i个状态时的概率，h(x)为消除不确定性所需的信息量，单位为比特(bit)。

4.根据权利要求1所述的基于环保大数据的自动分析判别方法，其特征在于：所述s2中，对工业产值数据进行预测判别的方法包括如下步骤：

s2.1、根据上报的工厂种类对数据类别进行划分，计算连续三年的工业产值增加/下降百分比，并根据规则剔除明显有误的数据，完成数据的预处理；

s2.2、通过数据筛选网络，通过大数据挖掘出近几年该类工厂的发展趋势，根据整体趋势剔除违背整体发展趋势的数据；

s2.3、通过s2.2剔除部分置信度较低的数据，在剩余数据集的基础上训练一个强分类器，强分类器网络结构与损失函数同数据筛选网络；

s2.4、在s2.1分类好的基础上训练一个弱分类器，该分类器网络结构、损失函数与数据的输入输出同s2.1分数据筛选网络，不同的是训练的迭代次数大于数据筛选网络；

s2.5、在s2.3与s2.4的基础上，对其与真实值的差异进行加权，计算出最终的差异，并根据误差阈值进行工业总产值的数据真伪性判别。

5.根据权利要求1所述的基于环保大数据的自动分析判别方法，其特征在于：所述s2.2中，数据筛选网络由3个全连接层构成，输入维度为3*1，输出为1*1，将核实过的真实数据计算连续三年的工业产值增加/下降百分比作为神经网络的输入特征，将计算今年上报的工业总产值的增长/下降百分比作为神经网络的输出的标签，针对不同类型的工厂数据进行简单的预训练，损失函数采用mse，预训练好的网络即为数据筛选网络，根除输出与真实值的误差剔除部分置信度较低的数据。

6.根据权利要求5所述的基于环保大数据的自动分析判别方法，其特征在于：所述s2.2中，mse函数的计算表达式如下：

7.根据权利要求4所述的基于环保大数据的自动分析判别方法，其特征在于：所述s2.5中，通过对真实值的差异进行加权，计算出最终的差异的计算表达式如下：

errortotal＝λerrorstrong+(1-λ)errorweak；

其中，λ设为0.2。

8.根据权利要求1所述的基于环保大数据的自动分析判别方法，其特征在于：所述s3中，对污染物排放数据进行预测判别的方法包括如下步骤：

s3.1、根据上报的污染物种类对数据类别进行划分，污染物排量/工业总产值的百分比，并根据规则剔除明显有误的数据，完成数据的预处理；

s3.2、根据不同类别，将前三年污染物排量/工业总产值的百分比作为输入特征，以第四年的结果作为神经网络的输出，完整特征构建；

s3.3、通过卷积神经网络自动提取三年之间污染物排量/工业总产值的百分比之间的关系与污染物之间的相关性；

s3.4、通过计算预测污染物排量/工业总产值的百分比与真实污染物排量/工业总产值的百分比的误差或计算预测污染物排量与真实污染物排量的误差，根据误差阈值来判断数据是否真实。

9.根据权利要求8所述的基于环保大数据的自动分析判别方法，其特征在于：所述s3.2中，构建维度为n*1*3的特征时，此处n为污染物种类，1为1列，每一个n*1的特征为一年的特征，将三年的特征叠加起来作为神经网络的输入。

10.根据权利要求8所述的基于环保大数据的自动分析判别方法，其特征在于：所述s3.3中，卷积神经网络有3个卷积层，2个全连接层，第一层卷积层采用参数为3*2*1*2的卷积核，第二层卷积层采用2*2*1*2的卷积层，第三层卷积层采用2*2*1*1的卷积层，第一个全连接层将输入特征维度变为原来的一半，第二个全连接层输出预测污染物排量/工业总产值的百分比，损失函数采用mse。

技术总结
本发明涉及深度学习网络技术领域，具体地说，涉及基于环保大数据的自动分析判别方法。包括设计自动分析识别方法，对工业产值与污染物排放数据进行整理、对工业产值数据进行预测判别、对污染物排放数据进行预测判别等步骤。本发明设计先基于深度学习网络以及大数据处理的算法来设计自动分析识别方法的基本流程，并依次分别对工业产值数据及污染物排放数据进行真伪判别；同时通过神经网络来提取连续几年工业总产值数据之间的相关信息，建立适应于特殊影响的模型，再分别训练出数据筛选器、弱分类器及强分类器，可以实现对工业总产值数据的预测判别；另外训练基于卷积神经网络的污染物排放数据预测模型，可以实现对污染物排放数据进行预测判别。

技术研发人员：孙元晓;周轶文;刘军胜;司梦晨;王大伟
受保护的技术使用者：烟台应辉智能科技有限公司
技术研发日：2021.05.12
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2