一种用于目标污染物源解析的因子快速识别方法及装置与流程

文档序号:17735677发布日期:2019-05-22 03:10阅读:476来源:国知局
一种用于目标污染物源解析的因子快速识别方法及装置与流程

本发明涉及污染源解析技术领域,具体而言,涉及一种用于pmf因子快速识别进行源解析的方法及装置。



背景技术:

源解析工作是制定科学合理的相关政策法规的重要条件,已成为我国各地开展环境污染防治的核心内容之一。

正定矩阵因子分解模型(positivematrixfactorization,pmf),pmf是一种受体来源解析模型,基于因子分析原理,不过多依赖排放源成分谱,可以得到不同时间序列上的源的贡献值的变化,被广泛应用于大气颗粒物来源解析、大气vocs、水污染源解析、土壤污染源解析等研究。但是由于目前所采用的受体模型pmf方法中,存在极大不确定性,即在pmf计算出的n个因子后,如何识别这些因子对应的来源,如燃煤源,机动车源,扬尘源等的确定方面完全依靠pmf操作者的经验和主观判断;二是pmf并不能确定最终应该是几个因子,也是通过操作者通过反复计算出多种因子数的方案组合,依靠经验和主观判断来确定最终应该选几个因子。而操作者的经验来自于阅读前人的文献和对污染源包含的化学成分的一般认知,因此不同的操作者得出的源解析结果因人而异,没有统一标准和公认的正确结果。这导致源解析结果的不确定性很大,从而影响最终源解析结果的使用者的减排与治理决策的有效性。

人工神经网络(ann)是在模拟生物神经网络的基础上构建的一种信息处理系统。具有强大的信息存贮能力和计算能力,是一种非经典的数值算法。深度学习现在已经用来泛指各种基于多层网络结构的机器学习模型,常用的深度学习模型为多层神经网络,通过多层模型,可以实现更复杂的函数关系。

有鉴于此,迫切需要设计一种新的用于目标污染物源解析的因子快速识别方法及装置。



技术实现要素:

本发明的目的是提供一种能够提高因子识别的速度和正确率的用于目标污染物源解析的因子快速识别方法及装置。

为实现上述目的,本发明的一种技术方案是提供一种用于目标污染物源解析的因子快速识别方法,包括:收集内容中涉及目标污染物源解析的已发表文献;从所述已发表文献中提取涉及目标污染物源解析因子对应来源的图形和数据,构建训练集和测试集进行训练学习,得到初步的训练模型;采用基于人工神经网络的交叉验证法验证所述训练模型,获得最终的因子识别模型;将待检测样品解析,计算出未识别的因子;使用所述因子识别模型计算所述未识别的因子,解析出因子对应的污染物源。

进一步的,所述收集内容中涉及目标污染物源解析的已发表文献的步骤具体包括:收集至少100篇内容中涉及目标污染物源解析的已发表文献。

进一步的,所述从所述已发表文献中提取涉及目标污染物源解析因子对应来源的图形和数据,构建训练集和测试集进行训练学习,得到初步的训练模型的步骤具体包括:将所收集的文献按3:1的比例分为两部分数据,其中四分之三的数据作为训练集,四分之一的数据作为测试集进行训练学习,得到初步的训练模型。

进一步的,所述将所收集的文献按3:1的比例分为两部分数据,其中四分之三的数据作为训练集,四分之一的数据作为测试集进行训练学习,得到初步的训练模型的步骤具体包括:将所收集的文献按3:1的比例分为两部分数据,其中四分之三的数据作为训练集,四分之一的数据作为测试集,进行反复学习训练,对输出的分类结果,与真实标签比对计算误差或损失函数值输出结果与真实标签相差越大损失函数值越大,当输出结果与真实标签相等时损失为零,用梯度下降法迭代更新参数进行优化,得到初步的训练模型。

进一步的,所述采用基于人工神经网络的交叉验证法验证所述训练模型,获得最终的因子识别模型的步骤具体包括:

随机将训练数据等分成k份,s1,s2,…,sk;

对于每一个模型,算法执行k次,每次选择一个sj作为验证集,而其它作为训练集来训练模型,把训练得到的模型在sj上进行测试,这样一来,每次都会得到一个误差e,最后对k次得到的误差求平均,就可以得到模型的泛化误差;选择具有最小泛化误差的模型作为最终模型,并且在整个训练集上再次训练该模型,从而获得最终的因子识别模型。

为实现上述目的,本发明的另一种技术方案是提供一种用于目标污染物源解析的因子快速识别装置,包括收集模块,所述收集模块用于收集内容中涉及目标污染物源解析的已发表文献;构建模块,所述构建模块用于从所述已发表文献中提取涉及目标污染物源解析因子对应来源的图形和数据,构建训练集和测试集进行训练学习,得到初步的训练模型;验证模块,所述验证模块用于采用基于人工神经网络的交叉验证法验证所述训练模型,获得最终的因子识别模型;计算模块,所述计算模块用于将待检测样品解析,计算出未识别的因子;解析模块,所述解析模块用于使用所述因子识别模型计算所述未识别的因子,解析出因子对应的污染物源。

本发明具有以下有益效果:本发明通过一种用于pmf因子快速识别的方法,实现大气vocs,颗粒物,水,土壤等应用pmf源解析中因子的快速识别。由人工神经网络深度学习算法自动化识别每一个因子对应的来源,大大提高因子识别的速度和正确率,同时避免人为选取的主观性。

附图说明

为了更清楚地说明本发明实施例或技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:

图1为本发明用于目标污染物源解析的因子快速识别方法的流程示意图。

图2为本发明用于目标污染物源解析的因子快速识别装置的流程示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

参阅图1,本发明一种用于目标污染物源解析的因子快速识别方法包括以下步骤:

步骤一、收集内容中涉及目标污染物源解析的已发表文献

具体的,收集已经发表的有关目标污染物的pmf源解析的所有中英文文献,将其中的因子对应来源的图形和数据提炼出来,形成每一确定污染源的因子里包含的一组化学成分的名称与对应的浓度与总浓度比例数据库。

更具体的,先调研100篇左右对pm2.5源解析的文献,提炼文献中因子对应来源的图形和数据,每一篇可形成一个学习案例,即每一确定污染源的因子里包含的一组化学成分的名称与对应的浓度与总浓度比例数据,这一组数据对应形成一组学习标签,在后续根据网络的实际情况将文献数目补充至500-1000篇甚至更多。

步骤二、从所述已发表文献中提取涉及目标污染物源解析因子对应来源的图形和数据,构建训练集和测试集进行训练学习,得到初步的训练模型

具体的,采用深度学习算法编程,将步骤一所收集的所有样本按比例分为两部分,占比大的一部分为训练集,少的一部分作为测试集,自动进行反复训练学习,形成稳定的算法和输出,找到使损失函数最小的最优函数,得到训练模型。

更具体的,将步骤一所收集的所有样本按比例3:1分为两部分,其中四分之三的数据作为训练集,四分之一的数据作为测试集,自动进行反复训练学习,对网络输出的分类结果,与真实标签比对计算误差或损失函数值,当输出结果与真实标签相等时损失为零,二者相差越大损失函数值越大,训练样本上的总损失是监督学习中的优化目标,用梯度下降法迭代更新参数以优化这个目标,最后形成初步的训练模型。

步骤三、采用基于人工神经网络的交叉验证法验证所述训练模型,获得最终的因子识别模型具体的,随机将训练数据等分成k份,s1,s2,…,sk;对于每一个模型,算法执行k次,每次选择一个sj作为验证集,而其它作为训练集来训练模型,把训练得到的模型在sj上进行测试,这样一来,每次都会得到一个误差e,最后对k次得到的误差求平均,就可以得到模型的泛化误差;选择具有最小泛化误差的模型作为最终模型,并且在整个训练集上再次训练该模型,从而获得最终的因子识别模型。

步骤四、将待检测样品解析,计算出未识别的因子

具体的,以一种pm2.5为例进行说明,步骤具体包括:

确定主成分因子数;

因子分解;

非负约束因子旋转

利用th-150c智能中流量(tsp)采样器与pm2.5切割器,采集pm2.5样品,采样仪分别用聚丙烯滤膜和石英滤膜采集pm2.5样品。其中采样器安装聚丙烯膜用于测定无机元素;石英滤膜用于测定离子和碳组分。针对pm2.5样品进行化学成分检测,具体化学成分包括li、be、na、mg、ti、ca、fe、ba、p、k、sc、as、rb、y、mo、cd、sn、sb、cs、la、v、cr、mn、co、ni、cu、zn、ce、sm、w、tl、pb、bi、th、u,na+、mg2+、ca2+、k+、nh4+、so42-、cl-、no3-、tc、oc和ec。

pm2.5化学成分浓度矩阵和不确定度数据输入pmf模型,计算出未识别的因子。

步骤五、使用所述因子识别模型计算所述未识别的因子,解析出因子对应的污染物源

具体的,将实验得到的样品化学成分数据为pm2.5化学成分矩阵,输入pmf模型,计算出未识别的因子,输入神经网络模型,自动计算识别因子对应的来源,例如:60%硫酸盐,50%硝酸盐,40%cl-即可识别为煤燃烧。

参见图2,本发明还提供一种用于目标污染物源解析的因子快速识别装置,包括:收集模块,所述收集模块用于收集内容中涉及目标污染物源解析的已发表文献;构建模块,所述构建模块用于从所述已发表文献中提取涉及目标污染物源解析因子对应来源的图形和数据,构建训练集和测试集进行训练学习,得到初步的训练模型;验证模块,所述验证模块用于采用基于人工神经网络的交叉验证法验证所述训练模型,获得最终的因子识别模型;计算模块,所述计算模块用于将待检测样品解析,计算出未识别的因子;解析模块,所述解析模块用于使用所述因子识别模型计算所述未识别的因子,解析出因子对应的污染物源。该装置更详细的工作方法可参阅图1及对应的说明,此处不再赘述。

本发明还提供一种具有存储功能的装置,该具有存储功能的装置上存储有程序数据,该程序数据被处理器执行时实现前述用于目标污染物源解析的因子快速识别方法,相关内容的详细说明请参见上述方法部分,在此不再赘述。

其中,该具有存储功能的装置可以为服务器、软盘驱动器、硬盘驱动器、cd-rom读取器、磁光盘读取器等中的至少一种。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1