本发明涉及污染防控领域,具体涉及一种重点管控新污染物的筛查方法及系统。
背景技术:
1、有毒有害化学物质的生产使用是新污染物的主要来源。由于毒害化学物质生产使用的种类及数量众多,不可避免地会释放进入环境中,导致环境中分布多种新污染物,具有潜在的环境风险。然而,环境管理部门对所有新污染物开展环境风险管控费时、费力。基于“重点管控”策略,筛选高环境健康风险的新污染物,优先开展环境管理,是有效防控新污染物环境健康风险的重要手段之一。
2、目前,国内外已开展若干重点新污染物筛查方法的建立,主要根据新污染物持久性、生物累积性、致癌、致突变等理化性质及毒理学参数,通过专家评定或赋予各指标权重的方式,加和计算优先顺序,确定重点管控新污染物清单。一方面,部分新污染物理化参数或毒理学数据缺失,影响结果的准确性;另一方面,排序依赖专家经验,客观性不足。
技术实现思路
1、新污染物的理化性质及毒理学参数与其分子结构特征密切相关,基于定量构效关系的计算模拟技术,建立新污染物分子结构与环境风险高低的关联,可预测新污染物的重点管控优先级,解决部分新污染物数据缺失对排序结果的影响。此外,机器学习算法能够客观、高效的挖掘环境风险与新污染物分子结构特征的内在关系,有效的提高模型的排序性能,有助于筛查重点管控的新污染物。
2、一种重点管控新污染物的筛查方法,包括以下步骤:
3、s1:根据给定的新污染物清单列表i1,i2...ii,...im,得到各个新污染物的分子指纹,作为特征信息d1,d2...di,...dm,其中ii表示第i个新污染物,清单列表中新污染物个数为m,di表示ii的特征信息;
4、s2:将新污染物清单列表中的新污染物两两配对,得到个新污染物对,获取每个新污染物对ii,ij中两个新污染物的环境风险的大小关系,并由此得到新污染物对ii,ij的真实概率pij
5、s3:根据新污染物清单列表中各个新污染物的特征信息以及各个新污染物对的真实概率,使用ranknet算法,进行训练,得到训练好的打分函数模型;
6、s4:将新污染物的分子指纹,作为特征信息,输入训练好的打分函数模型,得到新污染物的风险得分。
7、进一步的,还包括:
8、s5:根据新污染物的风险得分,得到新污染物的重点管控优先级顺序。
9、进一步的,获取新污染物的分子指纹的方法为:
10、s1.1:使用chemspider数据库或openbabel数据库或pubchem数据库获取新污染物的smiles码;
11、s1.2:使用新污染物的smiles码从rdkit工具包或chemspider数据库或openbabel数据库获取新污染物的分子指纹。
12、进一步的,所述s3中ranknet算法所用的打分函数模型为两层神经网络模型。
13、进一步的,所述s3中ranknet算法所用的损失函数为交叉熵的形式。
14、一种重点管控新污染物的筛查系统,包括以下模块:
15、特征信息模块:用于根据给定的新污染物清单列表i1,i2...ii,...im,得到各个新污染物的分子指纹,作为特征信息d1,d2...di,...dm,其中ii表示第i个新污染物,清单列表中新污染物个数为m,di表示ii的特征信息;
16、真实概率模块:用于将新污染物清单列表中的新污染物两两配对,得到个新污染物对,获取每个新污染物对ii,ij中两个新污染物的环境风险的大小关系,并由此得到新污染物对ii,ij的真实概率pij
17、训练模块:用于根据新污染物清单列表中各个新污染物的特征信息以及各个新污染物对的真实概率,使用ranknet算法,进行训练,得到训练好的打分函数模型;
18、打分模块:用于将新污染物的分子指纹,作为特征信息,输入训练好的打分函数模型,得到新污染物的风险得分。
19、进一步的,还包括:
20、排序模块:用于根据新污染物的风险得分,得到新污染物的重点管控优先级顺序。
21、进一步的,获取新污染物的分子指纹的模块为:
22、smiles码模块:用于使用chemspider数据库或openbabel数据库或pubchem数据库获取新污染物的smiles码;
23、分子指纹模块:用于使用新污染物的smiles码从rdkit工具包或chemspider数据库或openbabel数据库获取新污染物的分子指纹。
24、进一步的,所述训练模块中ranknet算法所用的打分函数模型为两层神经网络模型。
25、进一步的,所述训练模块中ranknet算法所用的损失函数为交叉熵的形式。
26、有益效果:
27、对于传统的新污染物筛查方法,通过专家评定等方式,虽然准确性高,但费时费力。本发明通过建立训练样本,以传统的新污染物筛查方法得到的新污染物环境风险排序为依据,使用ranknet算法,找到新污染物的分子指纹与环境风险大小的关系。训练完成后,只需要将新新污染物的分子指纹输入模型,即可得到模型对其环境风险大小的打分,可以快速且准确的得到新污染物的管控优先级排序。
28、本发明可以快速进行重点管控新污染物的筛查;该方法成本低、速度快,适用于企业、工业园区、区域层面的重点管控新污染物的筛查;本发明所建立的筛查方法及系统,可为新污染物的生态和健康风险评价、区域化学物质管理提供必要的技术支撑。
1.一种重点管控新污染物的筛查方法,其特征在于包括以下步骤:
2.根据权利要求1所述的一种重点管控新污染物的筛查方法,其特征在于还包括:
3.根据权利要求1所述的一种重点管控新污染物的筛查方法,其特征在于获取新污染物的分子指纹的方法为:
4.根据权利要求1所述的一种重点管控新污染物的筛查方法,其特征在于所述s3中ranknet算法所用的打分函数模型为两层神经网络模型。
5.根据权利要求1所述的一种重点管控新污染物的筛查方法,其特征在于所述s3中ranknet算法所用的损失函数为交叉熵的形式。
6.一种重点管控新污染物的筛查系统,其特征在于包括以下模块:
7.根据权利要求6所述的一种重点管控新污染物的筛查系统,其特征在于还包括:
8.根据权利要求6所述的一种重点管控新污染物的筛查系统,其特征在于获取新污染物的分子指纹的模块为:
9.根据权利要求6所述的一种重点管控新污染物的筛查系统,其特征在于所述训练模块中ranknet算法所用的打分函数模型为两层神经网络模型。
10.根据权利要求6所述的一种重点管控新污染物的筛查系统,其特征在于所述训练模块中ranknet算法所用的损失函数为交叉熵的形式。