一种有机化合物分子结构参数化表征方法与流程

文档序号:11588379阅读:540来源:国知局

本发明具体涉及一种有机化合物分子结构参数化表征方法,属于挥发性有机污染物qsrr(定量结构-色谱保留关系)研究方法技术领域。



背景技术:

挥发性有机污染物沸点低、种类繁多,是水体中常见和重要的污染物。大多数挥发性有机物在大气中具有反应活性,是光化学烟雾的反应物,见论文:大气挥发性有机物的日变化特征及在臭氧生成中的作用-以广州夏季为例[j].环境科学学报,2009,29(1):54-62。大气中挥发性有机污染物危害动植物生长、威胁人类健康,进入水体后造成饮用水污染。对饮用水中有机污染物的种类和性质进行研究具有重要意义。见论文:水中57中vocs的快速gcms分析[j].净水技术,2016,35(s1):83-88,112,采用气相色谱-质谱联用技术分析了饮用水中的挥发性有机污染物,最后在饮用水中鉴定出50多种有机化合物。有机化合物qsrr研究对于预测化合物色谱保留时间、解释保留机理、辅助鉴定化合物等具有重要意义,在有机化合物qsrr/qsar(定量结构-性质/活性关系)研究中,首先需要将分子结构进行参数化表达,然后选用合适的方法构建结构与性质之间的关系模型,研究者们在这方面做过许多工作,但是目前还没有非常有效简便的方法出现。



技术实现要素:

因此,针对现有技术的上述不足,本发明目的是选用部分饮用水中挥发性有机化合物为研究样本,以化合物非氢原子及非氢原子之间的关系构建新的结构描述符,对化合物结构进行参数化表达,采用逐步回归(smr)与偏最小二乘回归(pls)相结合的方法构建化合物结构与气相色谱保留时间(tr)之间的关系模型,用于预测挥发性有机污染物的色谱保留时间(tr)、辅助鉴定挥发性有机污染物。

本发明的方法包括以下步骤:

步骤一选取样本

选取56个饮用水中挥发性化合物为研究样本,化合物气相色谱保留时间以tr表示;

步骤二化合物分子结构表征

将样本中与1、2、3、4个其它非氢原子直接相连的非氢原子分别规定为第一、二、三、四类非氢原子,然后按公式一将非氢原子进行参数化染色,

式中,i为非氢原子在分子中的编码,ni为非氢原子i的主量子数,xi为电负性,xc为碳原子的电负性,mi为最外层电子数,hi为与其直接连接的氢原子数,

对于不同类型非氢原子自身对化合物性质的影响,按公式二进行分类累加,

式中,k表示非氢原子i的原子类型,zi按公式一计算,根据非氢原子的分类,对于一个有机化合物分子中最多含有4类非氢原子,因此最终可得到4个非氢原子自身对化合物性质贡献项,用x1、x2、x3和x4表示,

对于非氢原子之间的关系对分子性质的影响,采用gaussian形距离关系函数即公式三计算,

zi、zj按公式一计算;dij是非氢原子i、j之间的相对距离,即键长之和与碳碳单键键长的比值,如果i、j之间有多条路径,则以最短的为准,n和l为原子所属类型,α取0.5,化合物分子中4类非氢原子可以组合出以下10种关系项:m11、m12、…、m44,简写为x5、x6、…、x14,这样最多将有14个变量。

步骤三变量筛选及建模

将步骤二所获得的变量,首先采用逐步回归依据变量显著性对变量进行筛选,然后以筛选出的变量组合为因变量x,以化合物气相色谱保留时间(tr)为因变量y,运用偏最小二乘回归(pls)建立模型。

本发明的有益效果在于:本发明提供一种有机化合物分子结构参数化表征方法,将分子中的非氢原子进行分类并参数化染色,将非氢原子自身及不同非氢原子之间的关系作为分子结构描述符,对部分饮用水中挥发性有机化合物结构进行了参数化表征。采用逐步回归与偏最小二乘相结合的方法(smr-pls)构建了化合物结构与气相色谱保留时间(tr)的关系模型,模型相关系数(r2)及交互检验的相关系数(q2)均较为理想,一定程度上揭示了影响化合物气相色谱保留时间(tr)的结构因素。模型可以较准确地预测饮用水中挥发性有机化合物的气相色谱保留时间(tr),对于有机污染物的qspr/qsar研究具有很高的参考价值。

附图说明

图1为实施例中56个样本在pls前两个主成分得分空间散点分布图;

图2为实施例中偏最小二乘x空间规格化模型距离示意图;

图3为实施例中pls中变量重要性(vip)投影图;

图4为实施例中样本在前两个主成分的载荷图;

图5为实施例预测值与实验值相关图;

图6为实施例预测误差分布图。

具体实施方式

下面结合附图对本发明的具体实施方式进行说明:

实验材料

选取56个饮用水中挥发性化合物为研究样本,化合物气相色谱保留时间以tr表示,实验值取自论文:水中57中vocs的快速gcms分析[j].净水技术,2016,35(s1):83-88,112。化合物及其气相色谱保留时间(tr)列于表1。

表1

化合物分子结构表征

有机化合物的色谱保留时间(tr)除了与测量因素有关外,还与分子的结构相关。构成化合物原子种类、数目、原子之间的连接方式等都会对tr产生影响。在分子结构隐氢图中,不同非氢原子及非氢原子之间的关系对化合物性质具有重要影响,而氢原子的影响可以忽略。首先将非氢原子分为4类,与1、2、3、4个其它非氢原子直接相连的非氢原子分别规定为第一、二、三、四类非氢原子,如与2个非氢原子相连的仲碳原子属于第二类非氢原子。然后将非氢原子进行参数化染色。

式中,i为非氢原子在分子中的编码,ni为非氢原子i的主量子数,xi为电负性,xc为碳原子的电负性(pauling标度),mi为最外层电子数,hi为与其直接连接的氢原子数。

对于不同类型非氢原子自身对化合物性质的影响,按式(2)进行分类累加。

式中,k表示非氢原子i的原子类型,zi按式(1)计算。根据非氢原子的分类,对于一个有机化合物分子中最多含有4类非氢原子,因此最终可得到4个非氢原子自身对化合物性质贡献项,用x1、x2、x3和x4表示。

对于非氢原子之间的关系对分子性质的影响,采用gaussian形距离关系函数式(3)计算,这种关系不是原子之间的具体作用方式,而是要反映出非氢原子之间的相关程度随距离增减呈反向变化以及随原子性质改变呈正向变化。

zi、zj按式(1)计算;dij是非氢原子i、j之间的相对距离(即键长之和与碳碳单键键长的比值,如果i、j之间有多条路径,则以最短的为准);n和l为原子所属类型;α取0.5。化合物分子中4类非氢原子可以组合出以下10种关系项:m11、m12、…、m44,简写为x5、x6、…、x14。这样最多将有14个变量(结构描述符)来描述化合物结构信息。

qsrr建模与检验

对于一个样本集,并非每一个结构描述子都含与化合物保留时间相关的信息,对于那些相关性不大的描述符即噪声,若将它们留在模型中不仅会影响回归效果,而且还会大大降低预测能力。因此,建模前对变量进行筛选就显得尤为必要,而逐步回归(stepwiseregression,smr)是筛选变量的常用方法。偏最小二乘回归(partialleastsquares,pls)是目前较流行的一种建模方法,该方法可有效解决变量间的多重共线性问题。采用逐步回归(smr)与偏最小二乘回归(pls)相结合的方法进行建模分析,运用“留一法”对模型预测能力进行检验。一般认为,建模相关系数(r2)在0.64-1.0之间,表明模型高度相关;标准偏差(sd)与数值范围的比例小于10%时,表明模型预测准确性良好;交互检验相关系数q2≥0.5,表明模型具有良好的稳健性和预测能力。

将化合物结构进行参数化表征得到结构描述符,首先采用逐步回归(smr)依据变量显著性大小依次提取变量。然后以挑选出的变量组合为因变量x,以化合物气相色谱保留时间(tr)为因变量y,然后运用偏最小二乘回归(pls)建立模型。最终smr共挑选出12个变量组合用于建模,变量筛选及相应的pls结果见表2。

表2

一个好的预测模型不但对内部样本具有较好的拟合能力,而且还应该对外部样本具有较强的预测能力。因此在选择模型时,在保证对内部样本具有良好拟合效果的情况下,尽量选择交互检验相关系数(q2)较大的模型,以确保模型具有较强的预测能力。表2中可以看出,应该选择由逐步回归(smr)第八步挑选的变量组合(所选结构描述符列于表1)建模所得模型,此时化合物气相色谱保留时间(tr)与原始自变量回归方程式为:tr=-4.602+1.735·x1+0.995·x2+1.573·x3+1.906·x4-1.659·x5-0.820·x6-0.818·x7-0.734·x8。建模相关系数(r2)达到0.955(接近最大值0.959),而交互检验相关系数(q2)达到最大值0.894。r2处于0.64-1.0之间、q2≥0.5,说明此模型高度相关、稳健性好、预测能力强。建模标准偏差(sd)为0.803,样本的数值范围(最大值15.236-最小值1.300)为13.936,而标准偏差(0.803)与数值范围(13.936)的比例为5.76%,远小于10%的标准,说明预测准确性良好。

图1为56个样本在pls前两个主成分得分空间散点分布图,90%以上的样本点都落在95%置信度hotellingt2椭圆置信圈内,说明结构描述符能够恰当表现挥发性有机化合物分子结构特征,并在统计模型中得到正确反映。为了考察样本在x空间的拟合情况,对样本在x空间的规格化模型距离作了分析(图2),可以看到,95%以上的样本规格化模型距离都在95%的置信区间内(只有1个样本超出此范围),小于临界值2.414,同样说明模型质量良好。超出此范围的是42号样本,42号样本中含有一个叔丁基,而其它化合物不含此基团,具有一定的特殊性。

图3为pls中变量重要性(vip)投影图,通常认为vip大于1的变量与y之间具有较大的相关性,对y影响显著。图3中可以发现x3、x2的vip值大于1,说明这两个变量对化合物的气相色谱保留时间(tr)影响显著,而变量x3对应于第三类非氢原子的自身贡献项,变量x2对应于第二类非氢原子的自身贡献项,

因而第三类原子、第二类原子越多,化合物可能具有较大的保留时间(tr)值;其次是x7对化合物保留时间(tr)亦一定的影响,x7对应于第一类原子与第三类原子的关系,以上都说明取代基种类、数量及分布情况对化合物的色谱保留时间(tr)有重要的影响。

图4为样本在前两个主成分的载荷图。图4可以发现x3、x2、x7处在图的右上方区域,即在两个主成分中都有较大的值,并且与y呈正相关,同样说明x3、x2、x7对y影响显著,与上述分析结果一致。x1、x4、x5、x8在第一主成分中与y呈负相关,在第二主成分中与y呈正相关;x6处在图的左下方区域,即在两个主成分中与y均呈负相关。x1、x2、x3、x4、x5、x6、x7、x8在图中所处位置之间有一定的距离,说明所选变量没有多大的相似性,变量之间共线性小。

模型对样本的气相色谱保留时间(tr)进行了预测,预测值列于表1的cal.列,误差列于err.列。图5为模型预测值与实验值之间的相关图,图6为预测误差分布图。从图5可以看出,所有样本点都分布在45°对角线上或者紧靠对角线,说明预测值与实验值非常接近,总体预测效果好。同样,从图6可以看出模型的预测准确性高、误差小,绝大部分样本的预测误差都处在±2sd范围内,仅4个样本的误差略超出此范围,同样说明总体误差可以接受。其中52号样本误差最大,可能与其含有最多的氯原子(6个)有关,当然也有可能实验数据本身存在较大误差从而影响计算结果。

与现有技术相比,构建的结构描述符无需进行分子结构优化,简单易懂、计算量小,并且非氢原子染色值考虑了主量子数、电负性、最外层电子数、连接的氢原子数等丰富的信息。

将分子中的非氢原子进行分类并参数化染色,将非氢原子自身及不同非氢原子之间的关系作为分子结构描述符,对部分饮用水中挥发性有机化合物结构进行了参数化表征。采用逐步回归与偏最小二乘相结合的方法(smr-pls)构建了化合物结构与气相色谱保留时间(tr)的关系模型,模型相关系数(r2)及交互检验的相关系数(q2)均较为理想,一定程度上揭示了影响化合物气相色谱保留时间

(tr)的结构因素。模型可以较准确地预测饮用水中挥发性有机化合物的气相色谱保留时间(tr),对于有机污染物的qspr/qsar研究具有较高的参考价值。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1