
一种基于二甲苯异构体分离的htcs和机器学习协同方法
技术领域
1.本发明涉及计算化学与纳米复合催化材料技术领域,具体涉及一种基于二甲苯异构体分离的htcs和机器学习协同方法。
背景技术:2.二甲苯是通过原油催化重整生产的,年用量达数百万吨。它有三种异构体,即对、邻和间二甲苯,每种异构体都是制造各种高附加值化学品和聚合物的重要原料。特别是,对二甲苯是最理想的用于生产聚对苯二甲酸乙二醇酯、聚酯纤维和合成树脂的。另一方面,邻二甲苯是邻苯二甲酸酐和增塑剂的常见前体;间二甲苯主要用于间苯二甲酸的合成,间苯二甲酸又用于pet树脂的共混。这三种异构体在催化重整后以混合物形式存在,因此将它们分离是很重要的。然而,它们的分离具有挑战性,因为它们具有相同的分子量,相似的分子尺寸和热物理性质。目前,它们通过结晶或模拟移动床吸附来分离。
3.开发用于二甲苯分离的先进材料方面已经付出了相当大的努力。在过去的二十年中,金属有机框架(mof)已成为一种特殊的多孔材料家族。mof的多样性和多重性程度比任何其他类型的多孔材料都要广泛得多。有趣的是,mof中的晶体结构,表面积和孔径可以以合理的方式进行调整。因此,mof在分离、催化、传感等许多潜在应用中引起了广泛关注,尤其是在吸附分离方面,包括co2捕获、o2净化、轻烃的分离、惰性气体的分离、用于能源的气体的储存以及一些气态空气污染物的去除。
4.在以往的研究中,只有少数的实验和计算研究用于二甲苯分离的mof上,而只有一项高通量计算筛选研究用于二甲苯的分离。随着被合成的mof数量不断增加,从庞大的mof数据库中发现对于不同组分气体具有高性能的mof成为了一个巨大的挑战。通过传统实验试差具有一定的盲目性,过程繁琐,需要消耗大量的时间、金钱与人力资源,且某些试剂的使用可能会对实验人员有一定的危害。为了加快研究进程,基于分子模拟(ms)和机器学习(ml)的高通量计算筛选(htcs)方法被应用于寻找具有特定功能的新的mof。而分子模拟中的巨正则蒙特卡洛模拟方法和分子动力学被用于计算模拟mof的性能。这两种方法可实现大量mof对不同气体组分吸附性能的有效评价,从而快速发现最佳目标材料,并揭示其构效关系。虽然这两种方法可以加速材料的发现,但也存在计算量大、计算速度较慢等缺点。面对日益增加的mof数量,仅靠以上方法已经很难满足开发新材料的需要。因此,开发一种更加快速高效、且耗费资源较少的筛选方法十分紧迫。
技术实现要素:5.本发明的目的在于提供一种基于二甲苯异构体分离的htcs和机器学习协同方法,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:
7.一种基于二甲苯异构体分离的htcs和机器学习协同方法,包括以下步骤:
8.s1、通过几何分析和分子模拟对4764个可计算的core-mof的几何描述符进行计
算,基于二甲苯异构体的动力学直径,选取其中受限孔直径》5.0nm的1502个mof,使用巨正则蒙特卡罗(gcmc)方法对选取的1502个mof进行二甲苯异构体的吸附模拟;
9.s2、使用反向传播神经网络算法(bpnn)和决策树算法(dt)两种机器学习方法,从上述gcmc模拟中分析1502个mof吸附的结构-性能关系;
10.s3、应用粒子群优化,加速两种机器学习方法的最优预测,分析和优化对二甲苯的吸附容量(n
p-xylene
)和对二甲苯对邻、间二甲苯的选择性(s
p/(m+o)
)的权重,来提高机器学习预测精度;
11.s4、继续使用机器学习算法在六个不同的mof数据集中对每个描述符对于分离的重要性进行评估;
12.s5、根据机器学习的结果,对关键的描述符进行分析,结合mof框架灵活性筛选出最优mof。
13.优选的,所述步骤s1中体系是混合的二甲苯异构体,即对二甲苯、邻二甲苯和间二甲苯,mof是对混合的二甲苯异构体的分离。
14.优选的,所述步骤s1中4764个core-mof的几何描述符是受限孔直径(pld)、最大自由直径(lcd)、体积比表面积(vsa)、密度(ρ)和孔隙率(φ),分子模拟是使用zeo++软件估计pld和lcd,而vsa和φ分别以动力学直径0.258nm的n2和0.364nm的he为探针计算得到,所有的计算在raspa中进行。
15.优选的,所述步骤s1中根据二甲苯异构体的动力学直径,在4764个mof中选取pld》5.0nm的1502个mof,使用gcmc方法对筛选出的mof进行二甲苯异构体的吸附模拟,得到n
p-xylene
和s
p/(m+o)
两个分离性能指标。
16.优选的,所述步骤s2中要分析的1502个mof吸附的结构-性能关系是mof的受限孔直径、最大自由直径、体积比表面积、密度、孔隙率和对二甲苯的吸附容量、对二甲苯对邻、间二甲苯的选择性之间的关系,步骤s2中用bpnn和dt对mof吸附的结构-性能关系进行分析预测。
17.优选的,所述步骤s3中为了提高机器学习预测精度,使用粒子群优化计算吸附容量和选择性之间的权衡参数,适当的对n
p-xylene
和s
p/(m+o)
的组合有助于用机器学习方法实现更好的预测,步骤s4中将1502个mof分成六个不同的mof数据集(全部、前1000、前800、前500、前300和前100个mof),应用bpnn对每组每个描述符的权重因子进行分析,在均方根误差(rmse)的基础上,通过估计每个描述符在六个不同的mof数据集中的重要性。
18.优选的,所述步骤s5中根据机器学习结果,结合关键描述符设置合理的n
p-xylene
和s
p/(m+o)
范围,识别出一系列性能较好的mof。
19.优选的,所述步骤s5中比较筛选出的一系列mof的n
p-xylene
和s
p/(m+o)
以及结构特点,进一步结合框架的灵活性,预测出最好的mof。
20.与现有技术相比,本发明的有益效果是:该基于二甲苯异构体分离的htcs和机器学习协同方法,基于zeo++、raspa程序得到的几何结构描述符以及巨正则蒙特卡洛模拟得到的吸附性能,能够快速筛选并预测出对目标气体具有较高吸附性能的mof,不仅效率高,且建立的机器学习模型也能适用于其他mof,具有普遍性,对研发其他的高性能mof,具有指
导意义;基于机器学习技术,与传统的实验“试错”方法、巨正则蒙特卡洛模拟方法和分子动力学方法相比,本发明方法筛选高性能mof更加高效,能够节省大量的时间、金钱与人力资源,有助于加快高性能mof材料的筛选和研发进程;从统计学角度筛选预测材料性能,相对于传统实验和模拟计算方法,本发明方法得到的结果可靠性较高,且具有普遍性,能为后续研究mof材料结构与性能的关系指明道路。
附图说明
21.图1为本发明实施例的方法流程示意图;
22.图2为本发明使用两种机器学习算法对分别对n
p-xylene
和s
p/(m+o)
进行预测的效果图;
23.图3为本发明对n
p-xylene
和s
p/(m+o)
权重进行适当组合后机器学习的预测效果图;
24.图4为本发明使用bpnn算法对每个描述符的权重因子分析图。
具体实施方式
25.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.实施例
27.请参阅图1-4,本发明提供的基于二甲苯异构体分离的htcs和机器学习协同方法,包括如下步骤:
28.s1、通过几何分析和分子模拟对4764个可计算的core-mof的几何描述符进行计算,基于二甲苯异构体的动力学直径,选取其中受限孔直径》5.0nm的1502个mof,使用巨正则蒙特卡罗(gcmc)方法对选取的1502个mof进行二甲苯异构体的吸附模拟。
29.其中,几何描述符是受限孔直径(pld)、最大自由直径(lcd)、体积比表面积(vsa)、密度(ρ)和孔隙率(φ)。
30.本发明研究的体系为混合的二甲苯异构体,即对二甲苯、邻二甲苯和间二甲苯的分离。
31.s2、使用反向传播神经网络算法(bpnn)和决策树算法(dt)两种机器学习方法,从上述gcmc模拟中分析1502个mof吸附的结构-性能关系。
32.其中,吸附的结构-性能关系是mof的孔隙率、体积比表面积、受限孔直径、密度、最大自由直径和对二甲苯的吸附容量、对二甲苯对邻、间二甲苯的选择性之间的关系。
33.s3、应用粒子群优化,加速两种机器学习方法的最优预测,分析和优化对二甲苯的吸附容量(n
p-xylene
)和对二甲苯对邻、间二甲苯的选择性(s
p/(m+o)
)的权重,来提高机器学习预测精度。
34.其中,主要用粒子群优化计算了吸附容量和选择性之间的权衡参数,找出最优组合。
35.s4、继续使用机器学习算法在六个不同的mof数据集中对每个描述符对于分离的重要性进行评估。
36.其中,主要应用bpnn对每组每个描述符的权重因子进行分析,从而得到最关键的描述符。
37.s5、根据机器学习的结果,对关键的描述符进行分析,结合mof框架灵活性筛选出最优mof。
38.其中,主要结合关键描述符设置n
p-xylene
和s
p/(m+o)
的合理范围,识别出性能较好的一系列mof,并比较筛选出的一系列mof的n
p-xylene
和s
p/(m+o)
以及结构特点,进一步结合框架的灵活性,预测出最好的mof。
39.为更好地描述本实施例,下面以一具体实例加以说明。
40.(1)筛选构建数据库:
41.首先使用分子模拟计算4764个core-mof的几何描述符:受限孔直径(pld)、最大自由直径(lcd)、体积比表面积(vsa)、密度(ρ)和孔隙率(φ)。使用zeo++软件估计pld和lcd,而vsa和φ分别以动力学直径0.258nm的n2和0.364nm的he为探针计算得到,所有的计算在raspa中进行。
42.根据二甲苯异构体的动力学直径,在4764个mof中选取pld》5.0nm的1502个mof,使用gcmc方法对筛选出的mof进行二甲苯异构体的吸附模拟,得到n
p-xylene
和s
p/(m+o)
两个分离性能指标。一般而言三种异构体都不能进入pld《0.67nm的mof,因为对二甲苯的动力学直径dk为0.67nm,然而动力学直径是分子大小的经验测量,它通常大于实际大小。当吸附分子的尺寸略大于pld时,吸附物分子将与孔隙发生排斥相互作用,但仍可能进入孔隙。
43.1502个mof被认为是刚性的。gcmc模拟中对二甲苯同分异构体的描述采用了最优化的液体模拟势力场(opls力场),对二甲苯苯环上的碳原子和氢原子进行了原子模拟,而甲基则以联合原子的方式处理,二甲苯分子间的相互作用用静电势和lennard-jones(lj)势描述。lj势参数取自万有力场。mof与二甲苯分子之间的交叉lj相互作用由lorentz-berthelot混合规则计算。使用mepo-qeq方法估计了mof的原子电荷,该方法可以快速准确地评估静电相互作用。对于每个mof,将三维胞长延长到至少0.24nm,并施加周期性边界条件。lj相互作用的计算采用球面截断半径为0.12nm,并加入了长程修正项。静电相互作用的计算采用ewald求和法。为了提高采样效率,使用了连续分数分量蒙特卡罗方法,通过使用连续耦合参数和自适应偏置电势来逐渐插入和删除分子。每次gcmc模拟包括20万个周期,前10万个周期用于平衡,其余10万个周期用于系综平均值。循环次数是足够的,进一步增加循环次数对模拟结果的影响不大。每个循环包括n次尝试移动(n=吸附分子的数量),包括平移、旋转、再生和交换。所有的gcmc模拟是使用raspa程序包进行的。
44.由筛选出的1502个mof的几何描述符pld、lcd、vsa、ρ和φ,以及分离性能指标n
p-xylene
和s
p/(m+o)
建立数据集。
45.(2)进行机器学习:
46.基于步骤(1)的数据集,使用bpnn和dt对mof结构参数(pld、lcd、vsa、ρ和φ)和分离性能指标(n
p-xylene
和s
p/(m+o)
)进行了多变量分析。
47.具体的,对于每种机器学习算法,将数据集随机分为训练集、验证集和测试集,其中70%用于训练模型,15%用作验证集以调整超参数,其余用于测试。在找到最佳参数之后,使用训练和验证集作为整体来执行训练。最后,以五折交叉验证结果的平均值作为模型精度的估计值,在测试集上对模型进行测试,更好地反映了模型的泛化能力。每个算法都运
行五次,最终结果是每个性能指标预测的平均值。在训练集和测试集上,利用五折交叉验证配合决定系数r2值和平均绝对误差mae,定量地描述机器学习模型预测结果的准确性。
48.如图2所示,bpnn和dt在预测n
p-xylene
和s
p/(m+o)
方面表现出类似的性能。两种ml方法预测的n
p-xylene
与模拟值吻合较好,r2和mae分别为0.90-0.92和0.26-0.28。然而,s
p/(m+o)
的预测值与模拟值并不吻合,因为两种最大似然法的r2都小于0.65。在此基础上,用两种ml方法对s
p/(m+o)
进行精确预测是不可行的。因此,需要对n
p-xylene
和s
p/(m+o)
之间的关系进行优化,使得机器学习预测效果变好。
49.(3)分析和优化分离性能之间权衡参数:
50.将粒子群算法(pso)应用于n
p-xylene
和s
p/(m+o)
的优化组合。通过假设n
p-xylene
和s
p/(m+o)
的权重是wn和ws(wn+ws=1),权衡变量f由以下wn公式计算:
[0051][0052][0053][0054]
其中f1和f2是每个mof的n
p-xylene
和s
p/(m+o)
,f
1min
和f
2min
是所有mof中最小的n
p-xylene
和s
p/(m+o)
,而f
1max
和f
2max
是最大的n
p-xylene
和s
p/(m+o)
。在wn+ws=1,
[0055]
wn>0和ws>0,精度为0.01的条件下,通过重复bpnn或dt方法的计算,得到了wn和ws的一组帕累托解中的唯一解.。在bp神经网络方法中,特征向量x=(x1、x2、x3、x4和x5)是五个mof描述符(vsa、pld、lcd、φ和ρ)。归一化后,将该向量作为神经网络工具箱的输入,在1000次迭代后预测输出f
′
。在dt中,使用相同的描述符(vsa、pld、lcd、φ和ρ)对dt训练进行分类以预测f
′
。粒子群优化后,wn=0.6,ws=0.4达到了最好的拟合效果,尤其是bpnn算法。图3(a)中的bpnn和图3(b)中的dt预测的f
′
与计算的f
′
吻合较好,r2分别为0.94和0.90,均高于图2。这表明适当的对n
p-xylene
和s
p/(m+o)
的组合有助于用ml方法实现更好的预测。
[0056]
(4)评估描述符对分离的重要性:
[0057]
研究每个描述符对分离性能的影响是有指导意义的,这在原则上允许人们通过调整特定的描述符来设计mof。为此,使用bpnn算法对每个描述符的权重因子进行分析。将权衡变量f作为因变量,选取ρ、φ、lcd、pld和vsa中的4个描述符作为自变量来进行机器学习。如图4所示,在没有ρ,φ、pld或lcd的情况下,预测的f
′
无法与计算值匹配。只有在没有vsa的情况下,预测才令人满意。在rmse的基础上,通过估计每个描述符在六个不同的mof数据集中的重要性。
[0058]
在所有数据集中,vsa的重要性可以忽略不计。由于几何描述符之间的高度相关性,因此对于除vsa之外的所有描述符,表1中列出的重要性与此相似。为了减少相似性,我们使用较小的数据集重新计算了重要性。在所有数据集和前1000个数据集中,pld、lcd、φ和ρ具有相似的重要性(0.21-0.27)。随着n
p-xylene
和s
p/(m+o)
从前1000名增加到前100名,即数据点数量下降,pld和lcd变得更加重要,而φ和ρ则不那么重要。在前100名数据集中,pld和lcd的重要性分别达到0.37和0.28。相比之下,φ和ρ的重要性为0.12-0.16,这表明它们在
控制分离性能方面的作用不重要。
[0059]
表1:
[0060][0061]
(5)筛选最优的mof:
[0062]
结合之前的分析,设置n
p-xylene
》0.5mol/kg和s
p/(m+o)
》5,可以筛选出7种性能最好的mof。分析了这七个mof的结构,得到7个mof的pld和lcd分别位于0.505-0.588nm和0.540-0.670nm的狭窄区域;φ和ρ处于相对较大的范围0.32-0.58和1.378-2.253g/cm-3
;而vsa在较大的范围649.17-1435.97m-2
/cm-3
。再次证明孔大小是决定分离性能的一个重要的结构描述符,而vsa则起着微不足道的作用。
[0063]
比较了七种mof(jivfuq、gayfod、raczec、cavsup、raczig、mifpuo和rigwip)的n
p-xylene
和s
p/(m+o)
,七个mof的n
p-xylene
都受到mof框架灵活性的微弱影响。而对于s
p/(m+o)
,其影响依赖于mof。综合考虑灵活性,jivfuq是七种mof中最好的。
[0064]
在识别出的七个性能最佳的mof中,jivfuq有最大的n
p-xylene
和s
p/(m+o)
,具体检查jivfuq中的结构和吸附性能。该mof由准椭圆形孔组成,孔是均匀的,直径约为0.623nm,孔的形状和直径适合容纳对二甲苯而非间二甲苯和邻二甲苯。为了确定孔直径为0.67nm的对二甲苯能否在jivfuq中扩散,对jivfuq中的单个对二甲苯分子在100℃下进行了分子动力学(md)模拟。具体的方法是在373k的正则系综中,使用materialstudio中的forcite模块进行了具有框架灵活性的md模拟,采用了与gcmc模拟中相同的力场和原子电荷,系统温度由nose-hoover方法维持,md持续时间为2ns,每200ps产生10个结构。结果显示对二甲苯分子可以在jivfuq的孔隙中扩散。因此通过进一步结合框架的灵活性,jivfuq被预测为最好的,并且优于文献中报道的许多mof。
[0065]
使用时,基于zeo++、raspa程序得到的几何结构描述符以及巨正则蒙特卡洛模拟得到的吸附性能,能够快速筛选并预测出对目标气体具有较高吸附性能的mof,不仅效率高,且建立的机器学习模型也能适用于其他mof,具有普遍性。对研发其他的高性能mof,具有指导意义;基于机器学习技术,与传统的实验“试错”方法、巨正则蒙特卡洛模拟方法和分子动力学方法相比,本发明方法筛选高性能mof更加高效,能够节省大量的时间、金钱与人力资源,有助于加快高性能mof材料的筛选和研发进程;从统计学角度筛选预测材料性能,相对于传统实验和模拟计算方法,本发明方法得到的结果可靠性较高,且具有普遍性,能为
后续研究mof材料结构与性能的关系指明道路。
[0066]
本发明上述实施例提供的基于二甲苯异构体分离的htcs和机器学习协同方法,基于zeo++、raspa程序得到的几何结构描述符以及巨正则蒙特卡洛模拟得到的吸附性能,能够快速筛选并预测出对目标气体具有较高吸附性能的mof,建立的机器学习模型能适用于其他mof,对研发其他的高性能mof具有指导意义;与传统的实验“试错”方法、巨正则蒙特卡洛模拟方法和分子动力学方法相比,本发明方法筛选高性能mof更加高效,能够节省大量的时间、金钱与人力资源,有助于加快高性能mof材料的筛选和研发进程。
[0067]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。