一种有机框架设计方法、装置、电子设备和存储介质

文档序号:30665869发布日期:2022-07-06 02:55阅读:536来源:国知局
一种有机框架设计方法、装置、电子设备和存储介质

1.本发明涉及计算化学与纳米复合催化材料领域,尤其涉及一种有机框架设计方法、装置、电子设备和存储介质。


背景技术:

2.许多天然和合成化合物表现出手性,这意味着它们以左手或右手的形式存在。彼此互为镜像的分子被称为对映体。制药、农业和食品工业中手性分子的分离非常重要,因为通常一个分子的两种可能形式中只有一种具有生物活性。特别是在制药方面,现在非常急切需要开发不对称合成和对映体分离的新技术。
3.但由于手性分子的物理性质相似,许多经典的分离方法不适合分离对映体。目前有许多方法用于手性分离,包括结晶、动力学解析、膜分离和色谱法。特别是,手性色谱法是生产单一对映体化合物的最重要方法之一。在色谱法中,(r,s)-对映体与手性受体的不同相互作用是对映体分离的驱动力。然而,手性化合物或受体的微小结构差异往往导致没有选择性,甚至是相反的对映选择性,这使得设计或选择一个合适的手性选择器来进行特定的分离很困难。这个问题激发了研究者们长期以来对开发这种应用的新材料的兴趣。
4.多孔材料如沸石被应用于许多基于吸附的分离,但很少有沸石表现出手性框架。近年来,同手性金属有机框架(hmof)在选择性分离对映体方面引起了很大的关注。对于hmof来说,其孔隙的大小和形状是可以调整的,这可以提供广泛的多孔结构,包括用于对映体分离的手性腔。
5.但是,hmof是如何对对映体进行分离的以及如何设计hmof以获得高对映体分离能力等问题还没有完全解决。
6.而分子模拟是预测多孔材料对映分离特性和提高研究者们对对映选择性吸附行为理解的有力方法,因此其能用于分析分离机制以及设计对映选择性吸附剂。
7.近年来火热的机器学习也受到了研究者们广泛地关注,机器学习可以通过模拟与实现人类学习行为获得新的知识,并在此基础上不断提高自身性能。目前,机器学习已成功应用于不同材料的性能预测以及材料的设计,但机器学习很难准确地处理mof的原子结构。


技术实现要素:

8.本发明的目的在于提供一种有机框架设计方法及装置,基于机器学习技术和分子指纹,以解决现有的机器学习很难准确地处理mof的原子结构的问题。
9.为了达到上述目的,本发明采用如下技术方案:
10.一种有机框架设计方法,其包括如下步骤:
11.s1,通过巨正则蒙特卡洛模拟进行计算筛选,获取fhmof在不同温度下的对映体过量百分数ee;
12.s2,把fhmof的有机链接转化为分子指纹;
13.s3,选择机器学习算法,把分子指纹作为输入,预测fhmof中手性分离性能与特定
指纹特征之间的关系。
14.作为优选,所述巨正则蒙特卡洛模拟用于筛选(r,s)-dma在45个功能化s-hmof中的对映选择性吸附,筛选环境为:温度为300~500k,压力为105pa,外部流体相中包含r-dma 和s-dma的等摩尔混合物。
15.通过引入分子指纹作为机器学习的输入。分子指纹能够把分子转化为一系列的向量,然后就可以很容易地在分子之间进行比较。运用分子指纹,可以使得机器学习准确地预测关键官能团的分子指纹与fhmof的对映体过量百分数ee的关系,并可以通过比较分子指纹的相似性来设计新的高性能fhmof。
16.作为优选,通过巨正则蒙特卡洛模拟进行计算筛选,包括:
17.使用raspa软件包进行巨正则蒙特卡洛模拟,
18.使用标准的12-6lennard-jones势模拟原子间的色散和排斥相互作用,截止距离为为
19.使用lorentz-berthelot组合规则计算流体-框架交叉作用参数;
20.通过密度泛函理论,采用b3lyp函数和6-31g基础集获取dma分子和功能化连接体的几何形状;
21.使用chelpg方法和密度泛函理论计算的b3lyp函数和lanl2dz基集对mof的代表性部分计算hmof和(r,s)-dma分子的电荷;
22.通过ewald求和技术计算吸附剂-被吸附物和被吸附物-被吸附物的静电相互作用;
23.每个模拟包括4
×
105个周期,其中一个周期由20和n个蒙特卡洛移动的最小值组成,其中n是周期开始时系统中分子的数量;
24.前2
×
105个周期用于平衡,后2
×
105个周期用于积累平均数;
25.同概率地进行平移、旋转、身份改变和与存储库进行交换这四种类型的试验动作。
26.作为优选,所述分子指纹用于将fhmof的结构特征或元素组成转换为二进制数据。
27.作为优选,所述s2包括:
28.将fhmof的有机链接输入到rdkit中,获得rdkit指纹、morgan指纹、maccs指纹和avalon 指纹;
29.rdkit指纹的长度为2048比特位;
30.morgan指纹,搜索半径为2,长度为2048比特位;
31.将fhmof的有机链接输入到padel-descriptor中,获得pubchem指纹、cdk指纹、cdkextend指纹、substructure指纹和graphonly指纹;
32.pubchem指纹的长度为881比特位;
33.cdk指纹的长度为1024比特位,搜索深度为8;
34.cdkextend指纹用于描述附加环的特征,长度为1024比特位;
35.substructure指纹的长度为307比特位;
36.graphonly指纹为1024比特位。
37.作为优选,所述s3包括:
38.把fhmof分为高性能和低性能两类;
39.若fhmof的ee》60%,则fhmof属于高性能这一类,否则,fhmof属于低性能这一类。
40.作为优选,所述s3还包括:
41.通过网格搜索优化选择机器学习的参数,然后使用留一交叉验证法和所选参数最大化测试集的准确性;
42.网格搜索优化对每个参数的可能值进行组合,并列出所有可能的组合结果,生成网格;
43.将所有的组合用于机器学习训练,并通过留一交叉验证来评估fhmof的性能,
44.一次预测完成后,再次选择新的44个数据作为训练数据;
45.经过45个周期,所有的数据都被应用于训练集和测试集,所有的45个测试集都被用来计算准确率;
46.在留一法交叉验证遍历了所有的参数组合后,返回一个分类器并自动调整到最佳参数组合。
47.第二方面,本发明提供了一种有机框架设计装置,包括筛选模块、转化模块和预测模块;
48.筛选模块用于通过巨正则蒙特卡洛模拟进行计算筛选,获取fhmof在不同温度下的对映体过量百分数ee;
49.转化模块用于把fhmof的有机链接转化为分子指纹;
50.预测模块用于选择机器学习算法,把分子指纹作为输入,预测fhmof中手性分离性能与特定指纹特征之间的关系。
51.第三方面,本发明提供了一种电子设备,包括:至少一个处理器、存储器;
52.所述存储器存储计算机执行指令;
53.所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行第一方面任一项所述的方法。
54.第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现第一方面任一项所述的方法。
55.本发明相对于现有技术具有如下优点及效果:
56.(1)本发明提出的设计方法,是一种基于分子指纹的高性能功能性同手性金属有机框架的方法,该方法基于巨正则蒙特卡洛模拟得到fhmof在不同温度下的对映体分离能力,能够避免传统实验“试错”方法所导致的一系列问题,并节省了大量的金钱与人力资源。
57.(2)本发明基于机器学习技术和分子指纹,不仅效率高,而且由于分子指纹的加入,使得机器学习能够更加准确地找出fhmof中关键官能团与对映体过量百分数(ee)的关系,且能更加精准地预测出具有高对映体分离能力的新型fhmof。
58.(3)本发明方法从统计学角度筛选预测材料性能,相对于传统实验和模拟计算方法,本发明方法得到的结果可靠性较高,且具有普遍性,能为后续研究mof材料结构与性能的关系指明道路。
附图说明
59.利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得
其它的附图。
60.图1为本发明实施例有机框架设计方法的流程示意图。
61.图2为本发明实施例的有机链接转化为分子指纹的示意图。
62.图3为本发明实施例4种ml算法对9种不同分子指纹的预测准确率示意图。
63.图4为本发明实施例通过nca算法得到的每个maccs指纹的权重示意图。
具体实施方式
64.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
65.实施例:
66.如图1所示,第一方面,本发明提供了一种有机框架设计方法,其包括如下步骤:
67.s1,通过巨正则蒙特卡洛模拟进行计算筛选,获取fhmof在不同温度下的对映体过量百分数ee;
68.s2,把fhmof的有机链接转化为分子指纹;
69.s3,选择机器学习算法,把分子指纹作为输入,预测fhmof中手性分离性能与特定指纹特征之间的关系。
70.把有机链接转化为分子指纹的示意图如图2所示。
71.作为优选,所述巨正则蒙特卡洛模拟用于筛选(r,s)-dma在45个功能化s-hmof中的对映选择性吸附,筛选环境为:温度为300~500k,压力为105pa,外部流体相中包含r-dma 和s-dma的等摩尔混合物。
72.作为优选,通过巨正则蒙特卡洛模拟进行计算筛选,包括:
73.使用raspa软件包进行巨正则蒙特卡洛模拟,
74.使用标准的12-6lennard-jones势模拟原子间的色散和排斥相互作用,截止距离为为
75.使用lorentz-berthelot组合规则计算流体-框架交叉作用参数;
76.通过密度泛函理论,采用b3lyp函数和6-31g基础集获取dma分子和功能化连接体的几何形状;
77.使用chelpg方法和密度泛函理论计算的b3lyp函数和lanl2dz基集对mof的代表性部分计算hmof和(r,s)-dma分子的电荷;
78.通过ewald求和技术计算吸附剂-被吸附物和被吸附物-被吸附物的静电相互作用;
79.每个模拟包括4
×
105个周期,其中一个周期由20和n个蒙特卡洛移动的最小值组成,其中n是周期开始时系统中分子的数量;
80.前2
×
105个周期用于平衡,后2
×
105个周期用于积累平均数;
81.同概率地进行平移、旋转、身份改变和与存储库进行交换这四种类型的试验动作。
82.标准的12-6lennard-jones势,即lj势被用来模拟原子间的色散和排斥相互作用,截止距离为lorentz-berthelot组合规则被用来计算流体-框架交叉作用参数。dma分子和功能化连接体的几何形状是通过密度泛函理论优化得到的,采用b3lyp函数和6-31g
基础集。hmof和(r,s)-dma分子的部分电荷是用chelpg方法和密度泛函理论计算的b3lyp函数和lanl2dz基集对mof的代表性部分进行计算。吸附剂-被吸附物和被吸附物-被吸附物的静电相互作用是通过ewald求和技术计算的。每个模拟包括4
×
105个周期,其中一个周期由 20和n个蒙特卡洛移动的最小值组成,其中n是周期开始时系统中分子的数量。前2
×
105个周期用于平衡,后2
×
105个周期用于积累平均数。四种类型的试验动作被随机地尝试:平移、旋转、身份改变和与存储库进行交换,包括插入和删除操作,概率相同。每个模拟都是独立运行的。
83.作为优选,所述分子指纹用于将fhmof的结构特征或元素组成转换为二进制数据。
84.作为优选,所述步骤s2包括如下具体步骤:
85.将fhmof的有机链接输入到rdkit中,获得rdkit指纹、morgan指纹、maccs指纹和avalon 指纹;
86.rdkit指纹的长度为2048比特位;
87.morgan指纹,搜索半径为2,长度为2048比特位;
88.maccs指纹和avalon指纹是直接生成的,没有特殊参数;
89.将fhmof的有机链接输入到padel-descriptor中,获得pubchem指纹、cdk指纹、 cdkextend指纹、substructure指纹和graphonly指纹;
90.pubchem指纹的长度为881比特位;
91.cdk指纹的长度为1024比特位,搜索深度为8;
92.cdkextend指纹用于描述附加环的特征,长度为1024比特位;
93.substructure指纹的长度为307比特位,目前支持307个子结构;
94.graphonly指纹为1024比特位,是一种特殊的cdk指纹,没有分子的键序。
95.作为优选,所述步骤s3包括如下具体步骤:
96.把fhmof分为高性能和低性能两类;
97.若fhmof的ee》60%,则fhmof属于高性能这一类,否则,fhmof属于低性能这一类。
98.作为优选,所述s3还包括:
99.通过网格搜索优化选择机器学习的参数,然后使用留一交叉验证法和所选参数最大化测试集的准确性;
100.网格搜索优化对每个参数的可能值进行组合,并列出所有可能的组合结果,生成网格;
101.将所有的组合用于机器学习训练,并通过留一交叉验证来评估fhmof的性能,
102.一共有45个数据,即除一个数据外的所有数据都被用于训练集,剩下的一个数据用于测试;
103.一次预测完成后,再次选择新的44个数据作为训练数据;
104.经过45个周期,所有的数据都被应用于训练集和测试集,所有的45个测试集都被用来计算准确率;
105.在留一法交叉验证遍历了所有的参数组合后,返回一个分类器并自动调整到最佳参数组合。
106.作为优选,机器学习算法包括但不限于决策树、随机森林、k-近邻和近邻成分分析。
107.为更好地描述本实施例,下面以一更具体实例加以说明。
108.(1)修改hmof:
109.采用了hmof(s-kumof-1)晶体结构,并选择十个不同的官能团对hmof的有机框架进行修改,得到45个fhmof。
110.其中选用的晶体结构为jeong等人的s-kumof-1晶体结构。
111.用来修改的官能团为-f、-cl、-br、-i、-ch3、-ch2ch3、-nh2、-no2、-oh和-nhcoh。
112.(2)运用gcmc进行计算筛选:
113.通过gcmc进行计算筛选,以探索45种fhmof在不同温度下的对映体分离能力。
114.gcmc模拟用于筛选(r,s)-dma在45个功能化s-hmof中的对映选择性吸附,温度为300~500k,压力为105pa,外部流体相中有r-dma和s-dma的等摩尔混合物。
115.所有模拟都是用raspa软件包进行。标准的12-6lennard-jones(lj)势被用来模拟原子间的色散和排斥相互作用,截止距离为lorentz-berthelot组合规则被用来计算流体-框架交叉作用参数。dma分子和功能化连接体的几何形状是通过密度泛函理论优化得到的,采用b3lyp函数和6-31g基础集。hmof和(r,s)-dma分子的部分电荷是用chelpg方法和密度泛函理论计算的b3lyp函数和lanl2dz基集对mof的代表性部分进行计算。吸附剂
‑ꢀ
被吸附物和被吸附物-被吸附物的静电相互作用是通过ewald求和技术计算的。每个模拟包括 4
×
105个周期,其中一个周期由20和n个蒙特卡洛移动的最小值组成,其中n是周期开始时系统中分子的数量。前2
×
105个周期用于平衡,后2
×
105个周期用于积累平均数。四种类型的试验动作被随机地尝试:平移、旋转、身份改变和与贮藏室的交换(插入和删除动作),概率相同。每个模拟都是独立运行的。
116.(3)分子指纹转化:
117.将fhmof的结构特征或元素组成转换为分子指纹。
118.转化的分子指纹共9种。在rdkit中生成了4个分子指纹,包括rdkit指纹、morgan指纹、maccs指纹和avalon指纹。rdkit指纹的长度被设定为2048比特位。对于morgan指纹,搜索半径被设置为2,长度为2048比特位。maccs指纹和avalon指纹是直接生成的,没有特殊参数。另一个分子指纹软件padel-descriptor是由chun小组开发的,用于计算分子描述符,生成了5种分子指纹,分别是pubchem指纹、cdk指纹、cdkextend指纹、substructure 指纹和graphonly指纹。关键指纹(pubchem)的长度为881比特位。cdk指纹的长度为1024 比特位,搜索深度为8,cdkextend指纹主要描述附加环的特征,包含1024比特位。子结构指纹的长度为307比特位,目前支持307个子结构。graphonly指纹为1024比特位,是一种特殊的cdk指纹,没有分子的键序。
119.(4)进行机器学习预测:
120.选择机器学习算法,把分子指纹作为输入,预测fhmof中手性分离性能与特定指纹特征之间的关系。
121.(5)机器结果分析与讨论。
122.为了进一步确定官能团的影响,设计新的官能团以提高fhmof的ee,采用ml和mf相结合的方法,对45个fhmof进行了多元分析,最终结果如图3所示。从图3可知,使用近邻成分分析算法,其最高准确率超过0.8,略微优先于随机森林、决策树和k-近邻算法。且maccs 相对于其他8种分子指纹而言,效果较优。因此运用近邻成分分析算法对每一个maccs指纹的
权重进行预测,最终得到权重较大的指纹为第161位、第158位、第156位、第142位、第135位、第133位maccs指纹,如图4所示。
123.第二方面,本发明实施例提供的有机框架设计装置,包括筛选模块、转化模块和预测模块;
124.筛选模块用于通过巨正则蒙特卡洛模拟进行计算筛选,获取fhmof在不同温度下的对映体过量百分数ee;
125.转化模块用于把fhmof的有机链接转化为分子指纹;
126.预测模块用于选择机器学习算法,把分子指纹作为输入,预测fhmof中手性分离性能与特定指纹特征之间的关系。
127.第三方面,本发明提供的电子设备,包括:至少一个处理器、存储器;
128.所述存储器存储计算机执行指令;
129.所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行第一方面任一项所述的方法。
130.第四方面,本发明提供的计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现第一方面任一项所述的方法。
131.本发明相对于现有技术具有如下优点及效果:
132.(1)本发明提出的基于分子指纹的高性能功能性同手性金属有机框架的设计方法,该方法基于巨正则蒙特卡洛模拟得到fhmof在不同温度下的对映体分离能力,能够避免传统实验“试错”方法所导致的一系列问题,并节省了大量的金钱与人力资源。
133.(2)本发明基于机器学习技术和分子指纹,不仅效率高,而且由于分子指纹的加入,使得机器学习能够更加准确地找出fhmof中关键官能团与对映体过量百分数(ee)的关系,且能更加精准地预测出具有高对映体分离能力的新型fhmof。
134.(3)本发明方法从统计学角度筛选预测材料性能,相对于传统实验和模拟计算方法,本发明方法得到的结果可靠性较高,且具有普遍性,能为后续研究mof材料结构与性能的关系。
135.尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
136.需要说明的是,在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元/模块中,也可以是各个单元/模块单独物理存在,也可以是两个或两个以上单元/模块集成在一个单元/模块中。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件功能单元/模块的形式实现。
137.通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解应当理解,可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现,处理器可以在一个或多个下列单元中实现:专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现,实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。
138.实现时,可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于ram、rom、eeprom、cd-rom或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1