利用分子表征学习预测化学反应产率的方法及相关设备

文档序号:37942893发布日期:2024-05-11 00:23阅读:21来源:国知局
利用分子表征学习预测化学反应产率的方法及相关设备

本发明涉及人工智能,尤其涉及一种利用分子表征学习预测化学反应产率的方法、系统、终端及计算机可读存储介质。


背景技术:

1、化学反应的性能如产率和选择性受到多达数十个控制变量的影响,这些控制变量不仅包括直接参与反应的分子,还包括催化剂、溶剂以及可能的添加剂等化学分子。分子表征学习是计算机科学与生物信息学领域之间的桥梁。它将分子信息编码为数值向量以供下游应用程序使用。通过对反应条件相关的分子进行分子表征学习,研究人员能够进行化学反应性能的预测研究,以更好地理解和优化反应的产率和选择性。

2、目前使用分子表征学习对化学反应产率进行预测的模型主要利用分子指纹和分子二维图结构。例如,利用分子指纹在三种不同的化学反应预测任务中展现了优秀的性能,虽然组合分子指纹包含更多的结构信息,但单个分子的特征维度高达71374,对于包含多种成分(如4种成分)的复杂有机反应,反应的特征维度可达数万,此外,达到最先进预测性能的随机森林模型有5000-10000棵决策树,以上两点使得该方法对计算资源的要求很高。例如,利用分子图,基于图神经网络的模型,能够直接将分子结构作为输入对反应产率和立体选择性进行预测,但是只利用了二维分子结构,然而二维的分子图无法完美地覆盖分子的化学结构和坐标,缺乏学习分子几何知识的能力。

3、因此,现有技术还有待于改进和发展。


技术实现思路

1、本发明的主要目的在于提供一种利用分子表征学习预测化学反应产率的方法、系统、终端及计算机可读存储介质,旨在解决现有技术中使用分子表征学习对化学反应产率进行预测的模型对计算资源的要求很高,使用分子图得到的二维信息导致结构信息缺失的问题。

2、为实现上述目的,本发明提供一种利用分子表征学习预测化学反应产率的方法,所述利用分子表征学习预测化学反应产率的方法包括如下步骤:

3、获取多个反应构成的数据集,其中,每个反应包含4种分子的二维结构信息、三维结构信息和每个反应的实际产率;

4、将所述数据集输入到二维信息模块,经过所述二维信息模块对所述数据集进行处理,得到反应的二维特征向量;

5、将所述数据集输入到三维信息模块,经过所述三维信息模块对所述数据集进行处理,得到反应的三维特征向量;

6、将所述二维特征向量和所述三维特征向量分别输入到多层感知机模块,所述多层感知机模块对所述二维特征向量和所述三维特征向量进行降维处理,得到二维产率预测值和三维产率预测值,将4种分子经过融合的二维特征向量和三维特征向量再次融合,对整个反应的产率进行预测。

7、可选地,所述的利用分子表征学习预测化学反应产率的方法,其中,所述二维结构信息包括原子属性向量和原子之间的连接关系。

8、可选地,所述的利用分子表征学习预测化学反应产率的方法,其中,所述三维结构信息包括原子的三维坐标和原子序数。

9、可选地,所述的利用分子表征学习预测化学反应产率的方法,其中,所述二维信息模块的框架为图神经网络,所述二维信息模块的隐藏层大小设置为64,gnn网络层数设置为2层,激活函数选用leakyrelu。

10、可选地,所述的利用分子表征学习预测化学反应产率的方法,其中,所述将所述数据集输入到二维信息模块,经过所述二维信息模块对所述数据集进行处理,得到反应的二维特征向量,具体包括:

11、输入到所述二维信息模块的分子数据尺寸为n*10,其中,n为每个分子中的原子个数;

12、所述分子数据经过输入编码后,数据尺寸变为n*64,经过解码尺寸变为n*16,得到每个原子的特征向量;

13、将所有原子的特征向量进行取均值操作,得到整个分子的特征向量;

14、一个反应包含的4类分子依次输入到所述二维信息模块中,得到4个分子的特征向量,将4个分子的特征向量进行拼接,得到反应的二维特征向量,维度为1*64。

15、可选地,所述的利用分子表征学习预测化学反应产率的方法,其中,所述三维信息模块的框架为球形消息传递网络。

16、可选地,所述的利用分子表征学习预测化学反应产率的方法,其中,所述将所述数据集输入到三维信息模块,经过所述三维信息模块对所述数据集进行处理,得到反应的三维特征向量,具体包括:

17、根据输入的三维数据将原子坐标转化为原子间距、键角和扭矩;

18、基于球形bessel函数根据原子间距、键角和扭矩分别计算得到距离嵌入、键角嵌入和扭矩嵌入,经过线性变换和非线性变换得到分子中每条边的特征向量;

19、将分子中所有边的特征向量聚合为所有原子节点的特征向量,将所有原子节点的特征向量聚合为1*16的分子特征向量;

20、将每个反应的反应条件分子三维结构信息依次输入到所述三维信息模块中,得到多个三维特征向量,将每个三维特征向量进行拼接得到反应的三维特征向量,维度为1*64。

21、此外,为实现上述目的,本发明还提供一种利用分子表征学习预测化学反应产率的系统,其中,所述利用分子表征学习预测化学反应产率的系统包括:

22、数据集获取模块,用于获取多个反应构成的数据集,其中,每个反应包含4种分子的二维结构信息、三维结构信息和每个反应的实际产率;

23、二维信息处理模块,用于将所述数据集输入到二维信息模块,经过所述二维信息模块对所述数据集进行处理,得到反应的二维特征向量;

24、三维信息处理模块,用于将所述数据集输入到三维信息模块,经过所述三维信息模块对所述数据集进行处理,得到反应的三维特征向量;

25、反应产率预测模块,用于将所述二维特征向量和所述三维特征向量分别输入到多层感知机模块,所述多层感知机模块对所述二维特征向量和所述三维特征向量进行降维处理,得到二维产率预测值和三维产率预测值,将4种分子经过融合的二维特征向量和三维特征向量再次融合,对整个反应的产率进行预测。

26、此外,为实现上述目的,本发明还提供一种终端,其中,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的利用分子表征学习预测化学反应产率的程序,所述利用分子表征学习预测化学反应产率的程序被所述处理器执行时实现如上所述的利用分子表征学习预测化学反应产率的方法的步骤。

27、此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有利用分子表征学习预测化学反应产率的程序,所述利用分子表征学习预测化学反应产率的程序被处理器执行时实现如上所述的利用分子表征学习预测化学反应产率的方法的步骤。

28、本发明中,获取多个反应构成的数据集,其中,每个反应包含4种分子的二维结构信息、三维结构信息和每个反应的实际产率;将所述数据集输入到二维信息模块,经过所述二维信息模块对所述数据集进行处理,得到反应的二维特征向量;将所述数据集输入到三维信息模块,经过所述三维信息模块对所述数据集进行处理,得到反应的三维特征向量;将所述二维特征向量和所述三维特征向量分别输入到多层感知机模块,所述多层感知机模块对所述二维特征向量和所述三维特征向量进行降维处理,得到二维产率预测值和三维产率预测值,将4种分子经过融合的二维特征向量和三维特征向量再次融合,对整个反应的产率进行预测。本发明旨在同时利用分子二维结构信息和三维结构信息的特征,增强分子的结构信息,对化学反应的产率进行预测,利用三维分子信息来改善分子表征学习,以更准确地预测化学反应的产率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1