一种基于分层信息提取机制的化学反应理论产量预测方法

文档序号:37654147发布日期:2024-04-18 20:28阅读:8来源:国知局
一种基于分层信息提取机制的化学反应理论产量预测方法

本发明涉及深度学习、化学反应特征提取和化学反应理论产量预测等领域。


背景技术:

1、1.化学反应理论产量预测

2、化学反应理论产量预测在化学和医药等领域中具有重要的作用,化学反应理论产量预测可以帮助化学工程师和研究人员了解未知化学方程式的可能产量,对指导后续的化学实验具有重要作用。在药物研发和有机合成领域,理论产量预测可以帮助研究人员预测化合物的合成产量,从而选择最有效的反应路径和条件。这对于设计合成路线、优化反应步骤和改进合成方法非常重要,可以加快新药的开发过程和提高化学合成的效率。

3、具体而言,化学反应理论产量预测,就是根据提供的化学反应方程式,推测该化学反应可能的产物产量。而传统的化学反应产量预测,可能需要反应物的比例关系、反应环境的ph值、反应的平衡常数以及反应物的初始量,推导出产物的理论产量。这个计算过程基于化学反应的平衡定律,即化学反应在达到平衡时,反应物和产物的摩尔比例将满足一定的平衡常数关系。

4、而在实际的生产领域,研究人员首先可能无法明确了解一个反应如此详细的信息,并且在实际工程中经常需要面对的问题是面对大量的产量未知的反应,如何从其中挑选理论产量最高的反应,在这一个过程中,对于研究人员来说,最需要知道的是在统一度量下,哪一个反应的产量最高,而不需要知道每个反应的实际产量值,而将每个反应的都进行详细地产量研究,无疑会极大拖延研发速度。因此需要引入新的工具对反应的理论产量进行快速地、较为准确地预测,便于研究人员快速缩小化学反应的选择范围。基于残差块的卷积神经网络技术2.深度学习神经网络

5、深度学习神经网络是一种机器学习模型,它由多个神经网络层组成,每一层都包含许多神经元(或称为节点)。这些层之间的连接是按照特定的模式组织的,允许信息在网络中传递和处理。深度学习神经网络通常具有多个隐藏层。每个隐藏层都由许多神经元组成,这些神经元接收来自前一层神经元的输入,并通过一些非线性的转换函数(如激活函数)处理这些输入。这样的层级结构使得网络能够学习更加抽象和复杂的特征表示。

6、深度学习神经网络的训练过程是通过反向传播算法来实现的。在训练过程中,网络接收一组已知的输入数据,并生成对应的输出。通过计算输出与真实值之间的误差,并使用梯度下降等优化算法,网络的权重和偏置被调整以最小化误差。这个过程重复进行多次,直到网络能够在给定输入上产生准确的输出。

7、深度学习神经网络的优势在于它可以自动学习输入数据中的特征表示,而无需人工手动设计特征。这使得深度学习在处理大规模、高维度的数据(如图像、文本和音频)方面非常有效。通过增加网络的深度,深度学习模型可以学习到更加复杂和抽象的特征表示,从而提高模型的表达能力和性能。

8、正是深度学习神经网络这种强大的特征提取和归类能力,使得其可以通过学习已知的化学反应产量,从而归类出这些化学反应和其产量之间的某种映射关系,从而进行未知化学反应产量的预测。

9、3.在深度学习中的化学反应特征提取

10、现阶段的自然语言处理模型,都不可避免的需要进行分词操作。这是因为在自然语言处理任务中,文本通常以句子或段落的形式存在,而模型无法直接处理这些连续的文本。因此,需要将文本转换为一系列离散的“记号”(token)。而对于化学反应理论产量预测来说,这一步可以是认为是对化学反应特征的提取。

11、这个过程通常包括以下几个步骤分词(tokenization):

12、(1)将输入文本切分成单词、子词(subwords)或字符等离散单元。分词的目的是将连续的文本转换为离散的token,使得自然语言处理模型可以对其进行处理。常见的分词方法包括基于空格的分词、基于规则的分词以及基于机器学习的分词算法。

13、(2)构建字典(vocabulary):根据分词结果构建一个字典,将每个token映射到一个唯一的整数索引。这个字典用于将文本中的token转换为模型可以理解的数字表示形式。

14、(3)数字化(numericalization):使用字典将分词后的文本转换为对应的数字表示。每个token被替换为它在字典中的整数索引,从而生成一个数字序列。

15、传统的基于自然语言处理模型的化学反应理论产量预测在分词上,仅仅是采用最简单将每个化学字母分隔开,如图1所示,这无疑是极大的抹去了化学反应本身的特征。因此本发明在化学反应的特征提取上也进行了创新。


技术实现思路

1、本发明所解决的技术问题是,针对现有的基于深度学习的化学反应理论产量预测方法对化学反应的注意力过于局限、并且传统的化学反应特征的提取方法造成大量化学反应特征的丢失的问题,提出一种将全局注意力和局部注意力结合的,并且从更深层次提取化学反应特征的化学反应理论产量预测方法。

2、本发明所采用的技术方案是:一种基于分层信息提取机制的化学反应理论产量预测方法,包括如下步骤:

3、步骤1:提出一种新的化学反应特征提取方法

4、步骤2:提出一种新的化学反应分层信息提取机制

5、步骤3:提出一种基于分层信息提取机制的化学反应理论产量预测网络架构

6、三个步骤,分别说明如下:

7、步骤1:一种新的化学反应特征提取方法

8、区别于传统的自然语言处理模型中的化学反应的处理方式,在本发明中,为了尽可能的挖掘反应隐藏的特征,提出了一种新的反应特征提取方法。

9、首先,通过调研大量的化学反应过程,可以明确大多数化学反应如果总结到最后,都可以认为是反应物分子之间的某一个子结构之间发生反应,从而生成新的结构,从而生成新的产物分子。因此,对于化学反应来说,反应物和产物分子中的子结构无疑会对反应的发生提供重要信息,因此本模型提出,在模型的输入阶段,将过去传统给transformer网络架构中的token过程进行改进,通过反应的smiles信息,提取反应物和产物中原子之间距离为0,1,2的子结构,并称之为“基团”,将这些基团看作是化学反应方程式的一种分词。

10、这种新的分词方式,克服了传统的transformer网络中的token过程无法有效提取化学反应中有效特征的问题。通过提取原子之间距离为0,1,2这三种情况下的基团,基本可以做到即覆盖了反应物和产物中的原子,又尽量保留了反应物和产物中不同原子之间的结构关系,最大可能的保留反应信息。

11、为了进一步提取不同基团之间的信息,本发明又改进了传统的word2vec词向量模式,提出了一种基团嵌入方法。

12、进一步的步骤1的具体步骤如下所示:

13、步骤101:根据输入的反应方程的smiles格式字符串,依次提取反应中的反应物和化合物,然后将其转换为化学分子对象,然后计算反应中的指定距离的基团,并保存为变量datas。如分子op(=o)(o)op(=o)(o)o,提取原子距离为1的基团,可以得到″op″、″o=p(o)(o)o″、″o=p″、″pop″四种基团。

14、步骤102:统计所有化合反应方程中的不重复基团,然后将这些基团从0开始依次用整数标记,这样就得到了基团和数字的映射表。

15、步骤103:步骤101中得到的反应的基团集合输入到word2vec中,进行基团向量嵌入矩阵的生成。

16、步骤2:提出一种新的化学反应分层信息提取机制

17、本发明为了全面兼顾反应局部和整体的变化情况,创新性的提出了针对化学反应的分层信息提取机制。本发明中的分层信息提取机制的主要思想,就是首先尽可能多的提取反应局部基团的信息,然后对反应局部基团信息进行浓缩,得到反应的全局信息,最后将反应的总体信息再次进行提取浓缩,综合为反应的总体信息。通过这种思想可以尽可能的提取并综合反应信息,得到较好的预测效果。

18、具体而言,首先经过反应基团提取之后的得到的基团,会经过一组基团编码器,这组编码器由基团嵌入矩阵we和双向gru构成。基团嵌入矩阵首先将每个反应的离散基团序列映射为向量。然后将该向量输入双向gru中,作为一种循环神经网络,gru非常适合处理序列数据,同时本模型使用双向gru可以更容易的来融合不同基团的信息。如公式(1)所示:

19、xit=wegit,t∈[1,t],

20、

21、

22、其中t表示第i个反应中提取到的总基团个数为t,git标识第i个反应中的第t个基团,we表示初始生成的基团嵌入向量,表示前向gru,表示后向gru。通过公式(1)就得到了该反应的中的关于第i个反应中第g个基团的双向gru融合信息,并结合为公式(2)。

23、

24、但是,不同基团在反应中的作用是不同的,因此在一个反应的众多基团中势必有的基团更加重要,因此为了能够有效区分不同基团之间的重要程度,本发明在提取了基团的融合基因之后,加入了对同一个反应中的基团的注意力机制,具体的注意力计算如公式(3)所示。

25、uit=tanh(wghit+bg),

26、

27、

28、在公式(3)中,首先将公式(2)中得到的hit输入到只有一层的多层感知网络中,得到uit,其中wg和bg是多层感知网络自动生成的系数。之后通过uit和ug得到归一化的基团重要性矩阵αit,其中ug是随机初始化生成的向量,并且在后续的模型运行过程中会不断的学习更新。然后计算基于权重的基团信息的加权和作为第i个反应的反应向量si,至此综合了反应中提取到的所有基团的有效信息。

29、在完成了基团层级的编码和注意力之后,再开始进行反应层级的编码和注意力。与基团层级的注意力模型相似,首先通过公式(4)得到第i反应经过双向gru提取到的全局信息。

30、

31、

32、

33、得到了每个反应的全局信息之后,首先要将每个反应全局融合信息hi,输入到多层感知网络得到针对反应的总体信息的权重ui,并且引入了反应层级的知识向量ur,并且向量ur会在之后的训练中不断的学习反应的总体知识,然后计算得到针对每个反应的总信息权重αi。反应层级的注意力公式如公式(5)所示

34、ui=tanh(wshi+bs),

35、

36、

37、最后使用得到的反应的总体权重αi,对反应的全局融合信息hi再次进行信息的归纳提取,就获得了整体信息的浓缩向量v。至此就构建了具备反应基团信息和反应全局信息的分层信息提取机制。

38、步骤3:提出基于分层信息提取机制的化学反应理论产量预测网络架构

39、综上,本发明提出了如图2所示的一种基于分层信息提取机制的化学反应的理论产量预测模型架构。

40、该模型架构的具体运行步骤分如下几步:

41、1)根据化学反应的smiles格式的表达式,提取其中的半径r为0、1、2的特征基团,并生成相应的基团嵌入矩阵。

42、2)将提取到的反应特征基团通过基团嵌入矩阵,将一个基团转化为一组向量。

43、3)将基团向量输入到分层信息提取机制网络中。

44、4)首先通过局部信息提取层,在局部信息提取层中利用双向gru充分收集基团的信息。

45、5)进行基团层级的自注意力,给予重要的基团更多的权重。

46、6)将每个反应的基团信息汇总浓缩,得到反应的全局信息。

47、7)将反应全局信息再输入全局信息提取层,其中也利用双向gru充分收集信息。

48、8)计算反应全局的信息权重。

49、9)将反应的全局信息乘以全局信息权重将反应信息进行聚合浓缩。

50、10)将综合信息输入回归头中进行产量的预测,为了避免训练过程中的过拟合情况出现,在回归头之前设置了概率为0.2的随机神经元屏蔽。

51、11)和正确的产量值进行比较,计算loss值。

52、12)反向传播,促进网络进一步学习。

53、整个模型共由11层网络组成,以预测buchwald-hartwig偶联反应的反应产率为例,图3展示了11层网络的具体组成及每层网络尺寸。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1