基于多层级信息融合的药物化学反应类型预测方法

文档序号：33507055发布日期：2023-03-18 02:57阅读：70来源：国知局

1.本发明涉及药物化学反应类型预测的技术领域，尤其涉及到基于多层级信息融合的药物化学反应类型预测方法、系统、计算机及存储介质。

背景技术：

2.药物化学反应是将反应物转化为一种或多种产物的过程。在药物化学合成工具箱中，目前有数百种不同类型的反应可供选择。药物化学反应分类对于反应检索和新反应归类都有重要意义。之前，往往根据人工规则和经验对药物化学反应进行分类，这种分类方式不仅耗时耗力，也更容易出错。自从机器学习方法发展以来，各领域基于数据驱动的机器学习预测方法替代人工经验已成为必然趋势。
3.现有的使用机器学习方法进行药物化学反应类型分类的工作可以大致分为两个阶段：基于药物化学反应性质特征的传统机器学习模型和基于简化分子线性输入规范(smiles)的深度学习模型。其中，在第一个发展阶段，代表性模型有利用密度泛函理论(mff)计算每一个反应物、催化剂、产物分子或原子的震动性质，并进行编码，然后使用机器学习模型如随机森林、支持向量机等对药物化学反应类别进行预测。在第二阶段，将药物化学表达式转化为简化分子线性输入规范(simplified molecular input line entry specification，smiles)，并进行分词操作，之后利用自然语言处理的各种方法预测药物化学反应类别的工作也取得了非常优秀的成果。特别的，schwaller p等人基于药物化学反应类别预测任务，将数据量为18万的两个数据集pistachio和uspto的smiles序列数据，在英文的bert模型上微调训练，得到了用于化学反应领域、尤其是对smiles序列有理解能力的bert模型——rxnfp。这个预训练模型对所有药物化学反应相关的下游任务都起到了很大的作用。
4.基于smiles序列的一系列深度学习模型虽然取得了优异的性能，但是却未考虑药物分子的特有特征，仅仅是将药物分子表示成特定的符号用于特定分子识别，对于分子的固有特征却丢失了。在分子的特有特征中，分子结构是非常重要的一项指标，拥有相同结构的不同化学元素的分子一般具有相似的反应性质，拥有相同元素但结构不同的分子的化学性质千差万别。由此可见分子结构是反应分子特性的重要特征，而在基于smiles序列编码的方法中从未考虑过分子结构。

技术实现要素：

5.本发明的目的在于克服现有技术的不足，提供一种基于多层级信息融合的药物化学反应类型预测方法，不仅考虑反应式整体的信息，也关注局部分子的结构信息，可以使模型在整体信息和局部信息之间合理选择、相互补充，提高药物化学反应类型预测的准确率。
6.为实现上述目的，本发明所提供的技术方案为：
7.基于多层级信息融合的药物化学反应类型预测方法，包括：
8.提取在药物化学反应中分子层级的结构信息；
9.提取反应式层级序列信息；
10.将提取得到的药物化学反应中分子层级的结构信息和提取得到的反应式层级序列信息进行融合，最后得到预测出的药物化学反应类别。
11.进一步地，提取在药物化学反应中分子层级的结构信息包括：
12.对药物化学反应中分子层级的结构进行编码：
13.将药物化学反应式中的某一反应式记作r，该反应式中和反应物和产物集合记作b，其中b＝{b1,b2,
…
,bn}，其中n为反应式中反应物和产物的分子个数；
14.提取b中的每个分子的结构信息。
15.进一步地，提取b中的每个分子的结构信息包括：
16.通过分子数据处理包-rdkit得到每个分子的邻接矩阵ai，分子中每个原子节点的嵌入矩阵hi以及度矩阵di；其中，每个分子的邻接矩阵ai代表原子间的连接关系，分子中每个原子节点的嵌入矩阵hi代表每个原子的特征，度矩阵di代表每个原子与其他原子相连的概率；
17.基于每个分子的邻接矩阵ai，分子中每个原子节点的嵌入矩阵hi以及度矩阵di，提取每个分子的结构信息。
18.进一步地，基于每个分子的邻接矩阵ai，分子中每个原子节点的嵌入矩阵hi以及度矩阵di，使用卷积神经网络的方法提取每个分子的结构信息，提取公式如下：
[0019][0020]
其中i为单位矩阵，w为网络参数，σ(
·
)为激活函数，为本层的输出，也是下一层的输入；最初的输入记作最后一层的输出记作fi，则整个反应式中分子结构信息的集合记作f＝{f1,f2,
…
,fn}，即得到分子层级的分子结构信息f。
[0021]
进一步地，提取反应式层级序列信息包括：
[0022]
将化学反应式r转化为smiles序列，记为sr；
[0023]
利用rxnfp中的分词机制将sr分词后输入rxnfp模型中提取特征，分别得到db×
(nr+1),其中nr为整个化学反应式r中分词节点的个数，db表示输出的特征维度，cls分词用于从获取反应式的整体特征；
[0024]
将反应式层级序列信息记作x＝xr。
[0025]
进一步地，利用宽度学习系统将提取得到的药物化学反应中分子层级的结构信息和提取得到的反应式层级序列信息进行融合。
[0026]
进一步地，利用宽度学习系统将提取得到的药物化学反应中分子层级的结构信息f和提取得到的反应式层级序列信息x进行融合，得到预测出的药物化学反应类别，包括：
[0027]
融合t：
[0028]
t＝[f；x]
[0029]
将t通过特征层映射得到z：
[0030]
[0031]
其中，和是通过随生成得到的，φ是激活函数，n为特征层的节点窗口数，每个窗口有k个节点；将得到的所有特征记为zn＝[z1,z2,
…
,zn]，该些特征经过增强层得到的增强特征hm，其中第i个增强特征的计算方式为：
[0032][0033]
其中，和是通过随生成得到的，ξ是激活函数；
[0034]
需要预测的转化率y通过以下公式计算所得：
[0035]
y＝[z1,z2,
…
,zn|h1,h2,
…
,hm]wm＝[zn|hm]wm[0036]
其中，wm通过伪逆运算计算所得。
[0037]
为实现上述目的，本发明另外提供一种用于实现基于多层级信息融合的药物化学反应类型预测方法的系统，其包括分子层级结构信息提取模块、反应式层级序列信息提取模块、信息融合模块；
[0038]
其中，
[0039]
所述分子层级结构信息提取模块，用于提取在药物化学反应中分子层级的结构信息；
[0040]
所述反应式层级序列信息提取模块，用于提取反应式层级序列信息；
[0041]
所述信息融合模块，用于将提取得到的药物化学反应中分子层级的结构信息和提取得到的反应式层级序列信息进行融合，最后得到预测出的药物化学反应类别。
[0042]
为实现上述目的，本发明另外提供一种计算机，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现上述基于多层级信息融合的药物化学反应类型预测方法的步骤。
[0043]
为实现上述目的，本发明另外提供一种存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现上述基于多层级信息融合的药物化学反应类型预测方法的步骤。
[0044]
与现有技术相比，本方案原理及优点如下：
[0045]
本方案充分发掘药物化学反应中反应分子的特有信息——分子结构信息，并结合现有的smiles序列编码方式，分别在分子层级和反应层级提取特征，创新地提出了一种基于多层级信息融合的药物化学反应类型预测方法。建模过程中，首先将分子结构编码使用图卷积神经网络进行嵌入，提取为分子层级的结构信息；接着将药物化学反应式转化为smiles格式，并作为预训练模型的输入，利用针对化学反应领域的bert——rxnfp，对反应式的smiles序列进行分词并提取反应式层级的特征；最后，将分子层级的结构信息和反应式层级的序列信息使用全连接层mlp进行融合，并预测药物化学反应类型的结果。
[0046]
本方案使用的深度模型能够挖掘多层次信息，使得结构信息和序列信息相互融合，相互补充，有助于提升药物化学反应类别预测的性能，具有在工程上易实现的特点，有十分重要的理论价值和应用价值。
附图说明
[0047]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0048]
图1为本发明基于多层级信息融合的药物化学反应类型预测方法的原理流程图；
[0049]
图2为本发明基于多层级信息融合的药物化学反应类型预测系统的连接框图。
具体实施方式
[0050]
下面结合具体实施例对本发明作进一步说明：
[0051]
如图1所示，本实施例所述的基于多层级信息融合的药物化学反应类型预测方法，包括以下步骤：
[0052]
s1、提取在药物化学反应中分子层级的结构信息，达到对反应中具体分子学习其独立特征的目的。
[0053]
通常对于药物化学反应分类来说，整体的反应式决定着反应特征，根据特征模型可以预测出反应分类结果。但是，反应物分子也包含了分子特定信息，尤其是分子结构是药物的重要特征，所以首先将分子结构进行编码。具体来说，若将药物化学反应式中的某一反应式记作r，该反应式中和反应物和产物集合记作b，其中b＝{b1,b2,
…
,bn}，其中n为反应式中反应物和产物的分子个数；
[0054]
接着，提取b中的每个分子的结构信息：
[0055]
通过分子数据处理包-rdkit得到每个分子的邻接矩阵ai，分子中每个原子节点的嵌入矩阵hi以及度矩阵di；其中，每个分子的邻接矩阵ai代表原子间的连接关系，分子中每个原子节点的嵌入矩阵hi代表每个原子的特征，度矩阵di代表每个原子与其他原子相连的概率；
[0056]
基于每个分子的邻接矩阵ai，分子中每个原子节点的嵌入矩阵hi以及度矩阵di，使用卷积神经网络的方法提取每个分子的结构信息，提取公式如下：
[0057][0058]
其中i为单位矩阵，w为网络参数，σ(
·
)为激活函数，为本层的输出，也是下一层的输入；最初的输入记作最后一层的输出记作fi，则整个反应式中分子结构信息的集合记作f＝{f1,f2,
…
,fn}，即得到分子层级的分子结构信息f。
[0059]
s2、提取反应式层级序列信息，具体包括：
[0060]
将化学反应式r转化为smiles序列，记为sr；
[0061]
利用rxnfp中的分词机制将sr分词后输入rxnfp模型中提取特征，分别得到db×
(nr+1),其中nr为整个化学反应式r中分词节点的个数，db表示输出的特征维度，cls分词用于从获取反应式的整体特征；
[0062]
将反应式层级序列信息记作x＝xr；
[0063]
本步骤通过微调预训练模型的方式，将药物化学反应中的反应物、产物以及反应条件的序列关系嵌入成向量，进一步为后续预测药物化学反应类别做准备。
[0064]
s3、利用宽度学习系统将提取得到的药物化学反应中分子层级的结构信息f和提取得到的反应式层级序列信息x进行融合，得到预测出的药物化学反应类别，具体过程包括：
[0065]
融合t：
[0066]
t＝[f；x]
[0067]
将t通过特征层映射得到z：
[0068][0069]
其中，和是通过随生成得到的，φ是激活函数，n为特征层的节点窗口数，每个窗口有k个节点；将得到的所有特征记为zn＝[z1,z2,
…
,zn]，该些特征经过增强层得到的增强特征hm，其中第i个增强特征的计算方式为：
[0070][0071]
其中，和是通过随生成得到的，ξ是激活函数；
[0072]
需要预测的转化率y通过以下公式计算所得：
[0073]
y＝[z1,z2,
…
,zn|h1,h2,
…
,hm]wm＝[zn|hm]wm[0074]
其中，wm通过伪逆运算计算所得,这样就通过训练数据的标签计算出了参数wm，即可使用该参数计算出测试集的标签，也就是任务要得到的预测的转化率。
[0075]
本实施例中，n的选择范围是15-20，m的选择范围是15-20。
[0076]
具体地，本实施例还另外提供一种用于实现基于多层级信息融合的药物化学反应类型预测方法的系统，如图2所示，其包括分子层级结构信息提取模块、反应式层级序列信息提取模块、信息融合模块；
[0077]
其中，分子层级结构信息提取模块，用于提取在药物化学反应中分子层级的结构信息；反应式层级序列信息提取模块，用于提取反应式层级序列信息；信息融合模块，用于将提取得到的药物化学反应中分子层级的结构信息和提取得到的反应式层级序列信息进行融合，最后得到预测出的药物化学反应类别。
[0078]
具体地，本实施例还另外提供一种计算机，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，处理器执行所述指令时实现上述基于多层级信息融合的药物化学反应类型预测方法的步骤。
[0079]
具体地，本实施例还另外提供一种存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现上述基于多层级信息融合的药物化学反应类型预测方法的步骤。
[0080]
以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘如意陈俊龙孟献兵刘志杰
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种摩托车及其驻车机构的制作方法
上一篇：视频帧图像的标注方法、装置、计算机设备和存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。