基于联合式跨域注意力模型预测药物靶标结合性的方法

文档序号:35270018发布日期:2023-08-30 12:53阅读:52来源:国知局
基于联合式跨域注意力模型预测药物靶标结合性的方法

本发明属于生化科学与计算化学领域,尤其涉及基于联合式跨域注意力模型预测药物靶标结合性的方法。


背景技术:

1、药物靶标可结合性分析是现代医学中一个非常重要的课题,是认识现有药物功能,探究药物靶标结合机制,扩展药物使用的潜在空间,实现药物再利用的重要方法。当前,应用传统医学实验方法研究药物靶标结合性体现出成本高、失败率高、回报周期长的缺陷,并且在某些情况下由于伦理道德问题而限制实验的开展。随着交叉学科的发展,计算机技术越来越多的应用到化学、生物学等领域,用以解决传统化学、生物学实验方法难以获得甚至无法获得的分子信息,服务于研究药物靶标结合性研究。基于人工智能的方法能够有效整合大量生物分子信息,同时得到生化分子的嵌入特征表达,并使用深度神经网络进行特征学习和归纳,实现对潜在药物靶标作用对的预测,克服了传统实验的缺点和不足。

2、常用的药物靶标结合性预测模型主要分为基于机器学习(machine learning,ml)的模型和基于深度学习(deep learning,dl)的模型。基于机器学习的模型主要通过如矩阵分解、随机森林或支持向量机等方法,达到预测药物靶标结合性的目的。这些方法在数据集规模较小或药物靶标作用关系较简单时可以取得一定效果,但是无法适应较大规模的数据集,且无法精确归纳生物分子特征。而基于深度学习的模型虽然相较于机器学习的预测性能取得了一定的提升,但是简单神经网络无法准确的建立复杂的化学结构同文本语义之间的关系,同时,现有的药物-靶标预测任务简单的将任务看作是二分类任务,并且采用了二分类的优化和训练方法,使得模型很难建立由嵌入式特征到结合关系的联系。实际情况中,药物靶标关系间不止存在“一种基因-一种药物”的单一作用模式。此外,大量的医学文献文本信息只是单纯被归纳为二分类的标签,大量有用的信息无法被模型充分学习。因此先前的机器学习和深度学习模型很难取得优异的预测结果。相较于将药物靶标的结合文献语义简单提炼为作用关系作为标签,使用自然语言处理技术单一作用模式,生物分子的异构网络代表更广泛的相互作用关系,其主要体现为相互作用关系复杂、生物分子种类多、数据量庞大等特点。目前较为流行的针对异构网络信息的计算模型,如dtinet(drug-targetinteractions prediction net)、gcn-dti(graph convolution network)等模型存在对于异构网络信息整合不充分、计算成本高的问题。因此这些模型不能准确描述生物分子的化学结构特征和网络拓扑结构特性,导致预测模型性能不足。


技术实现思路

1、为解决上述问题,本发明提供了如下方案:基于联合式跨域注意力模型预测药物靶标结合性的方法,包括:

2、从药物、蛋白质数据库中提取生物分子化学结构信息和药物-靶标作用的文本语义信息作为原始数据,构建数据集;

3、基于端到端的联合式架构的耦合神经网络,构建用于预测药物靶标结合性的联合式跨域注意力的初始深度学习模型;

4、将所述数据集划分训练集和测试集,通过所述训练集对所述初始深度学习模型进行训练,获得目标深度学习模型;

5、基于所述目标深度学习模型进行药物靶标结合性预测,获得预测结果。

6、优选地,从药物、蛋白质数据库中提取生物分子化学结构信息的过程包括,

7、基于药物、蛋白质数据库中提取药物和靶标蛋白质的化学结构信息;其中,所述药物和靶标蛋白质的化学结构信息包括药物smiles式化学结构编码,蛋白质smiles式化学结构编码,药物inchi式化学结构编码,蛋白质inchi式化学结构编码。

8、优选地,基于所述目标深度学习模型进行药物靶标结合性预测,获得预测结果的过程包括,

9、所述目标深度学习模型包括生物分子-文本语义特征编码器、联合式跨域注意力编码器和联合式跨域注意力解码器;

10、基于所述生物分子-文本语义特征编码器通过微调的transformer-encoder进行语义特征分析,生成药物、蛋白质和药物-靶标关系文本集的嵌入式特征;

11、基于所述联合式跨域注意力编码器将蛋白质信息和药物特征进行融合;

12、基于所述联合式跨域注意力解码器对所述联合式跨域注意力编码器得到的信息进行跨域解码,联合药物-靶标预测文本语义信息,生成描述作用关系的语义文本,并将所述语义文本转化为药物-靶标结合关系的预测结果。

13、优选地,通过微调的transformer-encoder进行语义特征分析,生成药物、蛋白质和药物-靶标关系文本集的嵌入式特征的过程包括,

14、对药物,靶标进行基于化学结构信息的特征构建,将靶标蛋白质和药物的化学结构分别使用smiles编码格式和inchi编码格式进行表示,将药物、靶标蛋白质smiles结构式输入transformer模型中,进行模型训练,获得有效编码药物和靶标蛋白质特征的transformer编码器;基于所述transformer编码器对药物和靶标蛋白质进行编码,并对药物-靶标蛋白质文本信息进行嵌入;使用全连接神经网络对维度进行升维,将蛋白质和药物的化学结构信息转化为高维向量表示,获取内在的语义特征,得到特征向量。

15、优选地,对药物,靶标进行基于化学结构信息的特征构建包括药物分子特征构建、蛋白质分子特征构建、药物-靶标结合性文本的语义特征构建。

16、优选地,基于所述联合式跨域注意力编码器将蛋白质信息和药物特征进行融合的过程包括,

17、将药物特征和靶标蛋白质特征先投影到查询域、真值域和关键域,在蛋白质域和药物域分别得到药物相对于不同蛋白质的注意力系数和靶标蛋白质相对于不同药物的注意力系数值;

18、经过全连接神经网络进行升维并将药物-靶标蛋白质进行融合,获得联合的药物-靶标特征对。

19、优选地,基于所述联合式跨域注意力解码器获取药物-靶标结合关系的预测结果的过程包括,

20、将不同蛋白质和药物进行特征组合,获得不同的蛋白质和药物作用关系对,输入所述联合式跨域注意力解码器进行预测;

21、所述联合式跨域注意力解码器通过cross-attention进行文本特征域和化学结构信息的注意力计算,获得语义空间的嵌入特征;再经全连接网络输出生成描述结合关系的文本,根据所述文本检测关键字获得药物-靶标结合关系的预测结果。

22、优选地,基于所述目标深度学习模型进行药物靶标结合性预测,获得预测结果之后还包括,

23、基于所述测试集对所述预测结果进行验证,若误差小于预设阈值,获得最终预测结果;若误差大于或等于预设阈值,则基于所述训练集,通过带有权重的交叉熵算法优化模型参数继续对所述目标深度学习模型进行训练,直至误差小于预设阈值获得最终预测结果。

24、优选地,基于所述测试集通过预测模型评价指标对所述预测结果进行验证;其中,所述预测模型评价指标包括准确度、召回率、模型的预测准确度能力、灵敏度、特效度以及精度。

25、与现有技术相比,本发明具有如下优点和技术效果:

26、本发明提出了基于并行式深层细粒度模型用于药物靶标结合性预测,实现了对异构网络信息充分整合的同时显著降低药物靶标预测成本,通过模型携带记忆单元的图注意力网络进行特征提取,将异构信息在生物分子特征提取过程中编码成更可靠的嵌入特征,从而提高药物靶标结合性预测的精确度。同时为解决神经网络学习分子特征非常耗时,计算成本高等问题,本发明采用端到端并行式的神经网络模型。通过基于本体相似度计算方法和基于图拓扑信息的相似度计算方法得到分子特征,后使用解码器-编码器融合异构信息并得到预测结果,本发明实现了快速且精确地预测药物靶标对,极大的降低了计算分子特征的成本,解决了传统医学方法成本高且失败率高的问题,加快了药物再利用研发进程。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1