一种基于交互推理网络的药物靶标相互作用预测方法

文档序号:35197307发布日期:2023-08-21 20:25阅读:74来源:国知局
一种基于交互推理网络的药物靶标相互作用预测方法

本发明涉及药物与靶标关系预测,尤其涉及一种基于交互推理网络的药物靶标相互作用预测方法


背景技术:

1、新药研发时间长、成本高,一般分为临床前和临床研究两个阶段。利用已有的药物治疗新疾病是一个可行的策略,因为这些“旧”药物已经通过机理研究和临床实验,可以降低研发费用和时间。

2、药物靶标是指能与药物发生作用的生物大分子,如蛋白质、核酸等。预先识别这些靶标对于针对特定疾病的药物研发非常重要。但是传统的药物发现方法只考虑了单一疾病的单个靶标,忽略了药物和靶标之间的复杂相互作用以及许多疾病涉及多个靶标的情况。因此,现在的研究越来越关注同时针对多个靶标的多靶点药物和药物联合研究,以提高药物的疗效并克服耐药性和毒副作用。虽然药物的多药理学特性可能导致意想不到的副作用,但也可能带来新的治疗效果,即所谓的药物的重新定位。

3、药物通常通过与细胞内的蛋白质相互作用来改善疾病症状。其中数量庞大的化合物可以作为药物候选,而药物靶标多为蛋白质。目前仅有很少一部分药物与靶蛋白的匹配关系已知,还有很多未知的药物靶标相互作用有待发现。

4、正确识别和验证药物与其靶标之间的相互作用对于发现新药或重新定位药物至关重要。然而,由于化学空间和蛋白组空间之间的复杂关系,识别新型药物及其靶标仍然是一个非常困难的过程。存在多种因素,如化学键和亲和力等,会影响药物与其靶标之间的相互作用。

5、因此需要有效的计算预测方法来检测复杂的药物靶标关联,以提高我们对生物相互作用和生物过程的理解,并为生物实验提供新的潜在药物靶标相互作用候选对象。目前主要的计算预测方法是分子对接模拟和机器学习。虽然分子对接模拟在生物学中被广泛接受,但对接过程很耗时,且需要靶标和药物的三维结构,而获得靶标和药物三维结构的难度较大。相比之下,机器学习方法使用已知的药物和靶标相互作用的信息来训练预测模型,以预测新药和靶标之间的相互作用。使用计算机来筛选可能的药物和靶标相互作用作为候选可以减少时间和成本,最后再通过生物实验验证药物靶标相互作用。


技术实现思路

1、本发明实施例提供一种基于交互推理网络的药物靶标相互作用预测方法,可解决大部分dti预测模型训练拘泥于数量稀缺的有标记数据集,未标记数据不能被充分利用,以及基于机器学习的模型在dti预测方面存在可解释性差的技术问题。包括以下步骤:

2、s1:分别从biosnap、bindingdb和davis数据库中获取药物、靶标以及药物靶标相互作用的数据,获取三个数据集正样本对数据;

3、s2:获取与生成负样本对数据;

4、s3:依据所述药物、靶标以及药物靶标相互作用的数据(即正样本对数据),以及生成的负样本对数据,对三个数据集进行数据整理合并成训练集、验证集和测试集;

5、s4:嵌入层中生成药物分子和靶标序列的嵌入并分别通过编码层;

6、s5:所述编码层获得药物和靶标的编码后的分子表征;

7、s6:交互层进行药物和靶标相互作用模拟;

8、s7:特征提取层捕获交互矩阵的交互特征;

9、s8:最后接入全连接网络进行药物靶标相互作用预测。

10、其中,所述s1包括步骤:将kd值<30单位的样本对认定为正样本,所述s2包括步骤:检测bindingdb和davis数据库中包含的药物和靶标,将kd值>= 30的视为负样本的样本对,再从biosnap数据库随机生成负样本的样本对。

11、其中,所述s3包括步骤:将数据集正负样本分层采样,使用留出法按照7:1:2的比例划分为互斥子集,作为训练集、验证集和测试集。

12、其中,所述s4包括步骤:

13、使用分子全序列直接编码、分子子序列编码和指纹编码三种方式分别将分子序列转换为向量表示,将序列信息整合到特征向量中;嵌入的时候将药物分子的smiles表达式和靶标的氨基酸序列分别编码,生成药物和靶标的序列嵌入和,分别输入编码层中。

14、其中,所述分子全序列直接编码的步骤包括:直接对smiles和氨基酸序列进行编码,设定smiles描述符生成嵌入的最大长度为100,氨基酸序列生成嵌入的最大长度为1000,对长度大于最大长度的嵌入进行截取,对长度不足最大长度的用0进行补全,生成靶标和药物的嵌入和;

15、所述分子子序列编码的步骤包括:

16、将espf算法应用于从uniprot数据集和chembl数据库中提取药物和靶标的子结构,通过设置不同的频繁阈值和数据来源,得到不同规模的词汇集v,使用频繁子序列c作为分割标准,将药物和靶标序列分解为一组子序列;

17、药物和靶标序列都被分解成子结构,转换为对应的嵌入矩阵,通过可查询内容嵌入矩阵生成对应的靶标嵌入和药物嵌入,生成规则如下:

18、

19、

20、其中,和分别是根据靶标和药物分解子序列词汇集的大小及预设定嵌入长度自动构成的可查询矩阵;

21、所述指纹编码的步骤包括:

22、使用分子指纹作为指纹嵌入,并通过标记位编码方式对其进行压缩。

23、其中,所述s5包括步骤:

24、编码层分别采取三种编码方式:多层感知机编码、卷积神经网络编码、自注意力机制编码,通过融合上下文信息提取特征来对嵌入进行编码:

25、

26、

27、其中和分别代表通过编码层之后的药物和靶标序列的编码。

28、其中,所述多层感知机编码的方法包括:

29、叠加三层全连接神经网络,隐藏层分别采用1024,256和64个神经元,在每层网络中,输入向量与隐藏单元的连接权重相乘,得到各自的输出并通过一个非线性激活函数,经过三层神经元之后得到指纹编码;

30、所述卷积神经网络编码的方法包括:

31、使用三层一维卷积神经网络作为药物和靶标嵌入的编码器,将smiles和氨基酸序列分别直接编码,生成药物和靶标的序列嵌入和,输入cnn编码器中;

32、卷积神经网络编码叠加三层一维卷积神经网络,药物按层数依次使用大小为4、6、8的卷积核,靶标按层数依次使用大小为4、8、12的卷积核,在进行卷积操作之后对结果进行一次池化操作并通过全连接层,最后得到药物和靶标的编码和;

33、所述自注意力机制编码的方法包括:

34、利用位置编码将顺序信息与内容嵌入结合起来,形成具备学习序列顺序信息能力的序列嵌入,药物和靶标的位置编码和通过学习获得,学习位置编码每一个位置学习一个独立的向量,通过可查询位置嵌入矩阵生成,生成规则如下:

35、

36、

37、其中,和分别是靶标第i个子序列和药物对应的第j个子序列的独热编码;和是根据药物和靶标分解后的子序列最大长度和预设定嵌入长度自动构成的可查询二维嵌入矩阵,预设定嵌入与内容嵌入的长度生成时保持一致;

38、自注意力机制编码器的输入和通过内容嵌入和位置嵌入相加获得。

39、其中,所述s6具体包括步骤:

40、对于每个靶标子序列 i和每个药物子序列 j,生成交互值:

41、

42、其中 f为聚集函数,用来衡量药物靶标对之间的相互作用,在交互层之后得到张量矩阵 i,使用点乘作为聚集函数能够产生单一标量,以衡量单对药物靶标最小单元对之间的相互作用强度。

43、其中,所述s7具体包括步骤:对子结构个体之间邻近区域的相互作用进行建模,在交互图上使用卷积神经网络进行特征提取。

44、其中,所述s8具体包括步骤:输出层对采集到的特征进行解码,将提取的交互特征平铺为一个向量,经过线性层输出预测结果。

45、实施本发明实施例,具有如下有益效果:本发明将交互推理网络用于药物靶标相互作用,包括嵌入层、编码层、交互层、特征提取层和输出层。在嵌入层中:为了药物和靶标嵌入能够拥有更丰富的特征信息,使用药物分子指纹作为补充,同时使用espf算法分割药物和靶标序列成子序列。在编码层中:为了捕获药物和靶标等分子序列各个官能团的特征,采用卷积神经网络对分子原始序列进行编码;为了捕获官能团之间的关联特征,采用self-attention编码器对分子的子序列进行编码。交互层设计采取模拟交互过程,使用点乘作为聚集函数产生单一标量,以衡量单对药物靶标最小单元对之间的相互作用强度,为模型交互预测结果提供可解释性。交互推理网络嵌入层和编码层的组件化设计,使其具有极强的可扩展性。通过选择不同嵌入生成方式配合不同的编码器,可以获得不同的预测效果和实验意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1