一种药物-蛋白质相互作用预测方法及系统

文档序号:32501906发布日期:2022-12-10 05:37阅读:399来源:国知局
一种药物-蛋白质相互作用预测方法及系统

1.本技术涉及计算生物学技术领域,具体涉及一种药物-蛋白质相互作用预测方法及系统。


背景技术:

2.探索潜在的药物-蛋白质相互作用是药物发现和药物重定位的关键步骤。然而,通过生物实验的方法为具有复杂化学性质的药物分子寻找其相关靶蛋白质是一项耗资巨大、周期漫长、风险度极高且成功率很低的工程。因此,基于药物大数据与蛋白质大数据,计算预测药物与蛋白质间的相互作用,为生物学家后续的药物-蛋白质相互作用(dpi)鉴定试验提供可靠的药物-蛋白质候选,可以有效的加速药物重定位与药物研发的进程。近年来,利用计算学的方法来计算预测药物-蛋白质间的相互作用关系逐渐的成为了研究焦点。
3.早期计算预测药物-蛋白质相互作用主要是通过对接模拟与基于配体的两类方法。对接模拟的方法需要模拟蛋白质的3d结构,这种方法非常耗时,并且不是所有靶蛋白的结构信息都是已知的。基于配体的方法将要查询配体的靶蛋白与一组已知配体的靶蛋白进行比较,然而,在已知配体数量很少的情况下,这类方法的表现并不好。针对这些问题,学者们开始从网络的角度来计算预测药物-蛋白质相互作用。基于相似的药物更可能和同一个蛋白质发生相互作用,反之亦然的假设,通过整合药物-蛋白质异构网络中的多种信息来分析每一对药物与蛋白质发生相互作用的可能性。然而,在这些算法中,药物与蛋白质的编码过程都是独立的,药物的特征向量与蛋白质的特征向量并不具有特征的对应性。这使得预测模型无法分析到药物与蛋白质潜在的一致性。忽略药物和蛋白质间的这种一致性关系,可能会对药物-蛋白质相互作用的预测产生严重的负面影响。


技术实现要素:

4.本技术利用共编码策略,通过保持分子嵌入特征的语义一致性来提高预测结果的准确性。
5.为实现上述目的,本技术提供了一种药物-蛋白质相互作用预测方法,步骤包括:
6.收集药物-蛋白质相互作用预测的数据集;
7.对所述数据集进行预处理,得到处理后数据;
8.基于所述处理后数据,进行蛋白质序列编码,提取蛋白质特征;
9.基于所述蛋白特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;
10.基于所述处理后数据,将所述药物和蛋白质的临床信息编码在一起,得到第二编码结果;
11.根据所述第一编码结果和所述第二编码结果,计算药物-蛋白质对的相互作用概率。
12.优选的,得到所述处理后数据的方法包括:利用符号化方法整合所述数据集,得到
所述处理后数据。
13.优选的,所述处理后数据包括:药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据。
14.优选的,提取所述蛋白质特征的方法包括:基于双向长短期记忆神经网络构建蛋白质序列编码模型,从长度灵活的所述氨基酸序列中提取所述蛋白质特征。
15.优选的,得到所述第一编码结果的方法包括:基于全连接神经网络构建分子机制共编码模型,同时对所述药物和蛋白质的分子机制进行编码,从而将所述药物和蛋白质的原始特征投影到一个共同的嵌入空间中。
16.优选的,得到所述第二编码结果的方法包括:基于全连接神经网络构建临床功能共编码模型,将所述药物和蛋白质的临床信息编码在一起,得到所述第二编码结果。
17.优选的,计算所述药物-蛋白质对的相互作用概率的方法包括:构建基于卷积神经网络的dpi预测模型,通过所述第一编码结果和所述第二编码结果来计算药物-蛋白质对的相互作用概率。
18.本技术还提供了一种药物-蛋白质相互作用预测系统,包括:采集模块、预处理模块、蛋白质序列编码模块、分子机制共编码模块、临床功能共编码模块和dpi预测模块;
19.所述采集模块用于收集药物-蛋白质相互作用预测的数据集;
20.所述预处理模块对所述数据集进行预处理,得到处理后数据;
21.所述蛋白质序列编码模块用于基于所述处理后数据,进行蛋白质序列编码,提取蛋白质特征;
22.所述分子机制共编码模块用于基于所述蛋白特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;
23.所述临床功能共编码模块用于基于所述处理后数据,将所述药物和蛋白质的临床信息编码在一起,得到第二编码结果;
24.所述dpi预测模块用于根据所述第一编码结果和所述第二编码结果,计算药物-蛋白质对的相互作用概率。
25.与现有技术相比,本技术的有益效果如下:
26.本技术同时考虑了药物和蛋白质的化学属性、分子机制和临床功能;将药物和蛋白质的原始特征投影到了共同的嵌入子空间中,使药物和蛋白质的嵌入向量所表示的特征具有相同的含义;通过分析药物和蛋白质的特征的一致性,探究药物与蛋白质的作用机制。
附图说明
27.为了更清楚地说明本技术的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
28.图1为本技术实施例一的蛋白质序列编码模型示意图;
29.图2为本技术实施例一的分子机制共编码模型示意图;
30.图3为本技术实施例一的临床功能共编码模型示意图;
31.图4为本技术实施例一的dpi预测模型示意图;
32.图5本本技术与其他dpi预测模型在两个数据集上的效果对比示意图;
33.图6为本技术实施例一的共同编码策略和独立编码策略的效果对比示意图;
34.图7为本技术实施例二的系统结构示意图。
具体实施方式
35.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
36.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术作进一步详细的说明。
37.实施例一
38.本技术公开了一种新的药物-蛋白质相互作用预测方法——dnncc,该方法侧重于探究药物与蛋白质间特征的一致性关系。在本实施例中,首先从几个相关的公共数据库中提取了药物-蛋白质相互作用预测的数据集,之后利用符号化方法整合所述数据集,得到所述处理后数据。处理后数据包括:药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据,得到处理后数据。其中,预处理过程是对采集到的数据进行符号化处理,将药物的smile转化为摩根化学指纹,蛋白的氨基酸序列转化为可以输入的数字特征,然后根据药物蛋白和疾病的和关系构建关联矩阵。
39.之后基于这些处理后数据,本实施例构建了四个子模型:蛋白质序列编码模型、分子机制共编码模型、临床功能共编码模型和dpi预测模型。其中,蛋白质序列编码模型基于双向长短期记忆(bi-lstm)神经网络构建,它可以从长度灵活的氨基酸序列中提取蛋白质特征。分子机制共编码模型是基于全连接神经网络构建的,该模型通过同时对药物和蛋白质的分子机制进行编码,从而将药物和蛋白质的原始特征投影到一个共同的嵌入空间中。因此,后续的模型就可以捕捉到它们的嵌入特征之间的一致性。同样,另一个基于全连接神经网络的临床功能共编码模型,将药物和蛋白质的临床信息编码在一起。根据这两个共编码模型的结果,在本实施例中,还构建了一个基于卷积神经网络的dpi预测模型来计算药物-蛋白质对的相互作用概率。
40.如图1所示,首先使用蛋白质序列编码模型对数据集中的蛋白质进行编码,从而得到了长度固定的嵌入向量作为蛋白质的分子属性特征。
41.设r={r1,r2,...,rm}表示数据集中的m种药物。基于它们的smiles,本实施例对每种药物构建了1024维扩展连通性指纹(ecfps),得到了化学指纹矩阵f
fp
∈rm×
1024
。如果药物ri具有第j个分子结构或化学性质,则将设为1,否则设p={p1,p2,

,pn}表示数据集中的n个蛋白质。每个蛋白质对应一个由23种常见氨基酸组成的氨基酸序列。数据集中q种疾病集合由d={d1,d2,...,dq}表示。基于已知的dpis,本实施例构建了一个rm×n维的药物-蛋白相互作用矩阵y
rp
。如果药物ri和蛋白质pj之间存在已知的相互作用,则设为1。否则同样,基于药物、蛋白质和疾病之间多种类型的相互作用和内部相互作用,分别构建了药物-药物相互作用矩阵y
rr
∈rm×m、药物-疾病相互作用矩阵y
rd
∈rm×q、蛋白质-蛋白质相互作用矩阵y
pp
∈rn×n和蛋白质-疾病相互作用矩阵y
pd
∈rn×q。基于blosum62替换矩阵将蛋
白质序列转换为神经网络可以接收的向量形式。对于一个具体的蛋白质pi,可以得到基于其氨基酸序列的特征矩阵,其中l表示pi的序列长度。使用蛋白质序列编码模型,得到了n个蛋白质序列的最终表示矩阵
42.为了将文本形式的蛋白质序列转换为神经网络可以接收的向量形式,将上述p中的所有蛋白质按照blosum62替换矩阵进行转换。蛋白质pi中的每个氨基酸aj用它与23种常见氨基酸之间的替代得分表示。因此,对于蛋白质pi,可以得到基于其氨基酸序列的特征矩阵,其中l表示pi的序列长度。
43.蛋白质序列编码模型定义了一个bi-lstm层来学习每个蛋白质的表示。在bi-lstm的前向输入过程中,定义了三个门——遗忘门输入门和输出门以控制在每个时间步中遗忘前一时刻的信息的多少和保留当前时刻的信息的多少。这些门定义如下:
[0044][0045]
其中,σ表示sigmoid激活函数,表示连结操作。及分别是前馈过程中三个门的权重矩阵和偏置向量。表示前t-1个氨基酸从bi-lstm层中学习到的嵌入。表示蛋白质pi的第t个氨基酸学习到的嵌入。前t个氨基酸的嵌入可以通过下面的公式计算:
[0046][0047]
其中,

表示按元素乘积。表示按元素乘积。表示前t个氨基酸的嵌入输入到前馈过程中得到的单元状态,它由前t-1个氨基酸的单元状态和第t个氨基酸的单元状态联合计算得到,定义如下:
[0048][0049]
在计算的过程中,遗忘门控制着前t-1个氨基酸的信息被遗忘的程度,输入门决定着第t个氨基酸的信息被保留的程度。第t个氨基酸的单元状态由下面公式求得:
[0050][0051]
其中,和分别表示计算第t个氨基酸单元状态的权重矩阵和偏置向量。设和分别表示bi-lstm的正反馈过程和负反馈过程中的积分结果。序列的bi-lstm层编码结果可以通过连接和得到。具体描述如下:
[0052][0053]
由于dnncc对不同长度的蛋白质序列进行了填充操作,因此动态设置每个蛋白质
在bi-lstm层中的最大时间步长t为其真实长度。通过这种方式,填充的零将不会被引入到hi。最后,hi被一个全连接层压缩,该层的定义如下:
[0054][0055]
其中w1和b1分别表示全连接层的权值矩阵和偏置。因此,dnncc得到了n个蛋白质序列的最终表示矩阵
[0056]
之后,通过分子机制共编码模型对药物和蛋白质的分子机制进行共同编码,如图2所示。一个分子的分子机制可以用它与其他分子之间的相互作用来表示。因此,dnncc将药物-药物相互作用矩阵y
rr
与药物-蛋白质相互作用矩阵y
rp
连接,得到药物机制矩阵其中同样,蛋白质机制矩阵可以定义为其中y
pr
是y
rp
的转置。
[0057]
事实上,许多分子对之间存在相互作用,但它们迄今尚未被验证。因此,三个交互矩阵都面临着严重的标签缺失。基于化学性质相似的分子可能与同一分子相互作用的假设,dnncc试图通过推断一个分子与其相似分子的机理来补全和
[0058]
因此,dnncc根据药物的ecfps计算药物间的jaccard相似度。根据步骤一中得到的蛋白质的分子属性特征,计算了蛋白质间的余弦相似性。这样可以得到药物相似矩阵sr∈rm×m和蛋白质相似矩阵s
p
∈rn×n。完备的药物机制矩阵和蛋白质机制矩阵可按下面的公式计算:
[0059][0060][0061]
为了保证药物和蛋白质的原始特征投影到相同的嵌入空间,dnncc构建了基于全连接神经网络的分子机制联合编码模型。药物机制和蛋白质机制的低维特征矩阵可根据下面的公式计算:
[0062][0063]
其中σ表示sigmoid激活函数,w
m,h
和b
m,h
表示第h全连接层的权重矩阵和偏置。和表示第h隐层的输出。dnncc以和作为药物和蛋白质的最终机制特征矩阵,并用和表示。km表示药物和蛋白质嵌入机制特征的维度。由此得到第一编码结果。
[0064]
此外,本实施例还设计了临床功能共编码模型用于药物与蛋白质临床功能共同编码,如图3所示。
[0065]
dnncc将与一种药物或一种蛋白质相关的疾病视为这种药物或蛋白质的临床功能。与分子机制共编码模型类似,dnncc构建了一个临床功能联合编码模型,分别从药物-疾病关联矩阵y
rd
和蛋白质-疾病关联矩阵y
pd
中学习药物和蛋白质的低维临床特征。它可以定义如下:
[0066][0067]
dnncc设置和作为药物和蛋白质的嵌入临床特征矩阵,并用和表示。其中,kf表示嵌入临床特征的维度。
[0068]
dnncc将药物的低维机制特征矩阵与药物的临床特征矩阵连接,得到药物的综合特征矩阵,用表示。同样,dnncc也得到了蛋白质的综合特征矩阵表示。同样,dnncc也得到了蛋白质的综合特征矩阵或中的每一行代表一种药物或一种蛋白质的综合特征。由于dnncc的联合编码策略,中的一列的表示的意义与中的同一列表示的意义是一致的。由此得到第二编码结果。
[0069]
通过上述两个步骤的共同编码得到的第一编码结果和第二编码结果,得到药物和蛋白质的低维特征向量。最后,使用一个基于卷积神经网络的dpi预测模型,对数据集中的每个药物-蛋白质对进行打分,预测它们间存在相互作用的可能性,如图4所示。
[0070]
dnncc建立了基于卷积神经网络的dpi预测模型,计算药物-蛋白质对的相互作用倾向。以药物r2和蛋白质p1为例,dnncc构建药物-蛋白质对的特征向量如图4所示。包括r2和p1的分子机制特征,以及它们的临床信息。
[0071]
dpi预测模型由两个卷积层、两个最大池化层和一个全连接层组成。卷积核大小设置为(wh,ww),这意味着在卷积层输出的特征图中,每个特征都是基于中wh×ww
大小的特征图来计算的。为了获取的边界信息,我们还用零填充的边界。填充特征图用表示,其中pad表示填充层数。在每个卷积层中,总共设置n
conv
个卷积核,从多个视图中提取f
pad
中的潜在特征。如果我们用w
conv,k
和b
conv,k
来表示第k个卷积核中的权值和偏差。那么卷积过程可以定义为:
[0072]fpad
(i,j)=f
pad
(i:i+w
h-1,j:j+w
w-1),
[0073]zl,k
(i,j)=σ(f
pad
(i,j)
×wconv,k
+b
conv,k
),
[0074]
i∈[1,2+2*pad-wh+1],
[0075]
j∈[1,km+kf+2*pad-ww+1],
[0076]
k∈[1,n
conv
],。
[0077]
其中,z
l,k
表示第l层卷积层中第k个卷积核计算出的特征映射。σ表示sigmoid激活函数。为了进一步提取特征图中的重要信息,减少参数的数量,dnncc使用max-pooling操作压缩z
l,k
。max-pooling操作定义如下:
[0078]zl,k
(i,j(=z
l,k
(i:i+w
h-1,j:j+w
w-1),
[0079]zl,k
(i,j)=max(z
l,k
(i,j)).
[0080]
最后,dnncc将最大池化层输出的特征映射z
l,k
压缩为一个向量f
r2,p1
,并使用一个完全连接层计算r2和p1之间的交互得分:
[0081][0082]
其中w
fc
和b
fc
分别为全连接层的输出、权重矩阵和偏置。中的第一个元
素表示r2不能与p1相互作用的可能度,第二个元素表示r2与p1的相互作用倾向。设表示的第二个元素,越大,表示r2和p1之间存在相互作用的可能性越大。
[0083]
dnncc损失计算公式为:
[0084][0085]
其中,表示真实标签,表示ri和pj之间是否存在相互作用,之间是否存在相互作用,表示dnncc预测的药物ri与蛋白质pj相互作用的可能性,其中的取值范围也在0到1之间。
[0086]
在大多数情况下,未知dpi(阴性样本)的数量远远大于已知dpi(阳性样本),导致已知dpi和未知dpi之间存在严重的类失衡(在我们的数据集中,已知dpi:未知dpi的比例约为1:555)。此外,将未观察到的dpis直接作为负样本是不合理的。因此,dnncc对损失函数进行了如下更新:
[0087][0088]
如果ri,pj∈ω,否则ri,pj∈ψ。|ω|和|ψ|分别表示ω和ψ中的元素个数。μ为负样本数与正样本数之比,其中μ=|ψ|/|ω|。减少了被误分类的负样本对损失的贡献。这样一来,dnncc既缓解了负样本标签不可靠带来的负面影响,又缓解了类别失衡的影响。作为一个端到端深度学习框架,dnncc通过最小化模型的最终损失来优化模型中的所有权重矩阵和偏置。
[0089]
为验证本技术模型的性能,本实施例还设计了五倍交叉验证,证明了其预测准确性在auc和aupr两种评价指标上优于几个最先进(state-of-the-art)的dpi预测方法,包括:dpinet、grmf、aefs、ngdtp和graphdta。如图5和图6所示。
[0090]
实施例二
[0091]
如图7所示,为本技术实施例二的系统结构示意图,包括:采集模块、预处理模块、蛋白质序列编码模块、分子机制共编码模块、临床功能共编码模块和dpi预测模块。其中,采集模块用于收集药物-蛋白质相互作用预测的数据集;预处理模块对数据集进行预处理,得到处理后数据;蛋白质序列编码模块用于基于处理后数据,进行蛋白质序列编码,提取蛋白质特征;分子机制共编码模块用于基于蛋白特征,同时对药物和蛋白质的分子机制进行编码,得到第一编码结果;临床功能共编码模块用于基于第一编码结果,将药物和蛋白质的临床信息编码在一起,得到第二编码结果;dpi预测模块用于根据第一编码结果和第二编码结果,计算药物-蛋白质对的相互作用概率。
[0092]
利用采集模块收集药物-蛋白质相互作用预测的数据集,之后预处理模块利用符号化方法整合数据集,得到处理后数据。得到的处理后数据包括:药物的化学指纹、蛋白质的氨基酸序列、药物-蛋白质相互作用数据、药物的适应症数据和蛋白质-疾病关联数据。
[0093]
之后,使用蛋白质序列编码模块对处理后数据中的蛋白质进行编码,从而得到了长度固定的嵌入向量作为蛋白质的分子属性特征之后,通过分子机制共编码模块和临床功能共编码模块对药物和蛋白质的分子机制和临床功能进行共同编码,得到药物和蛋白质的低维特征向量。最后,使用dpi预测模块,对数据集中的每个药物-蛋白质对进行打分,预测
它们间存在相互作用的可能性。
[0094]
以上所述的实施例仅是对本技术优选方式进行的描述,并非对本技术的范围进行限定,在不脱离本技术设计精神的前提下,本领域普通技术人员对本技术的技术方案做出的各种变形和改进,均应落入本技术权利要求书确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1