一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法

文档序号:28269983发布日期:2021-12-31 19:30阅读:101来源:国知局
一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法

1.本发明涉及医学数据处理领域,尤其涉及一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法。


背景技术:

2.在生物系统的转变过程中,蛋白质的演化过程并非一成不变,而是动态变化的。通过构造模型的方法来研究蛋白质相互作用网络,可以较好地刻画蛋白质相互作用的演化机制。但是,利用构造模型的方法来研究动态蛋白质相互作用时,应该考虑在蛋白质演化过程中,历史蛋白质随着时间推移对整个演化过程产生作用可能产生的衰减,而不是将不同时刻的蛋白质的作用视为等同或者直接忽略。基于建立好的动态蛋白质模型可以考虑预测下一时候蛋白质之间的链接情况。
3.预测基于衰减系数的动态蛋白质网络模型中蛋白质之间链接,问题转化为:在基于衰减系数的时间序列模型中,已知前t

1个时刻,每个时刻对应的节点之间的链接情况。预测在t时刻节点之间的链接情况。
4.深度学习中的卷积神经网络算法通常在图片识别处理中应用,在图片识别处理中通常输入的是x*y像素的图像,通过多个“卷积层”和“抽样层”对输入数据进行降维处理,最终在输出层输出。在“卷积层”主要是通过使用卷积滤波器抽取一种特征,将其全部集中在“抽样层”。该方法在图像识别中的准确率远高于其他算法。
5.考虑在将蛋白质的历史变化情况纳入考量建立演化模型的基础上,将深度学习与动态蛋白质网络中蛋白质之间的链接预测连接起来,提高生物信息识别结果的准确性。


技术实现要素:

6.本发明主要解决当前已有蛋白质之间的链接预测的简单预测,方法准确率不高。本发明提供一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,将蛋白质之间的链接预测通过基于衰减系数的建模和深度学习方法结合起来,这样可以建立更准确的动态蛋白质演化模型,并提高蛋白质之间链接预测的准确性,从而更方便的为药物靶标的查找提供可靠的理论依据。
7.本发明的目的是通过以下技术方案来实现的:
8.一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,该系统包括训练演化模型、建立属性矩阵、卷积运算、全联接后验证模型的好坏。通过这四个部分大模块对蛋白质之间链接进行预测;
9.所述训练演化模型,当在基于衰减系数的时间序列模型中,已知前t

1个时刻,每个时刻对应的节点之间的链接情况。预测在t时刻节点之间的链接情况,通过在该模型上关键蛋白质出现的情况训练衰减系数并判断该模型的准确性;
10.所述建立属性矩阵,在对前k个时刻的已知链接情况进行预测时,输入对应的应该
是各个时刻节点的属性值,这里考虑的节点的属性值就是各个节点之间共同邻居的数目。两个节点之间是否有边,与这两个节点本身存在的共同邻居的数目是密切相关的,共同邻居的数目越多,这两个节点之间存在链接的可能性也越大。找出各个时刻节点之间的共同邻居,建立与拓扑结构相关的属性矩阵。但是各个时刻的蛋白质数量以及彼此之间存在的链接数目是不同的,因此在输入时会导致序列的长度不一样,可以对长度较短的序列加0补充,从而使得输入的各个链接序列的长度相等。
11.所述卷积运算,采用一个高度为l的滤波器从前面建立的属性序列中抽取局部的节点特征信息。每个节点特征n
i
可以通过滤波器窗口对属性序列进行卷积运算得到,通过卷积运算可以得到一个序列特征向量;
12.所述全联接后验证模型的好坏,在全联接层使用dropout方法对模型进行调整,以免过度拟合现象的出现。通过计算,就可以得到第k+1时刻节点之间链接的估算情况,将作为训练好的卷积神经网络模型的输入,得到的输出也对应一个由0和1组成的二维矩阵,其中0和1分别对应于两个节点之间是否有边存在。采用auc(roc曲线下面积)从整体验证模型的好坏。
13.本发明的有益效果是:训练处基于衰减系数的动态蛋白质网络演化模型,在此基础上使用卷积神经网络算法进行蛋白质之间的链接预测,极大地提高了预测效果的准确性,提供了可靠的药物靶标定位的理论依据。
附图说明
14.图1为本发明基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法总的结构框图;
15.图2为卷积神经网络在动态蛋白质网络链接预测中的流程图。
具体实施方式
16.下面结合附图和具体实施例对本发明作进一步详细说明。
17.如图1所示,本发明基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法,该系统包括建立训练演化模型、建立属性矩阵、卷积运算、全联接后,输出链接情况以及模型验证。
18.如图2所示,所述属性矩阵建立中包含的内容是:所积神经网络的输入层为各个时刻蛋白质存在属性的序列化矩阵表示,在对前k个时刻的已知链接情况进行预测时,输入对应的应该是各个时刻节点的属性值,这里考虑的节点的属性值就是各个节点之间共同邻居的数目。
19.两个节点之间是否有边,与这两个节点本身存在的共同邻居的数目是密切相关的,共同邻居的数目越多,这两个节点之间存在链接的可能性也越大。
20.对于两个节点m和n,它们之间的共同邻居cn
mn
的计算公式为:
21.cn
mn
=n(m)∩n(n)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
22.其中n(m)和n(n)表示节点m和节点n各自的邻居节点。
23.找出各个时刻节点之间的共同邻居,建立与拓扑结构相关的属性矩阵。但是各个时刻的蛋白质数量以及彼此之间存在的链接数目是不同的,因此在输入时会导致序列的长
度不一样,可以对长度较短的序列加0补充,从而使得输入的各个链接序列的长度相等。
24.属性矩阵的抽取可以进一步拓展,加上二阶邻居信息,或者是采取随机游走的方法对当前抽取属性特征的节点进行更深入的研究。
25.所述卷积运算包含的内容是:采用一个高度为l的滤波器从前面建立的属性序列中抽取局部的节点特征信息。每个节点特征ni可以通过滤波器窗口对属性序列进行卷积运算得到
26.n
i
=f(w
i
*s
i,i+l
‑1+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
27.这里,b
i
是偏置项,f是激活函数.
28.通过卷积运算可以得到一个序列特征向量:
29.n=[n1,n2,...n
2n

l+2
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0030]
将其全部集中在“抽样层”。
[0031]
所述全联接方式连接的操作为:在全联接层使用dropout方法对模型进行调整,以免过度拟合现象的出现。输出对应的是一个0,1组成的向量,也对应着各个时刻节点之间存在的边的情况,如果对应的边存在,那么输出值为1;不存在,输出值为0。第k+1时刻节点之间属性特征要结合前k个时刻出现的节点对m’和n’存在的共同邻居的情况cn
m’n’计算。
[0032]
要注意的是得到训练好的卷积神经网络模型之后,k+1时刻节点之间的链接情况,就可以综合该时刻各个节点之间共同邻居的情况,将其作为输入值输入,那么得到的输出值就是对应的蛋白质之间是否存在链接的情况。
[0033]
nm’和nn’分别是第i时刻m’和n’存在的共同邻居的数目,参数λ是衰减系数,因为在预测第k+1时刻节点之间链接情况的时候,受到第k次的链接影响比之前链接影响要大。也就是时间越接近,其共同邻居的数据所占比例就越大,时间越久远,其共同邻居的数据所占的比例越小。通过计算,就可以得到第k+1时刻节点之间链接的估算情况,将作为训练好的卷积神经网络模型的输入,得到的输出也对应一个由0和1组成的二维矩阵,其中0和1分别对应于两个节点之间是否有边存在。
[0034]
所述模型验证的内容为:采用auc计算公式,如公式(4)所示,判断预测结果的好坏。
[0035][0036]
其中n指的是总的比较次数,n’,n”分别表示的是测试集链接权重大于及等于不存在的链接的权重的次数。如果是随机选取,那么auc的值应该在0.5;当auc的值与1越接近,说明建立的模型越理想,一旦auc的值小于0.5,那么所建立的模型不理想,因为其效果还比不上随机选取链接的情况。还可以通过与同类算法相比来比较模型的准确率。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1