本技术涉及计算机,具体而言,本技术涉及一种蛋白质间相互作用的预测方法、装置、电子设备及计算机可读存储介质。
背景技术:
1、蛋白质相互作用研究能够从分子水平上揭示蛋白质的功能,帮助揭示生长发育、新陈代谢、分化和凋亡等细胞活动的规律。在全基因组范围内识别蛋白质相互作用是解释细胞调控机制的重要一步。
2、随着蛋白质相互作用实验技术的发展,人们能够获得大量的蛋白质相互作用数据,甚至能够在全基因组范围内对蛋白质相互作用进行分析。然而,由于实验技术的限制,通过实验检测来确定蛋白质间的相互作用的方式耗费大量人力资源且效率较低,不适用于大规模的检测。
技术实现思路
1、本技术的目的旨在至少能解决上述的技术缺陷之一,特别是传统实验方法不适用于大规模蛋白质相互作用检测的技术缺陷。
2、根据本技术的一个方面,提供了一种蛋白质间相互作用的预测方法,该方法包括:
3、获取第一蛋白质的氨基酸序列,所述第一蛋白质的氨基酸序列包括多个第一氨基酸序列;分别获取每个所述第一氨基酸序列的第一序列信息;
4、获取第二蛋白质的氨基酸序列,所述第二蛋白质的氨基酸序列包括多个第二氨基酸序列;分别获取每个所述第二氨基酸序列的第二序列信息;
5、根据所述第一序列信息以及所述第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;
6、根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
7、可选地,所述第一序列信息包括:所述第一氨基酸序列的第一特征信息,以及所述第一蛋白质包括的所述第一氨基酸序列的第一数量信息,
8、所述第二序列信息包括:所述第二氨基酸序列的第二特征信息,以及所述第二蛋白质包括的所述第二氨基酸序列的第二数量信息,
9、所述根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系,包括:
10、确定所述第一数量信息与所述第二数量信息之间的第一关联关系;以及确定所述第一特征信息与所述第二特征信息的第二关联关系;
11、根据所述第一关联关系及所述第二关联关系,确定所述序列关联关系。
12、可选地,所述确定所述第一数量信息与所述第二数量信息之间的第一关联关系,包括:
13、根据预设概率分布算法,确定所述第一数量信息与所述第二数量信息之间的相似度,得到所述第一关联关系。
14、可选地,所述确定所述第一特征信息与所述第二特征信息的第二关联关系,包括:
15、根据所述第一特征信息与所述第二特征信息,确定所述第一氨基酸序列与第二氨基酸序列的特征关联关系;
16、根据所述特征关联关系,确定所述第二关联关系。
17、可选地,所述第一关联关系对应的数据关系包括:
18、
19、其中,φ(k|ui)表示第一关联关系;k表示第二氨基酸序列的数量;λ(ui)表示ui中第一氨基酸序列的数量的期望;ui表示所述第一蛋白质。
20、可选地,所述第二关联关系对应的数据关系包括:
21、
22、其中,y表示所述第二关联关系;m表示第一氨基酸序列的数量;k表示第二氨基酸序列的数量;null表示预设氨基酸序列;表示所述第二蛋白质uj中的第k个第二氨基酸序列;
23、其中,pml(w|ui)表示从所述第一蛋白质ui中选出任意一个所述第一氨基酸序列w的概率;
24、表示所述预设氨基酸序列与之间的条件概率。
25、可选地,所述序列关联关系对应的数据关系包括:
26、p(uj|ui)=yφ(k|ui);
27、其中,y表示所述第二关联关系;φ(k|ui)表示第一关联关系。
28、可选地,确定所述序列关联关系、根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,包括:
29、将所述第一序列信息以及所述第二序列信息输入至预设预测模型,得到所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
30、可选地,所述将所述第一序列信息以及所述第二序列信息输入至预设预测模型之前,所述方法还包括:
31、获取训练样本;其中,所述训练样本包括:样本蛋白质对以及所述样本蛋白质对对应的样本关联关系;所述样本蛋白质对包括第一样本蛋白质及第二样本蛋白质;
32、将所述训练样本输入初始预测模型中,得到每个所述训练样本对应的预测结果;
33、根据所述样本关联关系及所述预测结果,确定训练损失值;
34、基于所述训练损失值,对所述初始模型进行重复训练,直至得到符合训练结束条件的所述预设预测模型。
35、可选的,所述训练损失值对应的数据关系包括:
36、
37、其中,l表示所述训练损失值;|qi|表示所述第一样本蛋白质qi中所述第一氨基酸序列的数量;|ai|表示所述第二样本蛋白质ai中所述第二氨基酸序列的数量。表示qi中第k个所述第一氨基酸序列;null表示预设氨基酸序列;h表示所述样本蛋白质对的数量。
38、可选地,所述序列关联关系包括关联关系值,
39、所述根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,包括:
40、将所述关联关系值与预设关系阈值进行比较,确定所述第一蛋白质与所述第二蛋白质之间的相互作用信息;
41、所述相互作用信息指示所述第一蛋白质与所述第二蛋白质是否发生相互作用。
42、根据本技术的另一个方面,提供了一种蛋白质间相互作用的预测方法,该装置包括:
43、获取模块,用于获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;其中,所述第一氨基酸序列包括第一蛋白质的氨基酸,所述第二氨基酸序列包括第二蛋白质的氨基酸;
44、确定模块,用于根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;
45、预测模块,用于根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
46、根据本技术的另一个方面,提供了一种电子设备,该电子设备包括:
47、一个或多个处理器;
48、存储器;
49、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行如本技术的第一方面所示的任一项所述的蛋白质间相互作用的预测方法。
50、例如,本技术的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
51、存储器用于存放至少一可执行指令,可执行指令使处理器执行如本技术的第一方面所示的蛋白质间相互作用的预测方法对应的操作。
52、根据本技术的再一个方面,提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现如本技术的第一方面所示的任一项所述的蛋白质间相互作用的预测方法。
53、例如,本技术实施例的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本技术第一方面所示的蛋白质间相互作用的预测方法。
54、根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面的各种可选实现方式中提供的方法。
55、本技术提供的技术方案带来的有益效果是:
56、本技术实施例通过获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息;其中,第一氨基酸序列及第二氨基酸序列分别作为第一蛋白质及第二蛋白质的组成部分,第一氨基酸序列与第二氨基酸序列之间的序列关联关系可以反应第一蛋白质与第二蛋白质之间的关系。这样,通过序列关联关系预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,可以提升预测的准确度。