本技术涉及生物信息学,特别是涉及一种蛋白质功能的预测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、蛋白质是维持所有生命形式所必需的活细胞的基本结构和功能元素,生物体内几乎所有的生命活动过程都有蛋白质参与。蛋白质功能的研究有助于了解各种细胞反应机制,对于药物靶点的发现,生理和病理过程及酶催化机制的研究具有重要意义。随着二代测序技术的成熟,蛋白质序列被实验解析的数据逐渐增多。例如,uniprot(universalprotein)数据库提供了约2亿蛋白质序列,但其中只有不到19.4%通过实验注释。由于实验注释的耗时和劳动强度过高,迫切需要开发能够实现蛋白质功能预测的方法。
2、相关技术中,基于蛋白质序列相似性预测蛋白质功能。该类方法的基本原理是具有相似序列的蛋白质可能具有相似的功能,也成为序列同源转移。例如,文献《a sequencealignment based method for predicting protein functions. methods》gong, q.,ning, w., & tian, w. (2015),提供了一种蛋白质功能的预测方法,该方法只需要蛋白质序列即可进行相关研究。但这种方法存在先天的局限性:当序列同源性低于某一阈值时,预测精度将受到显著影响。因此,亟需一种对普遍的蛋白质均适用的蛋白质功能的预测方法,以及具有较高的预测准确度。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种蛋白质功能的预测方法、装置、计算机设备、存储介质和计算机程序产品。
2、第一方面,本技术提供了一种蛋白质功能的预测方法,包括:
3、获取蛋白质对应的蛋白质序列特征,以及组成所述蛋白质的原子的空间坐标信息;
4、根据所述空间坐标信息,确定所述蛋白质的空间结构信息;
5、将所述序列特征和所述空间结构信息输入图神经网络模型,经所述图神经网络输出所述蛋白质的功能类别。
6、在其中一个实施例中,所述空间结构信息包括图模型,所述根据所述空间坐标信息,确定所述蛋白质的空间结构信息,包括:
7、根据所述空间坐标信息,确定所述蛋白质中两两氨基酸残基之间的距离;
8、将所述距离与预设阈值进行比较,得到所述蛋白质中两两氨基酸残基之间的接触结果;其中,所述接触结果包括接触或不接触,在所述距离小于所述预设阈值的情况下,确定两氨基酸残基的接触结果为接触;
9、根据所述接触结果,确定所述蛋白质的图模型。
10、在其中一个实施例中,所述图模型包括接触图,根据所述接触结果,确定所述蛋白质的图模型,包括:
11、确定矩阵的行宽和列宽为所述蛋白质对应的蛋白质序列的长度;
12、确定所述矩阵的元素为所述接触结果;
13、确定所述蛋白质的接触图为所述矩阵。
14、在其中一个实施例中,所述获取蛋白质对应的蛋白质序列特征,包括:
15、获取蛋白质对应的蛋白质序列;
16、利用预训练模型提取所述蛋白质序列的蛋白质序列特征;其中,所述预训练模型为根据样本蛋白质序列与氨基酸类别的对应关系训练获得。
17、在其中一个实施例中,所述图神经网络模型包括输入层、图卷积层、归一化层和输出层,将所述序列特征和所述空间结构信息输入图神经网络模型,经所述图神经网络输出所述蛋白质的功能类别,包括:
18、将所述蛋白质序列特征和所述空间结构信息输入至所述输入层;
19、利用所述图卷积层对所述空间结构信息和所述序列特征进行特征提取,得到融合特征;
20、将所述融合特征依次输入所述归一化层和所述输出层,输出得到所述蛋白质的功能类别。
21、在其中一个实施例中,所述功能类别包括子功能类别,所述将所述序列特征和所述空间结构信息输入图神经网络模型,经所述图神经网络输出所述蛋白质的功能类别,包括:
22、将所述序列特征和所述空间结构信息输入子功能类别对应的图神经网络模型;
23、经所述子功能类别对应的图神经网络模型,输出所述蛋白质的子功能类别。
24、在其中一个实施例中,所述子功能类别包括下述中的至少一种:
25、分子功能、生物过程、细胞组分、酶分类。
26、第二方面,本技术还提供了一种蛋白质功能的预测装置,所述装置包括:
27、获取模块,用于获取蛋白质对应的蛋白质序列特征,以及组成所述蛋白质的原子的空间坐标信息;
28、确定模块,用于根据所述空间坐标信息,确定所述蛋白质的空间结构信息;
29、预测模块,用于将所述序列特征和所述空间结构信息输入图神经网络模型,经所述图神经网络输出所述蛋白质的功能类别。
30、在其中一个实施例中,所述确定模块,包括:
31、第一确定子模块,用于根据所述空间坐标信息,确定所述蛋白质中两两氨基酸残基之间的距离;
32、比较子模块,用于将所述距离与预设阈值进行比较,得到所述蛋白质中两两氨基酸残基之间的接触结果;其中,所述接触结果包括接触或不接触,在所述距离小于所述预设阈值的情况下,确定两氨基酸残基的接触结果为接触;
33、第二确定子模块,用于根据所述接触结果,确定所述蛋白质的图模型。
34、在其中一个实施例中,所述图模型包括接触图,所述第二确定子模块,包括:
35、第一确定单元,用于确定矩阵的行宽和列宽为所述蛋白质对应的蛋白质序列的长度;
36、第二确定单元,用于确定所述矩阵的元素为所述接触结果;
37、第三确定单元,用于确定所述蛋白质的接触图为所述矩阵。
38、在其中一个实施例中,所述获取模块,包括:
39、获取子模块,用于获取蛋白质对应的蛋白质序列;
40、提取子模块,用于利用预训练模型提取所述蛋白质序列的蛋白质序列特征;其中,所述预训练模型为根据样本蛋白质序列与氨基酸类别的对应关系训练获得。
41、在其中一个实施例中,所述功能类别包括子功能类别,所述预测模块,包括:
42、输入子模块,用于将所述序列特征和所述空间结构信息输入子功能类别对应的图神经网络模型;
43、输出子模块,用于经所述子功能类别对应的图神经网络模型,输出所述蛋白质的子功能类别。
44、第三方面,本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
45、第四方面,本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
46、第五方面,本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
47、上述蛋白质功能的预测方法、装置、计算机设备、存储介质和计算机程序产品,利用蛋白质的蛋白质序列特征结合蛋白质的空间结构信息,预测蛋白质的功能类别。相较于传统的基于蛋白质序列相似性预测蛋白质功能,本公开实施例能够快速的预测蛋白质的功能,且对于普遍的蛋白质均能预测,无需考虑该蛋白质是否有相似的蛋白质。进一步地,本公开实施例在进行蛋白质的功能类别预测时,使用了蛋白质的空间结构信息,该空间结构信息与蛋白质的功能具有较为密切的联系,例如,蛋白质的空间结构会影响蛋白质的催化、生化反应,参与信号传导和运输等。从而利用蛋白质的空间结构信息辅助蛋白质的序列特征更能准确地预测出蛋白质的功能类别。