本申请涉及生物信息学,尤其涉及一种用于预测蛋白质突变稳定性的技术。
背景技术:
1、目前,可以通过热力学实验,例如差示扫描量热法或光谱学方法等,测定蛋白质在突变后的热稳定性变化。这种方法可以对蛋白质折叠状态的变化提供直接观察,但是实验周期长、成本高。也可以利用机器学习等技术,从大规模的已知蛋白质突变体和相应稳定性变化的数据中学习蛋白质突变的规律,来预测突变引起的稳定性变化。这种方法预测效率高,但是预测准确率较低。
技术实现思路
1、本申请的一个目的是提供一种用于预测蛋白质突变稳定性的方法、设备及介质。
2、根据本申请的一个方面,提供了一种用于预测蛋白质突变稳定性的方法,该方法包括:
3、获取预训练蛋白质语言模型与预训练蛋白质结构模型;
4、基于蛋白质突变训练数据、所述预训练蛋白质语言模型、所述预训练蛋白质结构模型,构建图神经网络,其中,所述蛋白质突变训练数据包括第一蛋白质序列信息、所述第一蛋白质序列信息对应的结构信息和突变信息;
5、基于蛋白质适应度数据和突变导致的自由能变化数据,结合所述图神经网络,训练得到蛋白质突变稳定性预测模型;
6、基于目标蛋白质突变数据,利用所述预训练蛋白质语言模型、所述预训练蛋白质结构模型、所述图神经网络与所述蛋白质突变稳定性预测模型,确定所述目标蛋白质突变数据对应的蛋白质突变稳定性信息,其中,所述目标蛋白质突变数据包括目标蛋白质序列信息、所述目标蛋白质序列信息对应的结构信息和突变信息。
7、根据本申请的另一个方面,提供了一种用于构建蛋白质突变稳定性预测模型的方法,该方法包括:
8、获取预训练蛋白质语言模型与预训练蛋白质结构模型;
9、基于蛋白质突变训练数据、所述预训练蛋白质语言模型、所述预训练蛋白质结构模型,构建图神经网络,其中,所述蛋白质突变训练数据包括第一蛋白质序列信息、所述第一蛋白质序列信息对应的结构信息和突变信息;
10、基于蛋白质适应度数据和蛋白质突变自由能变化数据,结合所述图神经网络,训练得到蛋白质突变稳定性预测模型。
11、根据本申请的一个方面,提供了一种用于预测蛋白质突变稳定性的计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如上所述任一方法的步骤。
12、根据本申请的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
13、根据本申请的一个方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
14、根据本申请的一个方面,提供了一种用于预测蛋白质突变稳定性的设备,该设备包括:
15、一一模块,用于获取预训练蛋白质语言模型与预训练蛋白质结构模型;
16、一二模块,用于基于蛋白质突变训练数据、所述预训练蛋白质语言模型、所述预训练蛋白质结构模型,构建图神经网络,其中,所述蛋白质突变训练数据包括第一蛋白质序列信息、所述第一蛋白质序列信息对应的结构信息和突变信息;
17、一三模块,用于基于蛋白质适应度数据和突变导致的自由能变化数据,结合所述图神经网络,训练得到蛋白质突变稳定性预测模型;
18、一四模块,用于基于目标蛋白质突变数据,利用所述预训练蛋白质语言模型、所述预训练蛋白质结构模型、所述图神经网络与所述蛋白质突变稳定性预测模型,确定所述目标蛋白质突变数据对应的蛋白质突变稳定性信息,其中,所述目标蛋白质突变数据包括目标蛋白质序列信息、所述目标蛋白质序列信息对应的结构信息和突变信息。
19、根据本申请的一个方面,提供了一种用于构建蛋白质突变稳定性预测模型的设备,该设备包括:
20、二一模块,用于获取预训练蛋白质语言模型与预训练蛋白质结构模型;
21、二二模块,用于基于蛋白质突变训练数据、所述预训练蛋白质语言模型、所述预训练蛋白质结构模型,构建图神经网络,其中,所述蛋白质突变训练数据包括第一蛋白质序列信息、所述第一蛋白质序列信息对应的结构信息和突变信息;
22、二三模块,用于基于蛋白质适应度数据和蛋白质突变自由能变化数据,结合所述图神经网络,训练得到蛋白质突变稳定性预测模型。
23、与现有技术相比,本申请通过获取预训练蛋白质语言模型与预训练蛋白质结构模型;基于蛋白质突变训练数据、所述预训练蛋白质语言模型、所述预训练蛋白质结构模型,构建图神经网络,其中,所述蛋白质突变训练数据包括第一蛋白质序列信息、所述第一蛋白质序列信息对应的结构信息和突变信息;基于蛋白质适应度数据和突变导致的自由能变化数据,结合所述图神经网络,训练得到蛋白质突变稳定性预测模型;基于目标蛋白质突变数据,利用所述预训练蛋白质语言模型、所述预训练蛋白质结构模型、所述图神经网络与所述蛋白质突变稳定性预测模型,确定所述目标蛋白质突变数据对应的蛋白质突变稳定性信息,其中,所述目标蛋白质突变数据包括目标蛋白质序列信息、所述目标蛋白质序列信息对应的结构信息和突变信息。本申请综合应用预训练蛋白质语言模型、预训练蛋白质结构模型、图神经网络,并且有效整合蛋白质适应度数据和蛋白质突变自由能变化数据,建立从蛋白质序列、结构到稳定性的关系,准确地评估氨基酸残基之间的相互影响,来预测突变引起的稳定性变化,有效提升了蛋白质突变影响预测的全面性和准确性。
1.一种用于预测蛋白质突变稳定性的方法,其中,所述方法包括:
2.根据权利要求1所述的方法,其中,所述获取预训练蛋白质语言模型与预训练蛋白质结构模型包括:
3.根据权利要求2所述的方法,其中,所述基于蛋白质序列数据,构建预训练蛋白质语言模型包括:
4.根据权利要求3所述的方法,其中,所述获取所述蛋白质序列数据包括:
5.根据权利要求1至4中任一项所述的方法,其中,所述基于蛋白质突变训练数据、所述预训练蛋白质语言模型、所述预训练蛋白质结构模型,构建图神经网络,其中,所述蛋白质突变训练数据包括第一蛋白质序列信息、所述第一蛋白质序列信息对应的结构信息和突变信息包括:
6.根据权利要求5所述的方法,其中,所述基于所述蛋白质突变训练数据、所述预训练蛋白质语言模型、所述预训练蛋白质结构模型,进行信息整合,获取相应的编码信息,其中,所述蛋白质突变训练数据包括第一蛋白质序列信息、所述第一蛋白质序列信息对应的结构信息和突变信息包括:
7.根据权利要求1所述的方法,其中,所述基于蛋白质适应度数据和蛋白质突变自由能变化数据,结合所述图神经网络,训练得到蛋白质突变稳定性预测模型包括:
8.根据权利要求1所述的方法,其中,所述基于蛋白质适应度数据和蛋白质突变自由能变化数据,结合所述图神经网络,训练得到蛋白质突变稳定性预测模型还包括:
9.根据权利要求1所述的方法,其中,所述基于目标蛋白质突变数据,利用所述预训练蛋白质语言模型、所述预训练蛋白质结构模型、所述图神经网络与所述蛋白质突变稳定性预测模型,确定所述目标蛋白质突变数据对应的蛋白质突变稳定性信息,其中,所述目标蛋白质突变数据包括目标蛋白质序列信息、所述目标蛋白质序列信息对应的结构信息和突变信息包括:
10.一种用于构建蛋白质突变稳定性预测模型的方法,其中,所述方法包括:
11.一种用于预测蛋白质突变稳定性的计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1至10中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至10中任一项所述方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至10中任一项所述方法的步骤。