一种蛋白质突变效应预测方法、装置、设备及介质与流程

文档序号:37171492发布日期:2024-03-01 12:18阅读:16来源:国知局
一种蛋白质突变效应预测方法、装置、设备及介质与流程

本发明涉及蛋白质序列,特别涉及一种蛋白质突变效应预测方法、装置、设备及介质。


背景技术:

1、预测蛋白质突变效应是一个复杂的任务,因为突变可能涉及多种类型的结构和功能变化,这些变化可能相互关联并受到多种因素的影响。传统的蛋白质突变效应预测方法主要基于经验规则和统计分析。这些方法可以提供有限的预测准确性,但对于理解和预测复杂的突变效应仍然存在局限性。此外,传统的预测方法通常需要大量的实验数据来进行训练和验证,这不仅增加了成本和时间,而且也可能限制其泛化能力。此外,mlde(machine-learning-guided directed evolution,机器学习指导的定向进化)提供了一种从蛋白质序列提取信息用于突变效应预测的方法。该方法接受一个蛋白质序列以及突变位点作为输入,计算在指定突变位点上的所有组合突变的适应度(即目标性质)值。gvp-msa(geometricvector perception-multiple sequence alignment,几何向量感知机-多序列比对)则是基于蛋白质的结构文件训练一个端到端的神经网络模型。该方法结合结构文件与esm-msa(evolutionary scale modeling-multiple sequence alignment,蛋白质语言模型-多序列比对)预训练的序列编码器编码的多序列比对结果作为输入。但是上述的蛋白质突变效应预测方法为根据单一的结构编码或序列编码来预测蛋白质序列的适应性。无法充分表征蛋白质的多种结构层次和突变序列与野生型之间的差异信息,存在单一编码方式的局限性,并且现有的大语言模型虽然可以在蛋白质序列数据库上进行训练,提取自然进化压力下的蛋白质通用型信息,但这种方法对于实验室环境中蛋白质改造所面临的不同于自然进化压力的环境可能并不适用。同时,仅基于esm2(evolutionary scale modeling 2)提取特征的实验表明,其提取到的突变差异很小,难以用于下游任务,存在对自然进化压力的局限性。

2、综上,如何实现基于蛋白质结构信息和序列信息,全面、准确、高效预测蛋白质突变效应是本领域有待解决的技术问题。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种蛋白质突变效应预测方法、装置、设备及介质,能够实现基于蛋白质结构信息和序列信息,全面、准确、高效预测蛋白质突变效应。其具体方案如下:

2、第一方面,本技术公开了一种蛋白质突变效应预测方法,包括:

3、获取待预测蛋白质序列,将所述待预测蛋白质序列输入至预设突变效应预测模型;

4、通过所述预设突变效应预测模型提取所述待预测蛋白质序列的三维结构特征信息和序列特征信息,以基于所述三维结构特征信息和所述序列特征信息获取所述待预测蛋白质序列的结构特征向量和突变指纹预测值;

5、通过所述预设突变效应预测模型对所述结构特征向量和所述突变指纹预测值进行计算,以得到所述待预测蛋白质序列的基于三维结构的目标预测值,以便基于所述目标预测值确定所述待预测蛋白质序列的蛋白质突变效应结果。

6、可选的,所述获取待预测蛋白质序列,将所述待预测蛋白质序列输入至预设突变效应预测模型,包括:

7、基于待预测蛋白质序列的标识符和/或基于待预测蛋白质序列的名称信息从预设生物大分子三维数据库中获取所述待预测蛋白质序列的三维结构数据文件;

8、将所述三维结构数据文件的所述待预测蛋白质序列输入至预设突变效应预测模型。

9、可选的,所述通过所述预设突变效应预测模型提取所述待预测蛋白质序列的三维结构特征信息,包括:

10、通过所述预设突变效应预测模型的结构特征提取模块提取所述待预测蛋白质序列的单个氨基酸的坐标信息,并基于所述坐标信息计算氨基酸相邻肽键之间的扭转角度的指标,以得到二面角;

11、基于所述坐标信息计算氨基酸之间的目标距离、相对位置;

12、将所述二面角、目标距离、相对位置作为表征野生型序列的三维结构特征信息。

13、可选的,通过所述预设突变效应预测模型提取所述待预测蛋白质序列的序列特征信息,包括:

14、通过所述预设突变效应预测模型的序列特征提取模块提取所述待预测蛋白质序列的所有氨基酸的序列特征信息,并将所述序列特征信息组合成预设维度的特征向量,以得到序列特征向量。

15、可选的,所述通过所述预设突变效应预测模型的序列特征提取模块提取所述待预测蛋白质序列的所有氨基酸的序列特征信息,包括:

16、通过所述预设突变效应预测模型的序列特征提取模块提取所述待预测蛋白质序列的突变序列特征信息和野生型序列特征信息。

17、可选的,所述基于所述三维结构特征信息和所述序列特征信息获取所述待预测蛋白质序列的结构特征向量和突变指纹预测值,包括:

18、通过所述预设突变效应预测模型中的突变指纹计算模块提取所述序列特征向量的突变差异指纹,以对所述突变差异指纹依次进行线性层变换处理、注意力头计算处理、注意力头拼接处理、维度调整处理、残差连接输出处理,以得到相应的注意力表示,然后对所述注意力表示进行预测值计算,以得到突变指纹预测值;

19、通过所述预设突变效应预测模型中的结构特征计算模块的对所述三维结构特征信息中的图结构数据进行分析处理,然后通过图卷积神经网络对分析处理后的图结构数据转换为图结构特征向量,基于所述图结构特征向量和所述突变差异指纹以得到所述待预测蛋白质序列的结构特征向量。

20、可选的,所述蛋白质突变效应预测方法,还包括:

21、利用携带多位点突变/单位点突变标签及对应的适应度值的训练样本集对初始突变效应预测模型进行模型训练,以训练得到用于输出突变效应预测结果的预设突变效应预测模型。

22、第二方面,本技术公开了一种蛋白质突变效应预测装置,包括:

23、数据输入模块,用于获取待预测蛋白质序列,将所述待预测蛋白质序列输入至预设突变效应预测模型;

24、特征提取模块,用于通过所述预设突变效应预测模型提取所述待预测蛋白质序列的三维结构特征信息和序列特征信息,以基于所述三维结构特征信息和所述序列特征信息获取所述待预测蛋白质序列的结构特征向量和突变指纹预测值;

25、突变效应预测模块,用于通过所述预设突变效应预测模型对所述结构特征向量和所述突变指纹预测值进行计算,以得到所述待预测蛋白质序列的基于三维结构的目标预测值,以便基于所述目标预测值确定所述待预测蛋白质序列的蛋白质突变效应结果。

26、第三方面,本技术公开了一种电子设备,包括:

27、存储器,用于保存计算机程序;

28、处理器,用于执行所述计算机程序,以实现前述公开的蛋白质突变效应预测方法的步骤。

29、第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的蛋白质突变效应预测方法的步骤。

30、由此可见,本技术公开了一种蛋白质突变效应预测方法,包括:获取待预测蛋白质序列,将所述待预测蛋白质序列输入至预设突变效应预测模型;通过所述预设突变效应预测模型提取所述待预测蛋白质序列的三维结构特征信息和序列特征信息,以基于所述三维结构特征信息和所述序列特征信息获取所述待预测蛋白质序列的结构特征向量和突变指纹预测值;通过所述预设突变效应预测模型对所述结构特征向量和所述突变指纹预测值进行计算,以得到所述待预测蛋白质序列的基于三维结构的目标预测值,以便基于所述目标预测值确定所述待预测蛋白质序列的蛋白质突变效应结果。可见,通过结合蛋白质的三维结构特征信息和序列信息对蛋白质序列的突变效应进行预测,通过获取待预测蛋白质序列的结构特征向量和突变指纹预测值共同确定待预测蛋白质序列的基于三维结构的目标预测值,以根据该目标预测值更全面地理解突变对蛋白质结构和功能的影响,并提高突变效应预测的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1