一种基于大规模结构预训练模型的酶稳定性预测方法与流程

文档序号:37022560发布日期:2024-02-09 13:16阅读:249来源:国知局
一种基于大规模结构预训练模型的酶稳定性预测方法与流程

本发明涉及生物信息,具体涉及一种基于大规模结构预训练模型的酶稳定性预测方法。


背景技术:

1、酶的稳定性预测是一种通过计算机模拟和实验方法,预测酶在不同温度、ph值、化学环境等条件下稳定性能力的过程。在酶的稳定性预测中,通常采用生物信息学和计算化学等方法,建立酶的三维结构与稳定性的定量关系模型,如通过对比结构、进行突变分析等手段来预测酶的稳定性。酶的热稳定性预测是指通过计算机模拟、理论推算或实验检测等手段,预测酶在高温环境下的稳定性能力。在酶的热稳定性预测中,通常考察酶分子内部的非共价作用、氢键、盐桥等对其热稳定性的影响,以及不同温度下蛋白质构象和结构稳定性。

2、目前常见的酶稳定性预测算法主要包括以下几类:一、分子动力学模拟法:通过分子动力学模拟计算酶在高温环境下的结构稳定性和动力学特性,模拟出不同温度下蛋白质的构象和运动轨迹,进而预测酶的热稳定性。二、机器学习算法:基于已知酶的结构和稳定性的训练样本,采用机器学习算法构建酶稳定性预测模型。三、构象熵理论:该理论认为,酶的热稳定性与构象熵之间存在负相关关系,可以通过计算酶的构象熵值来预测其热稳定性。四、基于序列和结构特征的预测模型:通过研究酶序列和结构特征与其稳定性之间的关系,构建相应的预测模型,如用最小二乘法拟合序列和结构特征的线性模型、利用基础扩散模型预测溶液中的酶热稳定性。rosetta以及foldx是比较传统的酶设计工具,基于统计势能和经验函数拟合,根据蛋白质的结构来计算蛋白质的能量,可以预测酶的热稳定性。其中基于深度学习和机器学习的方法主要包括:thermonet,acdc-nn,dynamut2,ddgun3d。

3、现有的技术路线主要分为两类,一种是基于序列的热稳定性预测,另一种是基于结构的热稳定性预测。其中基于序列的酶设计算法有以下问题:一、基于序列的算法需要足够量和质量的酶序列和热稳定性数据,才能进行开发和训练。但是,目前可用的酶样本较少,而且样本质量和数据来源的差异也可能导致模型的不稳定和误差增大。二、酶的序列虽然反映了其基本结构和功能特征,但是缺乏具体的三维空间结构信息,无法直接反映其内部氨基酸相互作用和折叠情况。三、酶的热稳定性受到很多环境因素的影响,如离子浓度、ph值、有机溶剂等,但是基于序列的算法往往未能考虑这些影响因素。四、基于序列的算法复杂度较低,难以充分考虑酶稳定性的多种因素,因此其预测精度不能与基于结构的算法相比,存在一定的误差和局限性。

4、基于结构的预测算法可能存在的问题包括:一、基于结构的算法需要大量的高质量蛋白质结构数据作为训练集,但是目前可用的蛋白质结构数据有限,而且涉及的酶种类也较少,限制了算法的应用范围和效果。二、结构模型的构建、选择和优化等步骤都可能产生系统误差,影响到预测结果的准确性和可信度。三、酶热稳定性受众多因素的影响,目前对于酶热稳定性关键特征的理解还不够深入和全面,导致基于结构的算法在预测某些酶的热稳定性时,存在一定的误差和难度。四、酶活动的环境条件,如温度、ph等因素,可能会影响酶的热稳定性,但是目前大多数基于结构的算法只能考虑酶结构本身在稳定条件下的热稳定性,无法考虑环境因素的影响。

5、为了解决上述的问题,本发明技术方案能够充分利用蛋白质序列和结构的语义信息,通过结构预训练的蛋白质语言模型,实现对蛋白质热稳定性的准确预测。


技术实现思路

1、本发明的目的是提供一种基于大规模结构预训练模型的酶稳定性预测方法,具有更高的精度、检测的速度较快、检测结果更稳定。

2、术语解释:

3、术语“酶的稳定性”是指酶在特定环境下保持其活性的时间长短。

4、术语“酶热稳定性”是指酶在高温条件下维持其催化性的能力。通常,酶在较高的温度下会发生变性、失去二级、三级和四级结构,并丧失其催化能力。酶热稳定性越高,酶分子在高温环境下能够保持相对稳定的构象,维持其催化能力的时间就越长,对于一些应用来说意义就越大。

5、术语“蛋白质设计”是指利用理论计算和实验手段,在蛋白质分子的基础上进行改造、重组或设计,以获得更好的特性和性能。蛋白质设计通常包括几个基本步骤:首先是对蛋白质分子的结构进行分析,并根据已知的结构、功能和性能进行设计,然后通过合成或突变等方式进行实验操作,最终得到获得高效和稳定的蛋白质分子。该技术能够广泛应用于生命科学、医药、工业、能源等领域中,具有很大的应用前景和重要的价值。

6、本发明中,术语“前馈神经网络”是一种人工神经网络,在前馈神经网络中,各神经元从输入层开始,接收前一级输入,并输入到下一级,直至输出层。transformer的数据经过前馈神经网络,该前馈神经网络采用两个线性变换,激活函数为relu函数。

7、术语“注意力”在transformer模型中起着重要作用。它通过查询、键和值的线性变换来计算注意力权重,并将值与权重相加以加权聚合。这样可以捕捉输入序列中的关键信息。多头注意力允许并行计算多个注意力,以捕获不同层次和类型的信息。注意力机制提升了transformer模型的表达能力和泛化能力,在自然语言处理等任务中表现出色。

8、为实现上述发明目的,本发明的技术方案如下:

9、一方面,本发明提供了一种基于大规模结构预训练模型的酶稳定性预测方法,所述的酶稳定性预测方法包括以下步骤:

10、s1、蛋白质结构数据库的构建;

11、s2、预训练:利用mlm技术,并将蛋白质的氨基酸以及氨基酸之间的角度和距离信息引入模型,作为预训练;

12、s3、输入蛋白质结构信息,使用神经网络模型对酶稳定性进行预测;

13、步骤s3中神经网络模型采用transformer架构,包括输入层、编码器、解码器和输出层;

14、所述的输入层输入包括野生型序列、突变体序列;

15、所述的编码器采用transformer模型的编码器,共6层,每层包括两部分,第一部分为自注意力层,第二部分为前馈神经网络;

16、进入编码器中,采用自注意力机制,通过以下步骤计算自注意力:

17、1、线性变换:

18、q=x*w_q;

19、k=x*w_k;

20、v=x*w_v;

21、式中,x是输入序列,w_q、w_k和w_v是学习的权重矩阵;

22、2、相似度计算:

23、注意力得分=q*k^t;

24、式中,^t表示矩阵的转置操作;

25、3、注意力权重计算:注意力权重=softmax(注意力得分/根号模型维度);

26、4、加权求和:自注意力表示=注意力权重*v;

27、所述的输出层输出为热稳定性变化能量ddg。

28、优选地,步骤s1中所述的蛋白质结构数据库选自alphafold2数据库和cath数据集。

29、具体地,所述的蛋白质结构选自alphafold2数据库中的300,000个蛋白质结构和cath数据集中的1,000个蛋白质经过rosetta-ddg全位点饱和突变后的结构。

30、具体地,所述的rosetta-ddg全位点饱和突变包括以下步骤:

31、1.结构建模:对于alphafold2数据库中未提供的蛋白质结构,使用蛋白质结构预测软件alphafold2进行建模,以获得蛋白质的三维结构;

32、2.突变构建:对选定的蛋白质结构,使用rosetta-ddg方法生成全位点饱和突变的构象,对于每个位点,进行所有可能的氨基酸突变,并生成相应的构象;

33、3.能量评估:对生成的全位点饱和突变构象进行能量评估,使用rosetta-ddg计算,以获得每个突变构象的预测ddg。

34、具体地,cath数据集提供了已经解析出的蛋白质结构信息。

35、优选地,步骤s2中模型的预训练阶段利用了掩码语言模型技术(masked languagemodel,mlm),在mlm任务中,模型需要预测输入序列中被随机掩盖(或隐藏)的一部分,在预测被随机掩盖的序列时,该序列周围的其他氨基酸的距离和角度是模型的特征输入。并结合了野生型酶中的距离和角度信息,完成了rosetta ddg的假标签任务。

36、优选地,步骤s2的预训练过程中引入了距离dij、二面角ωij、二面角θij和平面角

37、具体地,所述的距离dij,它是由cβi和cβj原子之间的连接所确定。该距离用于衡量蛋白质中不同残基之间的空间间隔。

38、具体地,所述的二面角ωij。该角度由cαi、cβi、cβj和cαj原子构成。它用于描述蛋白质结构中两个残基之间的二面角变化。

39、进一步具体地,所述的二面角θij。它由ni、cαi、cβi和cβj原子组成。这个角度用于捕捉蛋白质结构中残基之间的扭曲变化。

40、具体地,所述的平面角它由cαi、cβi和cβj原子组成。该角度用于描述蛋白质结构中两个残基之间的平面角度变化。

41、优选地,模型训练后还包括使用数据集对其进行微调步骤。

42、进一步优选地,所述的数据集选自q3421数据集、s2648数据集、s669数据集、q1744数据集、ssym+数据集、s1099数据集中的一种或多种。

43、再进一步优选地,所述的数据集为q1744数据集。

44、具体地,上述的数据集为酶的热稳定性突变和能量关系数据集。

45、进一步具体地,上述的数据集记录了单位点突变引起的酶稳定性变化(即ddg能量)。

46、进一步优选地,所述的微调过程中,模型的参数将根据新的任务数据(即q1744数据集)进行调整,使得模型在预测突变后的稳定性变化方面的表现得更好。模型微调的内容是神经网络模型输出的最后两层的权重参数和偏置参数。

47、在本发明的一些实施方式中,步骤s3中所述的模型可选自神经网络模型、cnn模型、rnn模型、图神经网络模型中的一种或多种。

48、优选地,所述的模型为神经网络模型。

49、具体地,l表示氨基酸序列的长度,441表示氨基酸位置i和j的21种氨基酸组合。

50、进一步具体地,所述的21种氨基酸包括20种天然氨基酸和一种空缺位置。

51、优选地,在步骤s3编码器的自注意层和前馈网络之间,添加残差连接和层归一化网络,并使用激活函数。

52、残差连接:

53、在transformer模型中,残差连接(residual connections)是一种技术,用于在深层神经网络中引入直接连接,以解决梯度消失和梯度爆炸等训练难题。这种连接方式允许信息更容易地在网络中流动和传递。具体而言,残差连接在每个子层(如自注意力层和前馈神经网络层)中被应用。在经过子层的计算后,输出会与输入进行相加操作,形成残差。数学上,设子层的输入为x,经过子层的计算得到的输出为y,则残差连接可以表示为:

54、输出=x+y;

55、通过残差连接,输入信息被保留并直接传递到网络的下一层。这种设计使得网络可以更好地学习残差(差异),从而更有效地优化模型的表示能力。

56、层归一化:

57、在transformer模型中,层归一化(layer normalization)是一种归一化技术,用于在模型的每个层中对特征进行归一化处理。它有助于缓解梯度消失问题,加速模型训练和提高模型性能。

58、层归一化的核心思想是对每个样本的特征进行归一化,而不是对整个批次进行归一化。它在每个层的输出上进行操作,将输入进行线性变换和平移,然后对其进行归一化。

59、具体而言,给定一个输入张量x,层归一化可以通过以下步骤实现:

60、1.计算特征维度的平均值和方差:

61、μ=mean(x);

62、σ=std(x);

63、这里的mean(x)和std(x)分别表示求均值和标准差。

64、2.对输入进行归一化处理:

65、归一化的输出y=(x-μ)/σ;

66、这里的x-μ表示将每个特征减去平均值,然后除以标准差σ进行归一化。

67、3.线性变换和平移:

68、在归一化的输出上进行线性变换和平移,使用可学习的缩放参数(scale)和偏置参数(bias):

69、输出z=scale*y+bias;

70、缩放参数和偏置参数是模型可学习的参数。

71、层归一化的作用是将每个样本的特征进行归一化,使得模型对于输入的规模变化更加鲁棒。它有助于加速训练收敛,提高模型的泛化能力,并且对于梯度计算也有一定的正则化效果。层归一化在transformer模型的每个层中广泛应用,有助于提升其性能和训练效果。

72、使用激活函数:

73、在transformer模型中,常用的激活函数主要有两个:relu(rectified linearunit)和gelu(gaussian error linear unit)。

74、1.relu(rectified linear unit):

75、relu是一种简单而有效的非线性激活函数,它将小于零的输入值置为零,并保持大于等于零的值不变。数学表达式如下:

76、relu(x)=max(0,x);

77、relu的优点是计算简单且具有稀疏激活性,它能够使得网络更易训练和收敛。

78、2.gelu(gaussian error linear unit):

79、gelu是一种近似高斯误差线性单元的激活函数,它在transformer中逐渐被广泛采用。数学表达式如下:

80、gelu(x)=0.5*x*(1+tanh(sqrt(2/pi)*(x+0.044715*x^3)));

81、gelu的主要优点是在输入接近零时,它的形状接近线性,而在输入较大时,它具有非线性的饱和性质。相比于relu,gelu在一些任务上表现更好,并且能够提高模型的性能。

82、这两种激活函数在transformer模型的不同层中可以互换使用,具体选择哪个激活函数取决于任务和实验结果。此外,还有其他激活函数如leaky relu、swish等也可在transformer中使用,根据具体情况选择适合的激活函数可以提升模型的性能。

83、具体地,自注意力机制允许模型在融合共进化特征的同时,自动学习到序列内部的依赖关系和重要特征。

84、进一步具体地,所述的融合共进化特征的步骤为:使用自注意力机制,将共进化特征与序列特征进行融合。在transformer模型中,自注意力机制允许模型关注输入序列中的不同部分,自动学习并融合各部分的重要特征。在实际操作中,首先将输入序列和共进化特征进行拼接,然后通过自注意力机制对其进行编码和融合,最终得到一个融合了共进化特征的序列表示。

85、具体地,前馈神经网络进一步处理自注意力层的输出,增加了模型的非线性能力。

86、如果涉及多位点突变,则可以单独预测每个位点的能量,并进行累加以得到最终结果。

87、又一方面,本发明提供了上述的酶稳定性预测方法在生物制药或食品加工中的应用。

88、本发明的有益效果为:

89、(1)本发明提出了一种基于大规模结构预训练模型的热稳定性预测方法,通过将距离和角度信息纳入模型的预训练过程中,能够更好地捕捉到蛋白质结构的细微变化和相互作用,有助于提高模型对野生型蛋白质结构的理解和预测能力。

90、(2)本发明的方法具有较高的精度,运算速度更快,整体预测结果更稳定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1