基于图神经网络的酶定向突变序列预测方法、系统及介质与流程

文档序号:37637849发布日期:2024-04-18 17:56阅读:9来源:国知局
基于图神经网络的酶定向突变序列预测方法、系统及介质与流程

本发明涉及蛋白质工程,尤其是一种基于图神经网络的酶定向突变序列预测方法、系统及介质。


背景技术:

1、蛋白质的设计和酶定向优化,主要指通过蛋白质工程等手段,在实验室模拟并加速天然酶进化,对目标基因进行多轮反复的突变、表达和筛选,以获得具有一个或多个预期性能改进的酶突变体。在此过程中,突变和筛选的工作量是定向优化的瓶颈,不仅需要采用先进的基因诱变技术和方法,还需借助适当的计算手段来指导突变体的设计,整个定向优化的过程需要花费较长的周期才能得到相对比较理想的结果。酶定向突变主要基于物理理论模型,通过非常复杂的计算过程,生成最终的突变序列,一方面由于计算量较大,因此生成突变序列的速度往往很慢;另一方面,虽然其输出的结果有较好的可解释性,但理论的方法主要是用公式来拟合真实数据,所以其输出的结果多样性相对较少。


技术实现思路

1、为解决上述技术问题,本发明的目的在于:提供一种基于图神经网络的酶定向突变序列预测方法、系统及介质,能够有效预测多种酶定向突变序列,预测准确度高且速度快。

2、本发明一方面所采取的技术方案是:

3、一种基于图神经网络的酶定向突变序列预测方法,包括以下步骤:

4、获取待预测酶的三维空间结构信息,根据所述三维空间结构信息得到边特征、节点特征以及原始氨基酸序列;

5、根据所述原始氨基酸序列确定突变条件,根据所述突变条件得到位置编码,将所述边特征、所述节点特征以及所述位置编码输入预设的图神经网络编码器,得到边隐变量特征和节点隐变量特征;

6、将所述边隐变量特征和所述节点隐变量特征输入预设的图神经网络解码器,得到所述原始氨基酸序列中各氨基酸对应的突变概率分布;

7、根据所述突变概率分布得到突变序列和对应的突变概率得分;

8、其中,所述三维空间结构信息包括组成所述待预测酶的氨基酸序列信息、组成所述氨基酸的原子列表以及所述原子列表中各原子的三维坐标数据。

9、进一步,所述根据所述三维空间结构信息得到边特征、节点特征以及原始氨基酸序列这一步骤,其具体包括:

10、根据所述氨基酸序列信息得到所述原始氨基酸序列;

11、以所述原始氨基酸序列中各所述氨基酸作为节点,根据所述三维坐标数据通过径向基函数计算所述氨基酸中各所述原子与相邻所述氨基酸中各所述原子的距离,得到边特征向量;

12、将各所述边特征向量进行加权求和,得到原子特征,进而将所述原子特征进行加权求和,得到节点特征向量;

13、对所述边特征向量和所述节点特征向量进行更新,得到所述边特征和所述节点特征。

14、进一步,所述对所述边特征向量和所述节点特征向量进行更新,得到所述边特征和所述节点特征这一步骤,其具体包括:

15、将所述边特征向量和相邻节点的所述边特征向量进行拼接,得到边消息体,进而根据所述边消息体更新所述边特征向量,得到所述边特征;

16、将所述节点特征向量和相邻节点的所述节点特征向量进行拼接,得到节点消息体,进而根据所述节点消息体更新所述节点特征向量,得到所述节点特征。

17、进一步,所述根据所述原始氨基酸序列确定突变条件,根据所述突变条件得到位置编码这一步骤,其具体包括:

18、对所述原始氨基酸序列中各所述氨基酸的序列位置进行embedding编码,得到位置特征;

19、确定突变类型为随机序列位置突变还是指定序列位置突变,若为随机序列位置突变,在所有所述序列位置均设置掩码,若为指定序列位置突变,在指定的所述序列位置设置所述掩码;

20、将所述位置特征和所述掩码进行拼接,得到所述位置编码。

21、进一步,所述图神经网络编码器包括边编码器和节点编码器,所述将所述边特征、所述节点特征以及所述位置编码输入预设的图神经网络编码器,得到节点隐变量特征和边隐变量特征这一步骤,其具体包括:

22、通过所述边编码器将所述边特征输入多个预设的全连接层进行特征提取,得到所述边隐变量特征;

23、通过所述节点编码器将所述节点特征与所述位置编码进行拼接,得到节点编码特征,进而将所述节点编码特征输入多个所述全连接层进行特征提取,得到所述节点隐变量特征。

24、进一步,所述图神经网络解码器包括边解码器和节点解码器,所述将所述节点隐变量特征和所述边隐变量特征输入预设的图神经网络解码器,得到所述原始氨基酸序列中各氨基酸对应的突变概率分布这一步骤,其具体包括:

25、通过所述边解码器将所述边隐变量特征输入所述全连接层进行特征提取,并进行归一化,得到边输出特征;

26、通过所述节点解码器将所述边输出特征、所述节点隐变量特征以及所述位置编码进行拼接,得到节点输出特征;

27、将所述节点输出特征和相邻节点的所述节点输出特征进行拼接,进而将拼接后的所述节点输出特征输入所述全连接层,得到节点输出消息体;

28、通过所述节点解码器对所述节点输出消息体进行解码,得到所述原始氨基酸序列中各所述节点对应的突变概率分布。

29、进一步,所述根据所述突变概率分布得到突变序列和对应的突变概率得分这一步骤,其具体包括:

30、将所述节点对应的各所述突变概率分布进行归一化,确定概率值最高的氨基酸类别作为所述节点的突变氨基酸,得到所述突变序列和各所述节点对应的概率值;

31、将各所述概率值进行加权求和,得到所述突变概率得分。

32、本发明另一方面所采取的技术方案是:

33、一种基于图神经网络的酶定向突变序列预测系统,包括:

34、特征获取模块,用于获取待预测酶的三维空间结构信息,根据所述三维空间结构信息得到边特征、节点特征以及原始氨基酸序列;

35、序列编码模块,用于根据所述原始氨基酸序列确定突变条件,根据所述突变条件得到位置编码,将所述边特征、所述节点特征以及所述位置编码输入预设的图神经网络编码器,得到边隐变量特征和节点隐变量特征;

36、序列解码模块,用于将所述边隐变量特征和所述节点隐变量特征输入预设的图神经网络解码器,得到所述原始氨基酸序列中各氨基酸对应的突变概率分布;

37、突变序列预测模块,用于根据所述突变概率分布得到突变序列和对应的突变概率得分;

38、其中,所述三维空间结构信息包括组成所述待预测酶的氨基酸序列信息、组成所述氨基酸的原子列表以及所述原子列表中各原子的三维坐标数据。

39、本发明另一方面所采取的技术方案是:

40、一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如前面所述的基于图神经网络的酶定向突变序列预测方法。

41、本发明另一方面所采取的技术方案是:

42、一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如前面所述的基于图神经网络的酶定向突变序列预测方法。

43、本发明的有益效果是:本发明的基于图神经网络的酶定向突变序列预测方法、系统及介质,通过获取待预测酶的三维空间结构信息,根据三维空间结构信息得到原始氨基酸序列、边特征以及节点特征,进而确定突变条件,根据突变条件得到位置编码,通过图神经网络编码器将边特征、节点特征以及位置编码进行拟合,得到隐变量特征,进而通过图神经网络解码器对隐变量特征进行解码,输出预测的突变序列和对应的突变概率得分,一方面能够有效预测多种酶定向突变序列,预测的准确度高且速度快;另一方面能够有效节约人力和时间成本。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1