一种基于几何图神经网络的蛋白质信号肽的预测方法及装置与流程

文档序号:23094364发布日期:2020-11-27 12:52阅读:290来源:国知局
一种基于几何图神经网络的蛋白质信号肽的预测方法及装置与流程

本发明涉及生物信息和深度学习领域,尤其涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置。



背景技术:

在生物体内,大部分的蛋白质不是以单体的形式行使功能,而是以相互作用的形式行使不同的生物功能。其中,蛋白质相互作用(protein-proteininteraction,ppi)是指由两个或两个以上的分子蛋白通过共价键的形式形成蛋白质复合体的过程。蛋白质相互作用在大多数生化功能中承担着重要的角色。例如,信号分子由蛋白质相互作用,将细胞外的信号传入细胞内部,而信号传递是许多功能发挥的基础。对于蛋白质相互作用,从本质上来讲,其是通过蛋白质上部分残基的相互结合来实现的,这些残基被称为蛋白质相互作用位点(protein-proteininteractionsites,ppis)。

信号肽位于分泌蛋白的n端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。信号肽作为一种短氨基酸序列,其大小大约16-30个氨基酸,引导蛋白质在膜间进行转移,进而将蛋白质运输到目标位置。

现有预测蛋白质信号肽及其切割位点的方法包括基于监督模型、基于生成式模型和基于同源性序列比对的方法。但这些方法或容易发生过拟合现象或不能很好地处理较长的氨基酸序列或无法准确识别切割位点。



技术实现要素:

本发明针对现有中预测蛋白质信号肽的方法中存在的过拟合和无法准确识别切割位点的问题,在本发明的第一方面提供了一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。

在本发明的一些实施例中,所述信号肽的字符序列表示为:

其中,x表示信号肽的字符序列,λ表示氨基酸残基序列所包含的排列信息和/或物理化学信息的种类数。

为了提高预测的准确率,更全面的表征信号肽的物理化学性质、空间结构、统计等特征,在本发明的一些实施例中,所述序列进化特征、结构特征、统计特征分别为pssm特征、psaia特征、hmm特征。

在本发明的一些实施例中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。进一步的,所述几何图神经网络模型的表示为:

其中,表示虚拟节点的特征,p表示低聚合层的聚合函数,表示节点u的特征;v表示低聚合层中的任一节点,表示节点v的邻居结构或邻居集合,u表示某种关系下节点v的邻居节点,zv表示节点v映射到隐藏空间的向量,zu节点u映射到隐藏空间的向量,i表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐藏空间的邻居集合;r表示节点zv与zu关系,τ表示隐藏空间中节点之间的关系运算符;q表示高聚合层的聚合函数,表示聚合的虚拟节点的特征,表示隐藏层的特征,表示非线性激活函数,表示线性权重矩阵,l表示节点所在网络的层序号。

在本发明的一些实施例的步骤s104中,所述根据所述字符序列和所述多维向量构建信号肽的特征图包括如下步骤:将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;确定多维向量的距离的阈值,剪除无效节点和边;遍历所有有效节点和边,构建特征图。

在本发明的第二方面,提供了一种基于几何图神经网络的蛋白质信号肽的预测装置,包括获取模块、提取模块、融合模块、构建模块、预测模块,所述获取模块,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列;所述提取模块,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;所述融合模块,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;所述构建模块,用于根据所述字符序列和所述多维向量构建信号肽的特征图;

所述预测模块,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。进一步的,所述预测模块包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。

在本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面所述的方法。

在本发明的第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明第一方面所述的方法。

有益效果:

1.本发明融合了蛋白质信号肽的多种特征进行特征提取,通过保留原始信号肽的编码信息,保留了蛋白质的同源性;

2.由于几何图神经网络的层数解决了神经网络在训练过程中,由于层数过深而导致空间信息丢失,特别是信号肽的空间结构的信息丢失问题,进而减少模型的过拟合的发生,同时提高了预测的准确性。

附图说明

图1为本发明的一些实施例中的基于几何图神经网络的蛋白质信号肽的预测方法的基本流程图;

图2为本发明的一些实施例中的几何图神经网络模型图;

图3为本发明的一些实施例中的基于几何图神经网络的蛋白质信号肽的预测装置的基本结构图;

图4为本发明的电子设备的基本结构图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

参考图1,一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:s101.获取数据集中的蛋白质序列,提取其中信号肽的字符序列;s102.对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;s103.将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;s104.根据所述字符序列和所述多维向量构建信号肽的特征图;s105.将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。

需要说明的是,在步骤s101中,获取数据集中的蛋白质序列,然后获取其中的信号肽片段,利用现有技术或机器学习方法的常用分类器均可实现;此外常见蛋白质序列数据集包括但不限于signalp5.0数据集、基准数据集dbv5-sel和独立测试数据集capri-alone;uniprotkb、swiss-prot和uniprotkb、trembl。例如,signalp5.0数据集共包含真核类17270条,其中信号肽2614条,跨膜螺旋1044条,非分泌蛋白13612条;革兰氏阳性菌类379条,其中信号肽189条,跨膜螺旋50条,非分泌蛋白140条;革兰氏阴性菌类931条,其中信号肽509条,跨膜螺旋220条,非分泌蛋白202条。

为保留原始的信号肽所在的氨基酸片段的编码信息,在本发明的一些实施例中,所述信号肽的字符序列表示为:

其中,x表示信号肽的字符序列,x1x20表示由20个不同字母排列组合表示的氨基酸残基序列;x21x20+λ表示氨基酸残基序列所包含的排列信息和/或物理化学信息的字母序列,λ表示其对应种类数;fi为第i种氨基酸残基出现的次数;可选的,0≤λ≤10;

xi表示x中的元素所对应的特征值,j表示权重因子,pj(j≤5)表示氨基酸的信息熵,pj(6≤j≤8)表示氨基酸的亲水疏水信息,pj(9≤j≤10)表示基于氨基酸图像的同源相似性。可以理解,为了表征两个信号肽中氨基酸的相关性(或称近似度),除了上述信息熵之外,还可包括交叉熵、互熵、欧式距离、地动距离、wasserstein距离、kl散度、js散度等。

在本发明的一些实施例中,所述序列进化特征、结构特征、统计特征分别为pssm(pssm,位置特定分数矩阵)序列进化特征、psaia结构特征、hmm(隐马尔可夫模型)特征。

具体地,pssm打分矩阵可通过psi-blast算法提取,hmm可通过hhblits算法提取;psaia特征是与蛋白质结构相关的特征。其是使用了软件psaia(proteinstructureandinteractionanalyzer)计算得出的关于蛋白质结构的几何参数。其中,psaia的输入是蛋白质的pdb结构文件,输出是产生相互作用的蛋白质上所有残基的结构参数,通常结构参数包括输出的结构参数包括可及表面积(accessiblesurfacearea)、相对可及性表面积(relativeasa)、深度指数(depthindex,dpx)、突出指数(protrusionindex,cx)及疏水性(hydrophobicity);

物理化学特征(physicochemicalcharacteristics)简称为phychem物化特征,其代表的是蛋白质上每个残基的物理化学属性。这类特征是最早被应用到蛋白质相互作用位点的预测上。结合位点的残基更倾向于疏水性且往往是极性残基。另外,静电势能和脱溶能量也是非常有用的属性。

参考图2,在本发明的一些实施例中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。

具体地,该网络包括三部分,其中nodeembedding(节点信息嵌入)是a1-a2,邻居结构(structuralneighborhood)是b1-b2,而bi-levelaggregation是c。(1)nodeembedding:属于基本功能模块,将节点图(nodesmap)映射到latentcontinuousspace(隐连续空间),令g=(v,e),其中每个节点都会有一个特征向量,并且每个边都连接两个节点。将graph中的节点映射到隐空间中,记做映射函数为。在映射(mapping)的过程中,图(originalgraph)的结构和属性都保留下来了。可以理解,此处的图(originalgraph)是指上述实施例中的特征图。

(2)structuralneighborhood:基于图和隐藏空间,构造了一个结构化的邻居,,用来下一层聚合。其中是节点集合,是节点上的关系操作。与直接相连的节点,是隐藏空间中到中心节点小于给定距离的节点。是一个定义在latentspace上的函数,输入是有序对,输出一个离散的变量,表示空间中从节点的集合关系,

其中是几何关系的集合。

(3)bi-levelaggregation:根据结构化的邻居,提出了一个针对gnn的bi-levelaggravation来更新节点的隐藏特征(hiddenfeatures)。bi-levelaggravation包括两个聚合函数,这个函数既可以有效抽取邻居节点中的结构信息,也可以确保originalgraph中的置换不变性。

于是,上述几何图神经网络模型的表示为:

其中,表示虚拟节点的特征,p表示低聚合层的聚合函数,表示节点u的特征;v表示低聚合层中的任一节点,表示节点v的邻居结构或邻居集合,u表示某种关系下节点v的邻居节点,zv表示节点v映射到隐藏空间的向量,zu节点u映射到隐藏空间的向量,i表示节点v的任意一个邻居,g表示节点v在所述特征图的邻居集合,s表示节点v在隐藏空间的邻居集合;r表示节点zv与zu关系,τ表示隐藏空间中节点之间的关系运算符;q表示高聚合层的聚合函数,表示聚合的虚拟节点的特征,表示隐藏层的特征,表示非线性激活函数,表示线性权重矩阵,l表示节点所在网络的层序号。优选的,非线性激活函数选用focalloss或lovaszsoftmax。

在本发明的一些实施例中,所述根据所述字符序列和所述多维向量构建信号肽的特征图包括如下步骤:将信号肽的字符序列作为节点,相邻节点的边通过多维向量的距离进行度量;确定多维向量的距离的阈值,剪除无效节点和边;遍历所有有效节点和边,构建特征图。

参考图3,在本发明的第二方面,提供了一种基于几何图神经网络的蛋白质信号肽的预测装置1,包括获取模块11、提取模块12、融合模块13、构建模块14、预测模块15,所述获取模块11,用于获取数据集中的蛋白质序列,提取其中信号肽的字符序列;所述提取模块12,用于对所述信号肽进行特征提取,得到所述信号肽的进化特征、物理化学特征、结构特征、统计特征;所述融合模块13,用于将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;所述构建模块14,用于根据所述字符序列和所述多维向量构建信号肽的特征图;所述预测模块15,用于将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。优选的,所述预测模块15包括几何图神经网络,所述几何图神经网络用于预测待预测氨基酸序列中是否含有信号肽。

参考图4,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储装置508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。

通常以下装置可以连接至i/o接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图4中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从rom502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++、python,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1