一种蛋白质氨基酸关联矩阵预测方法与流程

文档序号:17423406发布日期:2019-04-17 02:32阅读:1319来源:国知局
本发明涉及蛋白质生物学
技术领域
:,具体涉及一种基于深度学习的蛋白质氨基酸关联矩阵预测方法。
背景技术
::蛋白质分子的空间结构对于理解蛋白质的功能有着特别重要的作用。为了从分子层面了解蛋白质的作用机制,通常需要测定一个蛋白质的三维结构。使用生物学实验例如采用x射线或者核磁共振技术来直接测定一个蛋白质的结构通常需要投入很大的人力物力。因此,给求解蛋白质三维结构提供其他的额外信息变得非常重要。其中,蛋白质的氨基酸关联图被认为在蛋白质结构求解中具有重要的作用,单独提供精确的氨基酸关联图预测结果已经可以得到一个可以接受的蛋白质三维结构模型。其中长程的氨基酸相互作用(这两个相互作用的残基之间的序列间隔大于等于24)的标记对于求解蛋白质结构来说具有更大的用处,这种相互作用的预测也是更有难度的,它要求模型具有建模远距离残基之间关系的能力。技术实现要素:本发明的目的是提供一种基于深度学习的蛋白质氨基酸关联矩阵预测方法,用以解决现有的蛋白质的结构测定成本较大的问题。本发明的实施例之一,一种蛋白质氨基酸关联矩阵预测方法,该预测方法包括以下步骤:s1、组建蛋白质氨基酸关联图预测训练数据集;s2、在训练集中从蛋白质氨基酸序列中提取6种特征,并将每一个序列的6种特征合并,同时生成标签文件和权重掩模矩阵;s3、在改进的残差网络的基础上使用合并的特征、标签文件和权重掩模矩阵进行训练;s4、根据测试序列搜索同源序列列表,并得到这些同源序列的合并特征、标签文件、和权重掩模矩阵;s5、在步骤s3中得到的模型的基础上,使用步骤s4中得到的同源序列的合并特征、标签文件和权重掩模矩阵进行进一步训练;s6、根据测试氨基酸序列得到测试序列的合并特征,然后输入步骤s5中得到的预测模型进行预测。本发明的蛋白质氨基酸关联矩阵预测方法,基于深度学习模型,极大提高了蛋白质氨基酸关联图预测的精度。附图说明通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:图1本发明实施例中基于深度学习的蛋白质氨基酸关联图预测流程图。图2本发明实施例中中使用的序列特征提取流程图。图3本发明实施例中使用的深度学习网络的结构图。具体实施方式根据一个或者多个实施例,如图1所示,一种基于深度学习的蛋白质氨基酸关联图预测方法,包括以下步骤:s1、组建蛋白质氨基酸关联图预测训练数据集;s2、在训练集中从蛋白质氨基酸序列中提取6种特征,并将6种特征合并,同时生成标签文件和权重掩模矩阵;s3、在改进的残差网络的基础上使用合并的特征、标签文件和权重掩模矩阵进行训练;s4、根据测试氨基酸序列搜索同源序列列表,并得到这些同源序列的合并特征、标签文件、和权重掩模矩阵;s5、在步骤s3中得到的模型的基础上,使用s4步骤中得到的同源序列的合并特征、标签文件和权重掩模矩阵进行进一步训练。s6、得到测试序列的合并特征,然后输入s5中得到的预测模型进行预测。根据一个或者多个实施例,步骤s1进一步包括步骤:s11、使用pisces工具,从全部的pdb数据库中按照一定的条件筛选出用作最终训练的蛋白质氨基酸链列表,筛选结果中一共存在11217个序列。筛选条件如表1所示。其中pdb是proteindatabank的缩写,是一个蛋白质结构数据库。其中pisces工具地址为http://dunbrack.fccc.edu/pisces.php,pdb数据库的地址为https://www.rcsb.org/。表1用于组建蛋白质氨基酸关联图预测训练集使用pisces工具的筛选条件。表1s12、根据这11217个氨基酸序列的id和链符号,从pdb中下载这11217个序列的fasta格式的文件用于后续生成特征的输入,下载这11217个样本的pdb文件用于后续生成标签文件和权重掩模文件的输入。根据一个或者多个实施例,步骤s2进一步包括步骤:s21、生成序列特征。具体操作如下:输入训练集序列的fasta格式文件,通过blast+软件套装中的psiblast软件在nr数据库(nr是non-redundant的缩写,是一个蛋白质序列数据库)上的比对生成pssm(pssm是positionspecificscorematrix的缩写)特征和一个json格式的比对文件。可以使用的命令为blast+/bin/blast–querytest.fasta–dbnr-out_ascii_pssmtest.matrix-save_pssm_after_last_round–outtest.blast-evalue0.001-max_target_seqs10000-outfmt15-num_iterations3。另一方面,输入训练集序列的fasta格式的文件,通过scratch软件生成文本格式的二级结构和溶液可及性特征。可以使用的命令为scratch-1d_1.1/bin/run_scratch-1d_predictors.shtest.fastatest4。然后将上述得到的json格式的比对文件自行处理成文本格式的msa文件。其中msa是multi-sequencealignment的缩写,指多序列比对。接着将该msa文件分别作为输入通过psicov软件、freecontact软件和ccmpred软件生成psicov特征、evfold特征和ccmpred特征。其中生成psicov特征可以使用的命令为psicov–p–r0.001test.msa>test.psicov,生成evfold特征可以使用的命令为freecontact--parprofevfold-iflat-oevfold<'test.msa'>test.evfold,生成ccmpred特征可以使用的命令为ccmpredtest.msatest.mat。如图2所示。blast+软件套装的地址为ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/,nr数据库的地址为ftp://ftp.ncbi.nlm.nih.gov/blast/db/。scratch软件的地址为http://scratch.proteomics.ics.uci.edu/。s22、拼接序列特征。pssm特征、二级结构特征和溶液可及性特征的维度分别为l*20、l*3和l*2,将训练序列的这三种特征在第二维上进行拼接得到一个l*25维的特征,然后使用两个残基对应的一维特征相接生成该残基对特征的方法将该l*25维的特征转化为l*l*50维的特征。接着将该生成的二维特征和psicov特征、evfold特征以及ccmpred特征这三个维度都是l*l*1的特征在第三维上相接,生成最终的l*l*53维的特征。在生成序列特征的过程中,存在一些序列无法得到输出的情况。这样得到的结果中一共包含了10591个序列样本;s23、生成序列标签。本发明使用的蛋白质氨基酸关联图定义是:当两个氨基酸的β碳原子(对于甘氨酸来说是α碳原子)的欧氏距离小于的时候,这两个氨基酸被认为是在关联图中具有相互作用,为正样本,反之为负样本。根据一个序列的pdb文件中的三维坐标计算两两残基之间的欧氏距离,生成一个大小为l*l的标签矩阵,其中l为该序列的长度。本发明遵循如下给定标签的方式:当一个残基对是正样本时,标签赋值为1,当一个残基对是负样本时,标签赋值为0。实际情况中序列的pdb文件中会存在未能经实验测算出空间三维坐标的残基,当出现这种情况时,将此处标签赋值为2,作为一个标记,表示在后续求解一个序列的损失函数值或者精度时,忽略该处的残基对;s24、预先生产序列权重掩模矩阵。依据一个训练序列中的正负残基对的比例来预先制定权重掩模矩阵。首先得到一个序列在s23步骤中生成的标签矩阵,计算其中正残基对的个数,设为np,计算负残基对的个数,设为nn。给予序列中正残基对处的权重为负残基对处的权重为1。生成的权重掩模矩阵与标签矩阵尺寸一致。另外,由于训练序列中会存在未能经实验测算出空间三维坐标的残基,当出现这种情况时,将此处权重赋值为0,以此实现在后续求解一个序列的损失函数值或者精度时忽略该处残基对的效果。根据一个或者多个实施例,其中,步骤s3在改进的残差网络的基础上使用合并的特征、标签文件和权重掩模矩阵进行训练。在整理出来的数据集中随机选取部分序列作为验证集,剩余序列作为训练集。损失函数选择为交叉熵函数,同时一个序列的损失函数值选择为这个序列中所有残基对的损失函数值的均值。本发明使用了空洞卷积的技术增加了原始残差网络中最后一层神经元的感受野,使得网络能够建模关系的残差之间的序列间隔得到了提高。下式显示了卷积网络中感受野的一个递推计算方法:其中rn表示第n层的感受野,kn表示第n层的卷积核大小,si表示第i层的步长参数。这个式子显示,卷积核的大小对于网络的感受野来说是非常重要的一个因素。而直接增大卷积核的大小带来的是增长的参数规模和加大的过拟合可能性,此时空洞卷积成为了一个合适的选择,可以在不增加参数数量的基础上增大网络的感受野,提高网络建模远距离关系的能力。在整理出来的数据集中随机选取约1000个序列作为验证集,剩余序列作为训练集。损失函数选择为交叉熵函数,同时一个序列的损失函数值选择为这个序列中所有残基对的损失函数值的均值。实现相应深度学习代码使用的平台是tensorflow。训练的初始学习率定为10-3.5,学习率下降策略选取为每10个epoch将当前学习率乘以0.1。学习过程中使用l2归一化方法降低过拟合的可能性,其中的归一化系数选择为0.0001。训练过程中的批处理大小选择为1个序列样本。该深度网络中的参数初始化方法选择为xavier方法。根据一个或者多个实施例,步骤s4中根据测试序列搜索同源序列列表,并得到这些同源序列的合并特征、标签文件、和权重掩模矩阵,具体方法如下:得到测试序列的fasta格式的文件,作为输入通过hhblits软件在uniprot20数据库上的比对得到初始的同源序列列表。使用的命令可以是hhblits–itest.fasta–duniprot20–oa3mtest.oa3m–cpu1–diffinf–n1–id99。将该同源序列列表,也即生成的oa3m文件作为输入再次通过hhblits软件在pdb70数据库上面的比对生成最终的同源序列列表。使用的命令可以是hhblits–itest.oa3m–dpdb70–otest.o–cpu1–diffinf–n1–id99。最后,根据最终得到的同源序列列表,也即test.o文件在pdb数据库中下载同源序列的fasta格式文件和pdb文件并且使用在s21、s22、s23和s24中描述过的方法得到这些同源序列的特征、标签和权重掩模文件。具体操作是:首先在机器上安装hhblits比对软件,该软件地址为https://github.com/soedinglab/hh-suite。然后下载并解压用于检索同源序列的两个数据库,uniprot20和pdb70,前一个数据库的地址为http://wwwuser.gwdg.de/~compbiol/data/hhsuite/databases/hhsuite_dbs/old-releases/uniprot20_2016_02.tgz,后面的这一个数据库的下载地址为http://wwwuser.gwdg.de/~compbiol/data/hhsuite/databases/hhsuite_dbs/pdb70_from_mmcif_180425.tar.gz。然后将测试序列作为输入通过hhblits软件在uniprot20数据库上的比对得到初始的同源序列列表,将该同源序列列表作为输入再次通过hhblits软件在pdb70数据库上面的比对生成最终的同源序列列表。使用pdb70数据库作为比对数据库是为了方便从pdb数据库中下载相应的pdb文件得到同源序列的真实坐标信息。而在之前使用uniprot20数据库进行的初始比对是为了能够在第二步中得到更多的同源序列。最后,使用最终得到的同源序列列表在pdb数据库中下载序列fasta格式文件和pdb文件并且使用在s21、s22、s23和s24中描述过的方法得到这些同源序列的特征、标签和权重掩模文件。根据一个或者多个实施例,步骤s5在步骤s3中得到的模型的基础上,使用s4步骤中得到的同源序列的合并特征、标签文件和权重掩模矩阵进行进一步训练。由于模型已经在接近最优点处,此时不进行学习率下降操作。当训练数据和测试数据之间存在一定的差异时,单纯依靠训练数据上的学习,在预测测试数据时会存在精度上限,此时使用迁移学习的思想进行进一步训练就是一个很好的选择。根据一个或者多个实施例,步骤s6得到测试序列的合并特征,然后输入s5中得到的预测模型进行预测。具体操作如下:使用测试序列作为输入,通过s21和s22中描述的方法得到该测试序列对应的特征文件。然后将该特征文件输入s5步骤中得到的模型进行预测。输出的是一个l*l*1的矩阵,其中每一个坐标处的数字的范围在(0,1)内,表示该坐标处的残基对具有相互作用的可能性的分数高低。由于现有的一些优秀的蛋白质结构数据库,例如pdb中存储了越来越多的经过生物实验测定的蛋白质的结构信息,以及机器学习和深度学习领域中一些技术的发展使得我们能够把一些合适的技术迁移到蛋白质氨基酸关联图预测的领域中来。近年来随着蛋白质结构信息的不断增长和机器学习深度学习技术的发展,已经有一些优秀的模型出现。例如,svm-seq使用支持向量机来进行蛋白质氨基酸关联图的预测,deepconpred使用深度信念网络来改进长程蛋白质氨基酸关联图的预测。使用深度学习模型的一个问题是如何选取网络的输入特征。本发明中除了选用了一些传统的特征,例如pssm矩阵、二级结构和溶液可及性之外,还使用了三个共进化信息特征,包括psicov特征、evfold特征和ccmpred特征。共进化信息在蛋白质氨基酸关联图预测任务中被证明是非常有效的,同时这三个特征还存在着一种互补的关系,使得预测器能够寻找出来的存在相互作用的残基对更加完全。本发明的基预测器基于残差网络构建,但考虑到残差网络发明的初衷是用于图像识别任务,本发明针对蛋白质氨基酸关联图预测任务对原始的残差网络进行了改进,有以下三点:将全连接层改成卷积层以适应序列长度不定的情况,将池化层从网络中去除以适应常有孤立正残基对的情况。另外,对于建模远距离关系来说,网络的感受野是一个重要的因素,因此,本发明通过使用空洞卷积这一技术增大了原始模型的感受野。此外,本发明发现训练样本中存在着较为严重的数据分布不平衡问题。在一个序列中,负样本的数量通常能够达到负样本数量的几十倍之多,这给模型的学习带来了不小的挑战。本发明通过在求解序列损失函数值前给一个序列中的不同残基对的损失函数值给予不同的权重来解决这个问题。因此相比现有技术,本发明的实施例具有如下有益效果:1.组建了用于蛋白质氨基酸关联图预测的训练数据集。在常用特征(pssm矩阵、二级结构和溶液可及性)的基础上又融合了三个有效的共进化信息特征,包括psicov特征、evfold特征和ccmpred特征。2.通过一种给不同残基对赋予不同权重的方式来解决蛋白质氨基酸关联图预测问题中正负样本非常不平衡的问题。本发明对负残基对赋予权重1的同时对正残基对赋予权重其中nn是一个序列中负残基对的个数,np相应的是正残基对的个数。同时采用取序列内残基对损失函数值均值的方式获得整个序列的损失函数值。减少了分类器对于负残基对和长序列的偏好。3.使用深度学习中的残差网络模型来建模输入特征与预测氨基酸关联图之间的关系,能够同时给一个序列中的所有残基对打分,并且使得预测结果具有很高的精度。同时,本发明针对蛋白质氨基酸关联图预测任务的具体情况,对原始的残差网络进行了若干改进,提高了模型的预测精度。4.在使用训练数据集训练完成的模型的基础上使用测试序列的同源序列进行进一步的训练,使得原先的模型对于测试序列具有更好的预测精度。值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1