一种膜蛋白残基的作用关系的预测方法和装置与流程

文档序号:11156057阅读:455来源:国知局
一种膜蛋白残基的作用关系的预测方法和装置与制造工艺

本发明属于数据挖掘、机器学习和计算机生物学的交叉领域,尤其涉及一种膜蛋白残基作用关系的预测方法和装置。



背景技术:

在目前已知的药物靶点中,膜蛋白约占60%。由于膜蛋白结构的实验解析难度较大,在蛋白质数据库(Protein Data Bank-PDB)中,超过9万个的已知蛋白质结构里,已知的膜蛋白结构仅占已知的蛋白质结构的1%。

现有的解析蛋白质三维结构的生物学实验方法主要包括X-RAY和NMR法。这些生物学实验方法不仅操作过程较为复杂,耗时,而且实验花费的成本也较高。正是由于实验解析法的这些不足,使得计算机计算方法的发展成为必然。目前用于蛋白质三维结构预测的计算方法主要有同源模建法、折叠识别法和从头预测法。并且通常从均衡分类的角度,将相互作用的残基对或非相互作用的残基对按照1:1的比例训练模型。其中,残基是指由20种不同的氨基酸连接形成的多聚体,在形成蛋白质后,这些氨基酸之间的氨基和羧基脱水成键,氨基酸由于其部分基团参与了肽键的形成,剩余的结构部分称为氨基酸残基。所谓残基作用关系是指那些在蛋白质的一级序列中不相邻而在三级结构中邻近的残基对。

由于相互作用的残基对与非相互作用的残基对的比例一般会远远大于1:1,从而使得现有的预测方法会导致大量有用的信息流失,影响预测的准确度和覆盖度。



技术实现要素:

本发明的目的在于提供一种膜蛋白残基的作用关系的预测方法,以解决现有技术中的预测方法会导致大量有用的信息流失,影响预测的准确度和覆盖度的问题。

第一方面,本发明实施例提供了一种膜蛋白残基的作用关系的预测方法,所述方法包括:

获取已解析蛋白质结构的膜蛋白作为训练集;

提取所述已解析蛋白质结构的膜蛋白中用于区分相互作用的残基对和非相互作用的残基对的非均衡分类的特征;

将所提取的非均衡分类的特征通过smote-boost算法训练预测模型,得到训练后的预测模型;

根据训练后的预测模型,预测未知蛋白质结构的膜蛋白残基的作用关系。

结合第一方面,在第一方面的第一种可能实现方式中,所述提取所述已解析蛋白质结构的膜蛋白中用于区分相互作用的残基对和非相互作用的残基对的非均衡分类的特征步骤中,所述非均衡分类的特征包括:位置特异性得分矩阵PSSM特征、残基在α螺旋中相对距离特征、序列间隔特征、残基类型特征、α螺旋个数特征、序列长度特征中的一种或者多种。

结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述位置特异性得分矩阵PSSM中的每个残基由一个20维的向量表示,所述位置特异性得分矩阵PSSM特征包括:

以残基对(i,j)中的残基i和残基j分别为中心取一个大小为a的滑动容器,每个残基对得到40a个位置特异性得分矩阵PSSM特征;

以残基对(i,j)的中间位置(i+j)/2为中心取一个大小为b的滑动窗口,获得20*b个位置特异性得分矩阵PSSM特征。

结合第一方面的第一种可能实现方式,在第一方面的第三种可能实现方式中,一个残基作用对包括两个氨基酸,所述残基类型特征包括由酸性氨基酸、碱性氨基酸、极性氨基酸、非极性氨基酸中的任意两种所产生的10种组合。

结合第一方面,在第一方面的第四种可能实现方式中,所述相互作用的残基对为位于膜蛋白的α螺旋上的CB-CB原子距离小于8埃的残基对。

第二方面,本发明实施例提供了一种膜蛋白残基的作用关系的预测装置,所述装置包括:

训练集获取单元,用于获取已解析蛋白质结构的膜蛋白作为训练集;

特征提取单元,用于提取所述已解析蛋白质结构的膜蛋白中用于区分相互作用的残基对和非相互作用的残基对的非均衡分类的特征;

训练单元,用于将所提取的非均衡分类的特征通过smote-boost算法训练预测模型,得到训练后的预测模型;

预测单元,用于根据训练后的预测模型,预测未知蛋白质结构的膜蛋白残基的作用关系。

结合第二方面,在第二方面的第一种可能实现方式中,所述特征提取单元中,所述非均衡分类的特征包括:位置特异性得分矩阵PSSM特征、残基在α螺旋中相对距离特征、序列间隔特征、残基类型特征、α螺旋个数特征、序列长度特征中的一种或者多种。

结合第二方面的第一种可能实现方式,在第二方面的第二种可能实现方式中,所述位置特异性得分矩阵PSSM中的每个残基由一个20维的向量表示,所述位置特异性得分矩阵PSSM特征包括:

以残基对(i,j)中的残基i和残基j分别为中心取一个大小为a的滑动容器,每个残基对得到40a个位置特异性得分矩阵PSSM特征;

以残基对(i,j)的中间位置(i+j)/2为中心取一个大小为b的滑动窗口,获得20*b个位置特异性得分矩阵PSSM特征。

结合第二方面的第一种可能实现方式,在第二方面的第三种可能实现方式中,一个残基作用对包括两个氨基酸,所述残基类型特征包括由酸性氨基酸、碱性氨基酸、极性氨基酸、非极性氨基酸中的任意两种所产生的10种组合。

结合第二方面,在第二方面的第四种可能实现方式中,所述相互作用的残基对为位于膜蛋白的α螺旋上的CB-CB原子距离小于8埃的残基对。

在本发明中,获取已解析的蛋白质结构的膜蛋白作为训练集,提取所述已解析的蛋白质结构的膜蛋白中用于区分相互作用的残基对和非相互作用的残基对的非均衡分类的特征,将提取的特征通过smote-boost算法训练预测模型,得到训练后的预测模型,并根据所述训练后的预测模型,预测未知蛋白质结构的膜蛋白残基的作用关系。由于使用非均衡分类的特征进行预测模型的训练,从而使得训练后的预测模型能够避免有用信息的流失,有利于提高预测的精准度和覆盖度。

附图说明

图1是本发明实施例提供的膜蛋白残基的作用关系的预测方法的实现流程图;

图2是本发明实施例提供的膜蛋白残基的作用关系的预测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的目的在于提供一种膜蛋白残基的作用关系的预测方法,以解决现有技术中对于未知结构的膜蛋白残基的作用关系的预测过程中,一般从均衡分类的角度将相互作用的残基对或非相互作用的残基对按照1:1的比例训练模型,而实际上,相互作用或非相互作用的残基对比例远远大于1:1,按照均衡对等的比例训练模型会造成大量有用信息的流失,从而会导致预测的膜蛋白残基的作用关系的精准度和覆盖度不高的问题。下面结合附图对本发明作进一步的说明。

图1示出了本发明第一实施例提供的膜蛋白残基的作用关系的预测方法的实现流程,详述如下:

在步骤S101中,获取已解析蛋白质结构的膜蛋白作为训练集。

具体的,所述已解析蛋白质结构的膜蛋白,应当已确定的膜蛋白残基的作用关系。优选的一种实施方式,可以使用PDBTM(英文全称为:protein data bank of transmembrane proteins,中文全称为:跨膜蛋白的蛋白质数据库)中2012年2月以前解析的膜蛋白作为训练集。

当然,上述膜蛋白数据库的训练集的选取只是其中一种优选的实施方式,随着解析和识别技术的发展,越来越多的膜蛋白结构被解析,能够得到确定的膜蛋白残基的作用关系,因而所述训练集中的样本数据也会越来越丰富,因而也会更加有利于提高预测模型的训练的准确度。

在步骤S102中,提取所述已解析蛋白质结构的膜蛋白中用于区分相互作用的残基对和非相互作用的残基对的非均衡分类的特征;

具体的,本发明实施例中所述用于区分相互作用的残基对和非相互作用的残基对的非均衡分类的特征,可以包括位置特异性得分矩阵PSSM特征、残基在α螺旋中相对距离特征、序列间隔特征、残基类型特征、α螺旋个数特征、序列长度特征中的一种或者多种。

其中,所述位置特异性得分矩阵PSSM(英文全称为:Position-Specific Scoring Matrix)特征,可以通过运行PSI-BLAST(英文全称为:Position-Specific Iterative Basic Local Alignment Search Tool,中文全称为:位置特异性迭代搜索算法)的方式获取。其中,运行PSI-BLAST时可以采用的数据库是UNIREF90数据库,运行时的迭代次数可以为2,E-value截断值为1e-10(表示为1*10的-10次方)。

在本发明实施例中,所述位置特异性得分矩阵PSSM中的每个残基都由一个20维的向量表示,表示20种氨基酸在PSSM相应位置出现的频率。特征提取时,位置特异性得分矩阵PSSM特征分为两类,分别为:

以残基对(i,j)中的残基i和残基j分别为中心取一个大小为a的滑动容器,每个残基对得到40a个位置特异性得分矩阵PSSM特征;

以残基对(i,j)的中间位置(i+j)/2为中心取一个大小为b的滑动窗口,获得20*b个位置特异性得分矩阵PSSM特征。

比如,具体的一种实施方式中,可以为:

第一类是以残基对(i,j)中的残基i和残基j分别为中心取一个大小为7的滑动窗口,即对每个残基对可得到2×7×20=280个位置特异性得分矩阵PSSM特征;

第二类是以残基对(i,j)的中间位置(i+j)/2为中心取一个大小为3的滑动窗口,即可获得3×20=60个位置特异性得分矩阵PSSM特征。

两类位置特异性得分矩阵PSSM特征的总数为280+60=340个。

所述残基在α螺旋中相对距离特征具体为:假设p为残基对中的一个残基在长度为l的螺旋上的相对位置,那么残基在α螺旋中相对距离特征就定义为p/l,对于每个残基对中包括两个残基,可以分别提取残基所对应的残基在α螺旋中相对距离特征,一共包括2个残基在α螺旋中相对距离特征。

所述序列间隔特征可以根据残基对在一级序列中的位置进行划分。比如,一种具体的间隔划分方式可以划分为以下多个区间:

<25、25-50、50-75、75-100、100-125、125-150、150-175、175-200和>200这九个区间。

可将使用相应的序列间隔特征码000000000置0或置1(0表示不在该区间,反之为1)用于表述序列间隔特征。对于每个残基对而言,按照上述区间划分方式,可以对应9个序列间隔特征中的一个。

对于所述残基类型特征,考虑到组成蛋白质的氨基酸共20种,根据氨基酸R基的极性性质可分为酸性氨基酸(谷氨酸及天冬氨酸)、碱性氨基酸(赖氨酸、精氨酸及组氨酸)和中性氨基酸,其中中性氨基酸又可分为极性氨基酸(甘氨酸、丝氨酸、半胱氨酸、苏氨酸、酪氨酸、天冬酰胺及谷氨酰胺)和非极性氨基酸(丙氨酸、亮氨酸、异亮氨酸、苯丙氨酸、甲硫氨酸、色氨酸、缬氨酸及脯氨酸)。根据这4种不同的氨基酸类型(酸性氨基酸、碱性氨基酸、极性氨基酸和非极性氨基酸),一个残基作用对(对应两个氨基酸)可以产生10种不同的组合,可以二进制码0000000000分别置0或置1来代表不同的组合类型。可以包括10个残基类型特征。

所述α螺旋个数特征可以根据膜蛋白所包含的α螺旋个数进行区间划分。比如,可以划分为2-4、5-7、8-10、以及大于10这4个区间。通过二进制向量0000置0或置1来表示该α螺旋个数特征(0表示不在该区间,反之为1)。该类特征对某一膜蛋白中所有残基对具有一致性。每个残基对特征向量包含4个该类特征。

所述序列长度特征,可以根据膜蛋白所一级序列的长度可分为<100,100-400,400-800,>800这4个区间,以二进制向量0000置0或置1来表示该特征(0表示不在该区间,反之为1)。这类特征对同一个膜蛋白中的所有残基对均一致。每个残基对特征向量包含4个该类特征。

综上所述,本发明可以使用340个位置特异性得分矩阵PSSM特征,2个α螺旋中相对距离特征,9个序列间隔特征以及10个残基类型特征,4个α螺旋个数特征,4个序列长度特征,共计369个特征。

另外,本发明实施例中所述相互作用的残基对和非相互作用的残基对的比例,可以为1比50至1比80,优选的一种实施方式可以设置为1比67。

具体的,蛋白质残基作用对的定义有多种,例如基于原子的范德华距离的定义,基于CA-CA原子距离的定义以及基于CB-CB原子距离的定义。本发明关于残基作用对的定义将沿用一个被广泛采用的定义:将位于膜蛋白的α螺旋上的CB-CB原子距离小于(埃)的残基对定义为相互作用的残基对。CA、CB是gromacs里面的原子类型,gromacs分子动力学软件。

在步骤S103中,将所提取的非均衡分类的特征通过smote-boost算法训练预测模型,得到训练后的预测模型;

在提到到所述非均衡分类的特征后,可以将所述特征代入到预测模型中进行训练。所述预测模型可以为向量机训练模型等。

所述训练算法smote-boost,是将smote技术和boost技术结合的新型训练方法,其中:boost方法在每次迭代中,增加没有正确分类样本的权值,减少正确分类样本的权值,更加关注于分类错误的样本。因为少数样本更容易被错误分类,所以该方法能够改进对少数类的预测性能。SMOTE(英文全称为synthetic minority over-sampling rechnique)技术是非均衡数据集学习的一种新办法,通过对少数样本的人工合成提高少数类样本的比例,降低数据的过度偏斜。SMOTE技术与BOOST技术相结合,可以有效避免由于赋予少数样本更大权值可能产生的过度拟合。

在步骤S104中,根据训练后的预测模型,预测未知蛋白质结构的膜蛋白残基的作用关系。

本发明通过获取已解析的蛋白质结构的膜蛋白作为训练集,提取所述已解析的蛋白质结构的膜蛋白中用于区分相互作用的残基对和非相互作用的残基对的非均衡分类的特征,将提取的特征通过smote-boost算法训练预测模型,得到训练后的预测模型,并根据所述训练后的预测模型,预测未知蛋白质结构的膜蛋白残基的作用关系。由于使用非均衡分类的特征进行预测模型的训练,从而使得训练后的预测模型能够避免有用信息的流失,有利于提高预测的精准度和覆盖度。

图2示出了本发明实施例提供的一种膜蛋白残基的作用关系的预测装置的结构示意图,详述如下:

本发明实施例所述膜蛋白残基的作用关系的预测装置,包括:

训练集获取单元201,用于获取已解析蛋白质结构的膜蛋白作为训练集;

特征提取单元202,用于提取所述已解析蛋白质结构的膜蛋白中用于区分相互作用的残基对和非相互作用的残基对的非均衡分类的特征;

训练单元203,用于将所提取的非均衡分类的特征通过smote-boost算法训练预测模型,得到训练后的预测模型;

预测单元204,用于根据训练后的预测模型,预测未知蛋白质结构的膜蛋白残基的作用关系。

优选的,所述特征提取单元中,所述非均衡分类的特征包括:位置特异性得分矩阵PSSM特征、残基在α螺旋中相对距离特征、序列间隔特征、残基类型特征、α螺旋个数特征、序列长度特征中的一种或者多种。

优选的,所述位置特异性得分矩阵PSSM中的每个残基由一个20维的向量表示,所述位置特异性得分矩阵PSSM特征包括:

以残基对(i,j)中的残基i和残基j分别为中心取一个大小为a的滑动容器,每个残基对得到40a个位置特异性得分矩阵PSSM特征;

以残基对(i,j)的中间位置(i+j)/2为中心取一个大小为b的滑动窗口,获得20*b个位置特异性得分矩阵PSSM特征。

优选的,一个残基作用对包括两个氨基酸,所述残基类型特征包括由酸性氨基酸、碱性氨基酸、极性氨基酸、非极性氨基酸中的任意两种所产生的10种组合。

优选的,所述相互作用的残基对为位于膜蛋白的α螺旋上的CB-CB原子距离小于8埃的残基对。

图2所述膜蛋白残基的作用关系的预测装置,与实施例一所述膜蛋白残基的作用关系的预测方法对应,在此不作重复赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1