基于序列比对核函数预测信号肽及其断裂点位置实现方法

文档序号:6555250阅读:194来源:国知局
专利名称:基于序列比对核函数预测信号肽及其断裂点位置实现方法
技术领域
本发明涉及的是一种生物工程技术领域的方法,具体的说,涉及的是一种基于序列比对核函数预测信号肽及其断裂点位置实现方法。
背景技术
目前信号肽的研究已成为生物信息学领域一个热点。信号肽对于控制蛋白质的分泌路径和指导蛋白质到达特定位置有重要作用,因此成为基因诊疗新药领域的一个关键工具。但是随着进入数据库的信号肽序列的急剧增加,单纯采用实验的方式识别信号肽需要高昂的资金和大量的时间。于是开发模式识别、机器学习领域的算法用于自动识别新合成的蛋白质中的信号肽成为必然。基于模式识别、机器学习的算法用于自动识别预测信号肽及判定信号肽断裂点位置的,可以比单纯采用实验的方式节省大量的时间和金钱,但是由于处理的氨基酸序列不同于以往传统的模式识别和机器学习处理的数据,必须考虑下列要求1)氨基酸序列长度不一致的问题信号肽序列长度变化很大。这种多样性使得信号肽的预测问题变得很困难。2)编码问题氨基酸序列形式上表示为字母序列,通常需要进一步进行编码为数字属性方便处理。3)正确率问题信号肽的预测正确率至少要求达到90%,信号肽断裂点的预测至少达到70%以上才算有意义。
现已有针对此问题的初步探讨。Heijne在1986首先针对信号肽预测问题提出了加权矩阵算法。然而加权矩阵算法对现今数据不能得到较高的正确率。2000年Nakai K提出了神经网络可以得到较高的信号肽预测率,但是对断裂点位置的正判率不是很高,另外对问题缺乏明确的物理解释且容易出现过拟合现象。Henrik Nielsen等人提出用隐马尔可夫模型HMM(Hidden Markov Model)来分类信号肽和信号锚。HMM的方法在区分信号肽和信号锚方面有所改善,但是在剪切点预测的方面结果不如其它经典方法。
经对现有技术的文献检索发现,Chou在《ProteinsStructure,Function,and Genetics》(蛋白质结构、功能、遗传学)2001,42,pp.136-139上发表的“Prediction of protein signal sequences and their cleavage sites”(“预测信号肽及其断裂点位置”),以及Liu等在《Biochemical and BiophysicalResearch Communications》(生物化学与生物物理学研究快报)2005,338,pp.1005-1011上发表的“Prediction of protein signal sequences and theircleavage sites by statistical rulers”(“基于统计规则预测信号肽及其断裂点位置”),均借助滑动窗分隔信号肽序列得到等长的氨基酸序列从而借助传统的模式识别算法进行预测,这种算法可以得到较神经网络高的信号肽预测率,但是对断裂点的正判率仍然不高。

发明内容
本发明的目的在于针对现有技术的不足,提出一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,使其提高预测信号肽及判定信号肽断裂点位置的正确率。
本发明是通过以下技术方案实现的,本发明采用全局序列比对解决氨基酸序列长度不一致的难题,并利用两氨基酸序列之间的全局序列比对值表征两者之间的相似度,进而借助支持向量机理论中只需要核矩阵即可实现分类预测的有利条件完成预测任务。借助全局序列比对得到的相似度测度具有生物学上的普遍意义,如果由其产生的针对整个数据集的相似度矩阵能够满足核函数理论中对矩阵的非负定性的要求,即可以借助SVM等非常理想的分类工具实现预测功能。但是由于此相似度不满足三角不等式,因此不能保证满足核空间的非负定条件。本发明通过研究发现相似度矩阵的负特征值可以剔除然后经过空间转换得到新坐标,从而解决不满足非负定性条件的矩阵如何生成核矩阵的问题。对于新测定的氨基酸序列在新特征空间可预测其是否信号肽并判定其断裂点位置。
本发明方法按如下步骤进行1.属性的数字化对每组数据分别处理,将氨基酸序列Pi的属性描述映射成整数标记yi,以1表示信号肽0表示非信号肽。
2.全局序列比对并建立相似度矩阵
氨基酸序列Pi和Pj的全局序列比对。针对数据库中每两个氨基酸序列,应用全局序列比对Needleman-wunsch算法可以将不同长度的氨基酸序列通过加入删除点(gap)的方式对齐,另外序列Pi和Pj比对附加产生的评判值K(i,j)在本发明中将作为度量两氨基酸序列的相似度。
假设训练集有N个氨基酸序列,依照步骤1计算每两个对氨基酸序列对的全局比对,将所得相似度组成N×N相似度矩阵Si,j=K(i,j)。经过以下归一化处理I 归一化S′(i,j)=S(i,j)-Mini,jS(i,j)Maxi,jS(i,j)]]>II 对角线归一化S′′(i,j)=S′2(i,j)S′(i,i)S′(j,j)]]>得到矩阵S″。
通过以下步骤除去矩阵S″的负特征值设矩阵S″具有特征值Λ={λ1,λ2,…,λN}和相应的特征向量V={V1,V2,…,VN},区别于普通的特征值分解此处要求|λi|ViTVi=1]]>与ViTVj=0]]>其中i,j=1,2,…,N且i≠j;经过实验证实矩阵S″只有少量负特征值且其绝对值相对正特征值小的多,因此可以通过大于零的特征值λi>0(i=1,2,…,N*≤N)近似重建新核矩阵S*=VD*V-1,其中D*=diag[λ1,λ2,...,λN*,0,...,0].]]>3.生成核矩阵得到新空间坐标由于新核矩阵满足非负定性条件,定义Si,j*=(Xi,Xj)=XiTXj,]]>其中Xi=(x1i,x2i,...,xji,...xNi),]]>i,j=1,2…N,矩阵S*的非零特征值为λ1,λ2,…,λN*对应的特征向量V1,V2,…,VN*。记相关矩阵为C=1NΣj=1NXiXiT,]]>可以证明矩阵C的特征值为λ1/N(i=1,2…N*),对应的特征向量满足Oi=Σj=1NvjiXj,]]>其中Vji为向量Vi的第j个元素。则氨基酸序列Pi的坐标可以表示为Xi0=((Xi,O1),(Xi,O2),···,(Xi,ON*))=(Si*V1,Si*V2,···Si*VN*),]]>Si*为矩阵S*的第i行。至此由核函数得到新空间的显式坐标形式。
4.训练分类器并预测是否信号肽对新空间的N个氨基酸序列Pi(x1i,x2i,···xN*i)i=1,2,···N,]]>由训练样本集训练SVM分类器。当SVM采用线性核时核矩阵即为S*的子矩阵,对未知属性的序列预测其是否信号肽。
5.预测信号肽断裂点位置按照预测氨基酸序列与已知属性序列的相似度K(i,j)降序排列得到相似度从大到小的次序,借助于相似性大的氨基酸序列与预测信号肽的全局序列比对预测断裂点位置。由几条氨基酸序列预测的断裂点位置不一定完全一致,此时只能通过借助投票预测的最可能的位置作为断裂点。
与现有技术相比,本发明具有以下四个优点①直接应用全局序列比对将氨基酸序列的相似性度量引入算法,避免了以往算法处理长度不一致的氨基酸序列问题导致的一系列缺点。②核函数源于生物界普遍应用的全局序列比对,由此加入了领域知识的核函数有效地将生物意义融入SVM算法中,可以有效提高预测准确率;③有效地探讨解决自定义核矩阵不满足非负定条件的问题;④通过加入删除点使对比氨基酸序列对对齐的全局序列比对,将氨基酸序列作为一个整体考虑,避免了以往滑动窗处理中相邻窗的相似性导致断裂点预测率不高的缺点。
本发明可以对现代细胞生物学的研究产生巨大影响。当一个细胞分裂时,大量的蛋白质和新的细胞器生成。如果一个蛋白质的分类信号改变了,蛋白质就会被运送到错误的细胞位置,引起各种疾病。因此准确预测信号肽剪切点有助于理解某些疾病的致病过程,进而有助于开发有效的治疗方案。


图1为信号肽序列“52 AGP_ECOLI“和信号肽“52 PPA_ECOLI”前部分的序列比对结果示意。
具体实施例方式
以下结合具体的实施例对本发明的技术方案作进一步详细描述。
本发明所利用的数据库采用Nielsen(Nielsen,H.,Engelbrecht,J.,Brunak S.,and von Heijne,G.(1997)“Identification of prokaryoticand eukaryotic signal peptides and prediction of their cleavage sites”“Protein Eng.”,1997,10,pp.1-6)所提供的数据。本发明对Human数据库、E.coli数据库、Gram-数据库和Gram+数据库进行预测,各组数据包含的信号肽序列和非信号肽序列个数分别为416和251,105和119,266和186,141和64。每个氨基酸序列数据包含序列的类别信息、序列的氨基酸排列以及断裂点位置。
整个系统实现过程如下1.属性的数字化。
对每组数据分别处理,以E.coli数据库为例说明。E.coli数据库包含105条信号肽序列和119条非信号肽序列共224条氨基酸序列,将氨基酸序列Pi的属性描述映射成整数标记yi,以1表示信号肽0表示非信号肽。
2.全局序列比对并建立相似度矩阵。
对每组数据中的每两条氨基酸序列Pi和Pj应用全局序列比对Needleman-wunsch算法,记录序列比对的结果,图1为E.coli数据库中信号肽序列“52 AGP_ECOLI“和信号肽“52 PPA_ECOLI”前部分的序列比对结果,第1、3行分别两序列,对应于第1、3行之间的第2行处的符号”|”为两序列一致的位点,黑体字母的左边为断裂点。另外序列Pi和Pj全局序列比对附加产生的评判值K(i,j)在本发明中作为度量两氨基酸序列的相似度,将所有相似度存入224×224的矩阵得到相似度矩阵S224×224,Si,j=K(i,j)(其中i,j=1,2,…224)。
3.生成核矩阵得到新空间坐标。
以E.coli数据库为例,相似度矩阵为S224×224,其为正定矩阵,首先进行归一化处理S′(i,j)=S(i,j)-Mini,jS(i,j)Maxi,jS(i,j)]]>和S′′(i,j)=S′2(i,j)S′(i,j)S′(j,j),]]>其中(i,j=1,2,…224)。计算矩阵S224×224*=S224×224′′]]>的特征值Λ={λ1,λ2,…,λN}与特征向量V={V1,V2,…,VN),要求|λi|×(Vi,Vi)=1且相互正交,新空间坐标为Xi0=(Si*V1,Si*V2,···Si*VN*).]]>对于相似度矩阵负定的情况,以Human数据为例,对矩阵S667×667进行归一化处理S′(i,j)=S(i,j)-Mini,jS(i,j)Maxi,jS(i,j)]]>和S′′(i,j)=S′2(i,j)S′(i,j)S′(j,j)]]>后,其非负特征值Λ={λ1,λ2,···,λN*}]]>与对应特征向量V={V1,V2,···,VN*},]]>新核矩阵为S*=VD*V-1,新空间坐标Xi0=(Si*V1,Si*V2,···Si*VN*).]]>4.训练分类器并预测是否信号肽。
分类器采用SVM分类器,由已知属性的N1个氨基酸序列训练SVM分类器,训练样本属性对为{Xi0,yi}i=1,2,…N1,SVM采用线性核即为矩阵S*的子矩阵。由训练所得分类器对未知属性的N2=N-N1个样本检测。本发明SVM采用参数C=1000。
5.预测信号肽断裂点位置。
按照预测信号肽Pi与已知断裂点信号肽Pi的相似度K(i,j)降序排列,得到相似度从大到小的次序,借助于相似性大的氨基酸序列与预测信号肽的全局序列比对预测断裂点位置。
针对预测信号肽Pi从具有最大相似度的信号肽Pj开始,通过全局比对确定断裂点位置,如果Pj的断裂点位置与Pi的确切位置对应如图1所示则此点即为预测断裂点,如果对应点为删除点则删除点后的第一个氨基酸位置为预测断裂点。依照相似度递减的顺序,通过已知断裂点的信号肽得到一系列预测点,相似度大的几条序列对断裂点的预测相对一致,会有一处突出的位置,但是相似度相对小的序列会使得预测点很凌乱,于是通过投票预测的最可能的位置作为断裂点。本发明通过多条信号肽序列预测断裂点位置增加了预测的鲁棒性。
目前实验针对Human数据、E.coli数据、Gram-数据和Gram+数据的信号肽预测率分别为99.1%、98.2%、96.4%、97.6%,对于断裂点的预测率分别为75.5%、88.6%、74.3%、75.9%。这些结果提高了以往预测信号肽的正确率以及断裂点的预测率,从而对于理解某些疾病的致病过程有极大促进作用,进而有助于开发有效的治疗方案。
权利要求
1.一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,其特征在于包括如下步骤1)属性的数字化将氨基酸序列的是否属于信号肽的文字描述映射成整数属性并标记为yi,以1表示信号肽、0表示非信号肽;2)全局序列比对并建立相似度矩阵对每组数据中的每两条氨基酸序列应用全局序列比对Needleman-wunsch算法,记录序列比对的结果;并将全局序列比对附加产生的评判值组成矩阵作为度量氨基酸序列间相似度的相似度矩阵;3)生成核矩阵得到新空间坐标对于非负定相似度矩阵只进行归一化处理,S′(i,j)=S(i,j)-Mini,jS(i,j)Maxi,jS(i,j)]]>和S′′(i,j)=S′2(i,j)S′(i,i)S′(j,j),]]>其中(i,j=1,2,…224),计算矩阵S*=S″的特征值Λ={λ1,λ2,…,λN}与特征向量V={V1,V2,…,VN},要求|λi|×(Vi,Vi)=1且相处正交,新空间坐标为Xi0=(Si*V1,Si*V2,···Si*VN*);]]>4)训练分类器并预测是否信号肽分类器采用SVM分类器,由已知属性的N1个氨基酸序列训练SVM分类器,训练样本属性对为{Xi0,yi}i=1,2,···N1,]]>SVM采用线性核即为矩阵S*的子矩阵,由训练所得分类器对未知属性的N2=N-N1个样本检测;5)预测信号肽断裂点位置按照预测信号肽与已知断裂点信号肽的相似度降序排列,得到相似度从大到小的次序,借助于相似性大的氨基酸序列与预测信号肽的全局序列比对预测断裂点位置。
2.根据权利要求1所述的基于序列比对核函数预测信号肽及其断裂点位置实现方法,其特征是,所述的3),对于负定矩阵则需要在归一化基础上由其非负特征值Λ={λ1,λ2,···,λN*}]]>与对应的特征向量V={V1,V2,···,VN*},]]>重构新核矩阵S*=VD*V-1,由此得到新空间坐标Xi0=(Si*V1,Si*V2,···Si*VN*).]]>
3.根据权利要求1所述的基于序列比对核函数预测信号肽及其断裂点位置实现方法,其特征是,所述的5),具体为针对预测信号肽Pi从具有最大相似度的信号肽Pj开始,通过全局比对确定断裂点位置,如果Pj的断裂点位置与Pi的确切位置对应则此点即为预测断裂点,如果对应点为删除点则删除点后的第一个氨基酸位置为预测断裂点;依照相似度递减的顺序,通过已知断裂点的信号肽得到一系列预测点,相似度大的几条序列对断裂点的预测相对一致,会有一处突出的位置,但是相似度相对小的序列会使得预测点很凌乱,于是通过投票预测的最可能的位置作为断裂点。
全文摘要
一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,属于生物工程技术领域。本发明采用全局序列比对以解决所研究的氨基酸序列长度不一致的难题,并计算两氨基酸序列之间的统计相关性以表征两者之间的相似度,通过将相似度矩阵转换为非负定矩阵后经过空间转换得到新坐标,从而解决不满足非负定性条件的矩阵如何生成核矩阵的问题。对于新测定的氨基酸序列在新特征空间可预测其是否信号肽并判定其断裂点位置。本发明提高了以往预测信号肽的正确率以及断裂点的预测率,从而对于理解某些疾病的致病过程有极大促进作用,进而有助于开发有效的治疗方案。
文档编号G06F19/00GK1818916SQ20061002427
公开日2006年8月16日 申请日期2006年3月2日 优先权日2006年3月2日
发明者刘惠, 刘丹青, 姚莉秀, 杨杰 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1