使用KNN计算与相似性比对预测蛋白质亚细胞区间方法与流程

文档序号:13767935阅读:239来源:国知局
本发明属于生物信息学领域,涉及预测蛋白质亚细胞区间的方法,具体涉及一种使用KNN计算与相似性比对预测蛋白质亚细胞区间方法。
背景技术
:蛋白序列的功能与其所属的亚细胞区间有着紧密联系,因此对蛋白序列的亚细胞区间预测研究有着重要意义。目前利用机器学习的思想对蛋白质亚细胞区间进行预测成为了获取区间信息的主要研究方法。随着1991年机器学习方法首次应用于对亚细胞区间预测,近二十多年,对蛋白质亚细胞区间预测的研究取得了一系列进展,主要预测方法包括:利用协变判别函数对蛋白序列氨基酸组成特征进行预测,基于N端、C端以及疏水性等特征融合预测,模糊K近邻(FuzzyK-NearestNeighbor,FKNN)算法结合伪氨基酸特征的预测等。上述预测方法中,提取蛋白序列特征并输入分类器确定区间,由于仅考虑序列本身的特征而忽略了序列间遗传变异产生的相似性联系,导致预测的准确率偏低。技术实现要素:针对现有技术的不足,本发明公开了一种使用KNN计算与相似性比对预测蛋白质亚细胞区间方法。本发明的技术方案如下:一种使用KNN计算与相似性比对预测蛋白质亚细胞区间方法,包括以下步骤:步骤1、提取蛋白质序列数据集中所有蛋白质序列的AAC特征;步骤2、在蛋白质序列数据集中选取一条蛋白质序列设定为测试序列,其余蛋白质序列设定为训练集,通过KNN算法,确定预测范围内的蛋白质序列集合;步骤3、将所预测序列与预测范围内的蛋白质序列集合进行Blast相似性比对计算,得到最高相似性序列;最高相似性序列所属的区间就是所预测序列的所属区间。其进一步的技术方案为,所述步骤1具体包括:步骤1-A、将蛋白质序列数据集中每条蛋白质序列表示为P:P=R1R2R3R4R5…RL;上式中,L为蛋白质序列的长度,Ri(i=1…L)为蛋白质序列中第i个氨基酸残基;步骤1-B、计算每条蛋白质序列P的AAC特征:PAAC=[f1,f2,…f20]T;上式中,fu(u=1,2,3,…,20)表示第u种氨基酸在蛋白质序列P中出现的频率。其进一步的技术方案为,所述步骤1-B中第u种氨基酸在蛋白质序列P中出现的频率fu的计算方法为:上式中,L表示蛋白质序列的长度,N表示一个蛋白质序列所包含的所有氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。其进一步的技术方案为,所述步骤2具体包括:步骤2-A、确定KNN算法中的阈值K;步骤2-B、在蛋白质序列数据集中选取一条作为预测序列,其余序列作为训练集;步骤2-C、基于步骤1得到的蛋白质序列的AAC特征,计算预测序列与训练集中每一个蛋白质序列之间的欧氏距离,选取欧式距离最短的前K个蛋白质序列作为预测范围。其进一步的技术方案为,所述步骤2-C中计算欧式距离的具体方法为:预测序列的AAC特征P′ACC=(f′1,f′2,f′3,...,f′n),训练集中任一个蛋白质序列的AAC特征P″ACC=(f″1,f″2,f″3,...,f″n),则欧氏距离d的计算方法如下:其进一步的技术方案为,所述步骤3具体包括:步骤3-A、将预测范围内的蛋白质序列集合作为蛋白质序列比对数据库;步骤3-B、将所预测序列和蛋白质序列比对数据库进行Blast相似性比对,将所预测序列中得分最高的蛋白质序列作为相似性最高序列,相似性最高序列的所属区间就是所预测序列的所属区间。本发明的有益技术效果是:人类对生命科学的研究不断深入,大规模的数据不断产生,从这些海量数据中高效、准确地提取出有效信息具有重大意义。其中从蛋白质序列中提取出能用数字描述的序列结构与功能特征是亚细胞定位预测研究的核心内容之一,本发明所述的方法,相对于现有技术中单纯采用传统的蛋白质序列特征提取算法,如AAC等,进行特征提取并送入分类器进行定位预测的准确率更高。本发明使用Blast比对算法改进的KNN算法,提取蛋白序列的特征,并经过在两个凋亡蛋白数据集上实施应用的试验,证明了本方法的预测准确率较高,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。附图说明图1是本发明的步骤示意图。具体实施方式以从SWISS-PROT数据库获得的包含98条凋亡蛋白质序列所组成的蛋白质序列数据集为例进行说明,采用Blast比对改进的KNN算法,实现对蛋白质亚细胞区间的预测。图1为本发明的步骤图,如图1所示,具体步骤如下:步骤1、提取蛋白质序列数据集中所有蛋白质序列的AAC特征;步骤1-A、将每条蛋白质序列表示为P:P=R1R2R3R4R5…RL;上式中,L为蛋白质序列的长度,Ri(i=1…L)为蛋白质序列中第i个氨基酸残基;步骤1-B、分别计算每条蛋白质序列的AAC特征。蛋白质序列的AAC(AminoAcidComposition,氨基酸组成)特征可表示为:PAAC=[f1,f2,…f20]T;上式中,fu(u=1,2,3,…,20)表示20种氨基酸在蛋白质序列中出现的频率;fu可用如下公式求解:上式中,L表示蛋白序列的长度,N表示一个序列单词包含的所有氨基酸残基的总数目,A(u)表示序号u所对应的氨基酸残基。经过统计计算,所有的序列单词都可以用一个20维的向量表示,从而获得所有蛋白质序列的序列单词特征,即蛋白质序列的AAC特征。步骤2、在蛋白质序列中选取一条蛋白质序列设定为测试序列,其余序列设定为训练集,通过KNN算法,确定预测范围;步骤2-A、确定KNN算法中的阈值K;在本实施例中,选择K=20。步骤2-B、在所有的蛋白质序列中选取一条作为预测序列,剩余的序列作为训练集;在本实施例中,在98条序列中任意取一条序列作为预测序列,剩余的97条序列为训练集。步骤2-C、基于蛋白质序列的AAC特征,计算预测序列和训练集中每一个序列的欧氏距离,选取欧式距离最短的前K个蛋白质序列的集合作为预测范围。由于K=20,得到的预测范围中包含20条蛋白质序列,对于任意两个N维特征向量(s1,s2,s3,…sn)和(t1,t2,t3,…tn),欧氏距离计算过程如下:在本实施例中,预测序列的AAC特征P′ACC=(f′1,f′2,f′3,...,f′n),训练集中任一个蛋白质序列的AAC特征P″ACC=(f″1,f″2,f″3,...,f″n),则基于蛋白质序列的AAC特征,预测序列和训练集中蛋白质序列的欧氏距离d为:步骤3、所预测序列与预测范围内的蛋白质序列进行Blast相似性比对,得到最高相似性序列;最高相似性序列所属的区间就是所预测序列的所属区间。所预测序列的所属区间即为蛋白质亚细胞区间。步骤3-A、将预测范围内的蛋白质序列集合作为蛋白质序列比对数据库,写入数据库文件fasta中。步骤3-B、将数据库文件fasta中的所预测序列和蛋白质序列比对数据库进行Blast相似性比对,将所预测序列中得分最高的蛋白质序列作为相似性最高序列P’,相似性最高序列P’的所属区间就是所预测序列的所属区间,即为本发明中的蛋白质亚细胞区间。其中Blast相似性比对为现有技术,可使用现有的计算方法进行相关计算。以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1