一种蛋白质模板库的扩充方法及装置的制造方法

文档序号:9810885阅读:439来源:国知局
一种蛋白质模板库的扩充方法及装置的制造方法
【技术领域】
[0001]本发明涉及蛋白质结构预测领域,更具体地说,涉及一种蛋白质模板库的扩充方法及装置。
【背景技术】
[0002]在生命活动中,蛋白质扮演着关键性的角色,由于通过实验手段获取蛋白质三维结构的难度和成本很大,因此发展出了各种蛋白质结构预测方法。蛋白质结构预测方法主要分为从头预测和基于模板预测两种类别。相对来说,基于模板的方法准确率比较高,这种方法把已知结构的蛋白质作为模板,通过序列比对的方式,参考已知蛋白质结构来预测未知蛋白质结构,但存在的一个问题是难以从模板库中识别未知结构序列的远程同源序列,制约了预测准确率的提升。远程同源序列的识别,一方面需要有高效精准的识别算法,另一方面需要有足够数量的模板序列供识别算法选择,而目前普遍采用的蛋白质序列模板库中的数据都是通过实验手段测得结构的蛋白质序列,相对于所有待预测序列而言,规模很小。截止2015年11月,蛋白数据库集UniProtKB中包含的蛋白质序列(注释+未注释)有5500万余条,而蛋白质三维结构数据库roBCprotein data bank)中仅包含11万余个蛋白质结构,因此已知结构的序列仅占整个序列的0.2%不到。基于模板的方法要根据0.2%不到的已知结构序列来预测剩余近99.8 %序列的结构,难度可想而知。
[0003]因此,如何扩充蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度是现在需要解决的问题。

【发明内容】

[0004]本发明的目的在于提供一种蛋白质模板库的扩充方法及装置,以扩充蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度。
[0005]为实现上述目的,本发明实施例提供了如下技术方案:
[0006]—种蛋白质模板库的扩充方法,包括:
[0007]从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
[0008]通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
[0009]通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
[0010]优选的,所述通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,包括:
[0011]将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
[0012]优选的,所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本,包括:
[0013]从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述TOB数据库中下载所述蛋白质序列。
[0014]优选的,通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本,包括:
[0015]通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
[0016]优选的,将最终保留的蛋白质序列作为扩充蛋白质模板库之后,还包括:
[0017]获取目标蛋白质序列;
[0018]利用PS1-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
[0019]将所述对比结果作为蛋白质结构预测软件包Modeller的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
[0020]一种蛋白质模板库的扩充装置,包括:
[0021 ]选择模块,用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本;
[0022]第一去除模块,用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
[0023]设计模块,用于通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
[0024]第二去除模块,用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较尚的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质申吴板库。
[0025]优选的,所述设计模块通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,具体包括:
[0026]将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
[0027]优选的,所述选择模块具体用于:
[0028]从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述TOB数据库中下载所述蛋白质序列。
[0029]优选的,所述第一去除模块具体用于:
[0030]通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
[0031]优选的,还包括:
[0032]获取模块,用于获取目标蛋白质序列;
[0033]同源蛋白质序列获取模块,用于利用PS1-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
[0034]蛋白质序列结构预测模块,用于将所述对比结果作为蛋白质结构预测软件包Mode 11 er的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
[0035]通过以上方案可知,本发明实施例提供的一种蛋白质模板库的扩充方法及装置,包括:从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库,可见,在本实施例中,通过对筛选的蛋白质样本进行设计,能扩充现有蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度及准确率。
【附图说明】
[0036]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为本发明实施例公开的一种蛋白质模板库的扩充方法流程示意图;
[0038]图2为本发明实施例公开的一种蛋白质模板库的扩充装置结构示意图。
【具体实施方式】
[0039]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1