一种蛋白质模板库的扩充方法及装置的制造方法_2

文档序号:9810885阅读:来源:国知局
所有其他实施例,都属于本发明保护的范围。
[0040]本发明实施例公开了一种蛋白质模板库的扩充方法及装置,以扩充蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度。
[0041]参见图1,本发明实施例提供的一种蛋白质模板库的扩充方法,包括:
[0042]S101、从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
[0043]其中,所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本,包括:
[0044]从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本,并根据所述蛋白质样本的编号,从所述TOB数据库中下载所述蛋白质序列。
[0045]在本实施例中为了保证扩充模板库具有充分的覆盖率,要在已知结构的原始蛋白质模板库中均匀地、充分地选取蛋白质结构作为样本,这些样本要覆盖各种蛋白质结构类型。具体可以根据SCOP蛋白质结构分类体系,选取若干个折叠作为原始样本数据,选取的原始蛋白质结构均匀地覆盖整个已知结构数据集,并且由于蛋白质分子设计程序的输入数据是蛋白质的三维结构信息,因此,为了对样本蛋白质进行设计,需要按照蛋白质编号的名称从TOB数据库下载样本蛋白质的结构数据,作为蛋白质分子设计的初始样本。
[0046]其中,通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本,包括:
[0047]通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本。
[0048]具体的,鉴于远程同源蛋白质(序列相似度比较低)模板的数量对于基于模板的预测方法价值很大,因此本发明着重选取远程同源蛋白质,需要将序列相似度高的蛋白质去除。在此采用BLAST算法,在样本序列中进行搜索,只保留相似度低于指定阈值(50%)的蛋白质序列,最终保留的序列即为样本蛋白质序列。需要说明的是,在本实施例中的预定阈值可以根据实际情况自定义。
[0049]S102、通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
[0050]具体的,在本实施例中,为了能够充分提高基于模板的蛋白质结构预测方法的准确率,亟需采用合理的方法解决蛋白质序列模板库规模偏小的问题,即只有具备了足够数量和高质量的模板序列,基于模板的预测方法才能充分发挥作用。因此,在本实施例提供的蛋白质模板库扩充方法中,首先对蛋白质样本进行均匀的选取,再通过蛋白质分子设计算法设计与蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入原始蛋白质模板库中,以扩充蛋白质模板库,从而可以提高远程同源蛋白识别的精度,提升蛋白质结构预测的准确性。
[0051]其中,所述通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,包括:
[0052]将所述蛋白质样本作为输入,采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计,生成与每个蛋白质序列相对应的多个蛋白质序列。
[0053]具体的,Evodesign是基于进化序列谱的蛋白质全新设计方法,利用蛋白质三维结构信息设计蛋白质序列。Evodesign主要包含前期处理、模拟、聚类和选择三个过程。利用Evodesign对同一个蛋白质结构获取多个设计序列,这些序列可以认为是同一个蛋白质结构的不同表现方式,将这些序列在基于模板的蛋白质结构预测中作为比对模板,有助于提升蛋白质同源模板的数量。
[0054]S103、通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
[0055]具体的,在本实施例中将蛋白质样本的结构作为输入,采用蛋白质分子设计算法Evodesign,设计与样本蛋白质结构对应的蛋白质序列,将这些序列加入到原始的序列模板库中,实现序列模板库的扩充。同样,在扩充的序列模板库中用序列比对算法BLAST去除相似度超过50%的蛋白质序列,只保留相似度较低的序列。
[0056]优选的,将最终保留的蛋白质序列作为扩充蛋白质模板库之后,还包括:
[0057]获取目标蛋白质序列;
[0058]利用PS1-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列,并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果;
[0059]将所述对比结果作为蛋白质结构预测软件包Modeller的输入,采用多模板的方式预测所述目标蛋白质序列的结构。
[0060]具体的,为了对目标蛋白质序列的结构进行预测,需要搜索出目标蛋白质序列的同源序列,并构造出序列比对结果。在本实施例中采用PS1-BLAST在扩充模板库中寻找目标蛋白质序列的同源蛋白质序列,进而获得目标蛋白质序列与同源蛋白质序列的比对结果。其中,Modeller软件包是一个被广泛使用的同源建模工具,并且同时支持单模板和多模板建模,在用于蛋白质三维结构的同源或者比较建模时,Modeller的输入数据是目标蛋白质序列和同源蛋白质序列的对比结果,Mode 11 er以此为依据对蛋白质进行建模,从而实现了对目标蛋白质的结构预测。
[0061]具体的,在本实施例中基于蛋白质样本结构,逆向设计相应的蛋白质序列,从而扩充现有的蛋白质结构模板库,基于扩充的模板库进一步对未知结构的蛋白质序列进行结构预测,从而可探测到远程同源的蛋白质模板,进一步提高蛋白质结构预测的精度。
[0062]本发明实施例提供的一种蛋白质模板库的扩充方法,包括:从已知结构的原始蛋白质模板库中选择初始蛋白质样本,并通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库,可见,在本实施例中,通过对筛选的蛋白质样本进行设计,能扩充现有蛋白质模板库,增加模板库中蛋白质序列的数量,从而提高蛋白质结构预测的精度及准确率。
[0063]下面对本发明实施例提供的一种蛋白质模板库的扩充装置进行介绍,下文描述的一种蛋白质模板库的扩充装置与上文描述的一种蛋白质模板库的扩充方法可以相互参照。
[0064]参见图2,本发明实施例提供的一种蛋白质模板库的扩充装置,包括:
[0065]选择模块100,用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本;
[0066]第一去除模块200,用于通过序列对比算法去除所述初始蛋白质样本中相似度较尚的蛋白质序列,将最终保留的蛋白质序列作为蛋白质样本;
[0067]设计模块300,用于通过蛋白质分子设计算法,设计与所述蛋白质样本相对应的蛋白质序列,并将设计的蛋白质序列加入所述原始蛋白质模板库,生成初始扩充蛋白质模板库;
[0068]第二去除模块400,用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列,将最终保留的蛋白质序列作为扩充蛋白质模板库。
[0069]本发明实施例提供的一种蛋白质模板库的扩充装置,包括:选择模块100,用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本;第一去除模块200,用于通过序列对比算法去除所述初始蛋白质样本中相
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1