一种蛋白质模板库的扩充方法及装置的制造方法_3

文档序号：9810885阅读：来源：国知局

似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本;设计模块300，用于通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库;第二去除模块400，用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度车父尚的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质申旲板库。可见，在本实施例中，通过对筛选的蛋白质样本进行设计，能扩充现有蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度及准确率。
[0070]优选的，在本发明提供的另一实施例中，所述设计模块通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，具体包括:
[0071]将所述蛋白质样本作为输入，采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计，生成与每个蛋白质序列相对应的多个蛋白质序列。
[0072]优选的，在本发明提供的另一实施例中，所述选择模块具体用于:
[0073]从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本，并根据所述蛋白质样本的编号，从所述TOB数据库中下载所述蛋白质序列。
[0074]优选的，在本发明提供的另一实施例中，所述第一去除模块具体用于:
[0075]通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本。
[0076]优选的，在本发明提供的另一实施例中，本装置还包括:
[0077]获取模块，用于获取目标蛋白质序列；
[0078]同源蛋白质序列获取模块，用于利用PS1-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列，并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果；
[0079]蛋白质序列结构预测模块，用于将所述对比结果作为蛋白质结构预测软件包Mode 11 er的输入，采用多模板的方式预测所述目标蛋白质序列的结构。
[0080]本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。
[0081]对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1.一种蛋白质模板库的扩充方法，其特征在于，包括: 从已知结构的原始蛋白质模板库中选择初始蛋白质样本，并通过序列对比算法去除所述初始蛋白质样本中相似度车父尚的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库。2.根据权利要求1所述的扩充方法，其特征在于，所述通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，包括: 将所述蛋白质样本作为输入，采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计，生成与每个蛋白质序列相对应的多个蛋白质序列。3.根据权利要求2所述的扩充方法，其特征在于，所述从已知结构的原始蛋白质模板库中选择初始蛋白质样本，包括: 从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本，并根据所述蛋白质样本的编号，从所述TOB数据库中下载所述蛋白质序列。4.根据权利要求3所述的扩充方法，其特征在于，通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本，包括: 通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本。5.根据权利要求1-4中任意一项所述的扩充方法，其特征在于，将最终保留的蛋白质序列作为扩充蛋白质模板库之后，还包括: 获取目标蛋白质序列；利用PS1-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列，并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果；将所述对比结果作为蛋白质结构预测软件包Modeller的输入，采用多模板的方式预测所述目标蛋白质序列的结构。6.—种蛋白质模板库的扩充装置，其特征在于，包括: 选择模块，用于从已知结构的原始蛋白质模板库中选择初始蛋白质样本；第一去除模块，用于通过序列对比算法去除所述初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；设计模块，用于通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入所述原始蛋白质模板库，生成初始扩充蛋白质模板库；第二去除模块，用于通过序列对比算法去除所述初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质申吴板库。7.根据权利要求6所述的扩充装置，其特征在于，所述设计模块通过蛋白质分子设计算法，设计与所述蛋白质样本相对应的蛋白质序列，具体包括: 将所述蛋白质样本作为输入，采用蛋白质分子设计算法Evodesign对所述蛋白质样本中的每个蛋白质序列进行设计，生成与每个蛋白质序列相对应的多个蛋白质序列。8.根据权利要求7所述的扩充装置，其特征在于，所述选择模块具体用于: 从已知结构的PDB数据库中选取若干个折叠作为所述初始蛋白质样本，并根据所述蛋白质样本的编号，从所述TOB数据库中下载所述蛋白质序列。9.根据权利要求8所述的扩充装置，其特征在于，所述第一去除模块具体用于: 通过序列对比算法BLAST去除所述初始蛋白质样本中相似度大于预定阈值的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本。10.根据权利要求6-9中任意一项所述的扩充装置，其特征在于，还包括: 获取模块，用于获取目标蛋白质序列；同源蛋白质序列获取模块，用于利用PS1-BLAST算法在所述扩充蛋白质模板库中搜索与所述目标蛋白质序列相对应的同源蛋白质序列，并获得所述目标蛋白质序列和所述同源蛋白质序列的对比结果；蛋白质序列结构预测模块，用于将所述对比结果作为蛋白质结构预测软件包Modeller的输入，采用多模板的方式预测所述目标蛋白质序列的结构。
【专利摘要】本发明公开了一种蛋白质模板库的扩充方法及装置，包括：从已知结构的原始蛋白质模板库中选择初始蛋白质样本，并通过序列对比算法去除初始蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为蛋白质样本；通过蛋白质分子设计算法，设计与蛋白质样本相对应的蛋白质序列，并将设计的蛋白质序列加入原始蛋白质模板库，生成初始扩充蛋白质模板库；通过序列对比算法去除初始扩充蛋白质样本中相似度较高的蛋白质序列，将最终保留的蛋白质序列作为扩充蛋白质模板库，可见，在本实施例中，通过对筛选的蛋白质样本进行设计，能扩充现有蛋白质模板库，增加模板库中蛋白质序列的数量，从而提高蛋白质结构预测的精度及准确率。
【IPC分类】G06F19/16
【公开号】CN105574359
【申请号】CN201510938160
【发明人】董启文
【申请人】上海珍岛信息技术有限公司
【公开日】2016年5月11日
【申请日】2015年12月15日

完整全部详细技术资料下载

当前第3页1 2 3