与蛋白质相互作用的dna骨架位置预测方法

文档序号:8396084阅读:812来源:国知局
与蛋白质相互作用的dna骨架位置预测方法
【技术领域】
[0001] 本发明涉及的是一种计算机预测蛋白功能的方法,属于生物信息技术、计算方法 与计算机虚拟现实技术。
【背景技术】
[0002] 预测蛋白质功能的计算方法主要有四种:
[0003] -类是基于结构相似性的方法。这类方法利用三维结构的相似程度,分析目标蛋 白最可能有功能的结构单元,在已知蛋白质数据库中搜索与这些结构单元相似的蛋白质的 功能数据,从而达到预测目标蛋白功能的目标。有些算法可以不用考虑拓扑结构,而只考虑 空间结构。但是这类方法要依赖目前已知的相似结构,不适合发现新的功能。
[0004] 一类是基于三维基序的方法。这些方法更多的是试图找到蛋白质中具有功能的结 构元素,比如在很多DNA结合蛋白中都有发现的Helix-Turn-Helix(HTH)基序。这样,人 们就可以通过类似的数据库近似得到具有这些基序的蛋白质的功能。比如用TESS算法在 酶的活性位点建立起来的PR0CAT数据库;直接利用蛋白质结构数据库(ProteinDatabase Bank,简称TOB)文件中的site信息建立的TOBSite库等。这类方法同样依赖目前已知的 功能信息,不适合发现新的功能。
[0005] -类是基于表面的方法。这类方法通常会根据各原子的三维坐标和互相之间的距 离来产生蛋白质的表面,而认为这些表面的形状及相互之间吻合的程度是决定蛋白质功能 的主要因素。当然,也有研究表明某些蛋白质的功能是由表面的疏水性质或者静电性质决 定的。这类方法通常被叫做分子对接方法,在计算机辅助药物设计中有着广泛的应用。这 类方法目前研究的比较多的是小分子药物。
[0006] 还有一类是基于学习的方法。这类方法包括数据挖掘、人工智能,各种方法层出不 穷,比如使用支持向量机,决策树,人工神经网络等等。他们用各种方式试图找到蛋白质的 功能信息和蛋白质的序列结构等信息之间的关联(显示的或隐式的),以达到预测的目的。 这类方法依然是基于已有的知识库。不适合探索发现蛋白质的未知功能。

【发明内容】

[0007] 本发明的内容在于提供一种基于粗细打分函数相结合的预测与蛋白质相结合的 DNA片断的方法。能在更广义层次上,通过找到相结合的DNA,为尚且无法通过实验鉴定功 能的蛋白提供参考及理论依据。
[0008] 本发明为实现上述目的所采用的技术方案是:与蛋白质相互作用的DNA骨架位置 预测方法,包括以下步骤:
[0009] 根据蛋白质序列通过dp-bind软件得到核酸界面残基信息;
[0010] 将目标蛋白质所在的三维坐标系按设定长度分割形成立方体格点;使用粗粒化探 针在目标蛋白质周围的立方体格点上计算能量,并记录格点位置和能量;根据能量筛选格 点确定作为放置DNA起点的候选位置,只保留距离界面残基在设定距离内能量小于阈值的 格点作为关键格点;
[0011] 结合DNA构象特征对关键格点进行起点和方向的搜索得到备选DNA骨架位置,并 采用统计势能粗粒化函数筛选得到DNA骨架位置;再通过可极化力场进行序列筛选得到最 终骨架位置的序列。
[0012] 所述结合DNA构象的特征对关键格点进行起点和方向的搜索包括以下步骤:
[0013] 采用包含10对核苷酸的DNA双链对关键格点进行遍历;
[0014] 选择所有的关键格点作为起点p,选择距离在设定范围内的关键点对构成的方向 v;
[0015]根据DNA的起点位置P,方向V,DNA整体绕起点轴旋转角度ei ;
[0016] 在起点位置p、方向v、旋转角度0i固定的基础上,DNA整体再绕DNA中心轴旋转 角度9 2,得到备选骨架位直。
[0017] 所述并采用统计势能粗粒化函数筛选得到DNA骨架位置包括以下步骤:
[0018] 将备选DNA骨架位置采用统计势能粗粒化函数进行骨架构象搜索,即统计势能粗 粒化函数值最小的若干个DNA骨架作为DNA骨架位置。
[0019] 所述通过可极化力场进行序列筛选得到最终DNA骨架位置的序列包括以下步骤:
[0020] 在每一个筛选出来的骨架位置上寻找结合序列,即在众多的组合序列中,使用可 极化力场计算能量,选择结合能量值最小的10个序列作为候选序列。
[0021] 本发明具有以下有益效果及优点:
[0022] 1.本发明采用序列分析蛋白核酸界面残基,将序列分析结果和结构信息相结合。 这些界面残基可以显著的减少关键格点,明显的提高搜索速度,使得搜索更具有针对性。
[0023] 2.本发明能根据蛋白质的大小设置空间搜索的精细度,可以适当调节关键点的能 量距离阀值,角度离散化精度,根据当前问题得到比较好的构象。
[0024] 3.本发明能根据给定的蛋白质三维结构信息,快速的找到可能结合DNA的位置, 进而在这个骨架上分析可能的序列。
[0025] 4.本发明为今后的蛋白质其他的功能分析提供了借鉴的方法,进而可以尝试探索 目标蛋白质可能结合的RNA和多肽。
【附图说明】
[0026] 图1为本发明的方法流程图;
[0027] 图2为目标蛋白界面残基和低能格点分析图;
[0028] 图3为DNA碎片结构图。
【具体实施方式】
[0029] 下面结合附图及实施例对本发明做进一步的详细说明。
[0030] 自然界一共存在20种氨基酸,DNA链包括4种碱基。在DNA生长过程,选择构成 DNA的四个碱基作为碎片库基础。每种碱基的活性位点即为碱基上的P原子,新碎片的03' 会被接到旧分子的P原子上。考虑到计算复杂度,我们不推荐生长的太长。推荐自然界中 存在最多的B型DNA结构。整个流程主要分成三部分。
[0031] 第一:DNA关键点的确定。
[0032] 第二:DNA空间构象使用粗粒化统计势能函数大规模的搜索。
[0033] 第三:针对第二部得到的构象,使用精细的可极化力场进行细选。
[0034] 具体包括以下步骤:
[0035] 根据蛋白质序列通过dp-bind软件得到核酸界面残基信息;
[0036] 首先找到蛋白质结构的最小包围盒,然后这个盒子向外扩展|〇A得到一个更大的 包围盒。把这个大的包围盒切割成小的立方体,边长为21小立方体的顶点将作为格点放 置不同的粗粒化探针。由此我们得到了蛋白质周围的均匀的离散的格点。我们预期能量格 点属性能反映出蛋白质的物理性质。使用粗粒化探针在目标蛋白周围格点上计算能量,相 关能量记录在格点属性中。根据能量筛选格点(即能量小于阈值的格点)确定作为放置DNA 起点的候选位置,;删除距离核酸界面残基距离过远和过近的格点。我们只保留距离界面残 基距离在P-5]▲的低能格点。最后剩下的格点我们称为关
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1