一种蛋白质结构指纹数据库的制作方法

文档序号:9489639阅读:1134来源:国知局
一种蛋白质结构指纹数据库的制作方法
【技术领域】
[0001] 本发明涉及一种蛋白质结构指纹数据库,属于生物信息学领域。
【背景技术】
[0002] 从1940年确定蛋白质结构中含有有规则的螺旋和片状结构以来,结构生物化学 家一直在继续努力解读蛋白质三维折叠结构。到目前为止(2015年),全球共享的蛋白质数 据库(PDB)已经积累了将近十二万以上的蛋白质三维结构数据^目前对蛋白质空间三维 构象的解析只局限于二级结构和一些简单链接^^'^^^''对于大约仙^左右的 无不规则的三级结构的解析基本上处于空白 14'15'16。目前全球蛋白质数据库对已知蛋白结 构的解析只局限到二级结构,对无规则的三级结构只能用直线段表示。完全解读蛋白质结 构,包括了解蛋白质的三级结构,对于蛋白质的生物功能和活性,以及生物医药研究和药物 设计具有重要意义。
[0003] 蛋白质的三维空间结构可以通过X射线晶体学或者核磁共振技术来测定的。如何 直接从一个蛋白质三维图像或者原始数据提取信息是十分困难的问题。如何从蛋白质数据 库已经积累的大量数据中提取信息就是一个更困难的问题。蛋白结构生物化学家所面临的 关键问题之一是如何完整地描述蛋白质的折叠构象。另外,蛋白质的氨基酸序列和空间构 象和其生物功能密切相关。如何将蛋白质的氨基酸序列和空间构象和其生物功能相关起 来,也是一个很有意义的课题。由于蛋白结构的复杂性,完全理解某个蛋白结构已经不是容 易的课题。目前蛋白质数据库(PDB)已经积累了丰富的数据,如何从大量的蛋白数据中提 取和发现有意义的信息支持生物医药研究面临巨大的挑战。为了解决这些问题,发明人在 专利ZL200880003164. 2中用27个蛋白质折叠形状码来描述蛋白质中连续的五个氨基酸的 结构。在此基础上,依据全球蛋白数据库(PDB)的全部数据,本发明建立了一个全新的蛋白 质结构指纹数据库(PSF-PDB)。

【发明内容】

[0004] 本发明提供的蛋白质结构指纹数据库,包含四条蛋白结构指纹。蛋白质结构的指 纹(PSF)是将蛋白质的结构信息转化为由字符串组成的指纹表示。主要有四条指纹:氨基 酸序列,蛋白质折叠形状码,物理化学性质和向量偶合组成。
[0005] 1.氨基酸序列
[0006] 蛋白质是由20个氨基酸的不同排序组成的多肽生物分子。蛋白质由几十个甚至 到上千个氨基酸排序组成。蛋白质的每个残基可以由单字母的氨基酸表示。构成指纹代表 其一级结构。
[0007] 2.蛋白质折叠形状码(PFSC)
[0008] 在专利ZL200880003164. 2中,发明人开发的蛋白质折叠形状码(PFSC),为描述蛋 白结构指纹创立了基础。通过数学推导得到一组27向量,这组向量能够覆盖任何五个连续 氨基酸残基所有可能的折叠形状。用26英文字母加上符号形成27蛋白质折叠形状码 (PFSC),与27个向量一一对应。因此,任何已知具有三维结构的蛋白质可以转化为一维的PFSC字母表示。对于蛋白质结构,PFSC码的表达可以从N-端开始至C-端结束,涵盖每5 个氨基酸的折叠构象,没有任何遗漏和缺失,包括二级结构片段和三级结构片段。最重要的 特点是,所有27PFSC向量具有相关性,可以对蛋白质构象的相似性进行定量评价。
[0009] 3.物理化学性质
[0010] 每一个氨基酸残基的主要性能取决于侧链的功能。侧链的性质大致分为七类,如 疏水性,酸性或碱性和其他特殊功能基团,并且每个属性由单字母代表其功能。物理化性质 用7个字符分别表示。极性用N表示,电性S,酸性A,碱性B,芳香性0,亲水性H,憎水性P。
[0011] 4.向量偶合
[0012] 每5个氨基酸的肽段形成折叠构象。每个肽段的两端可以分别具有不同的折叠特 征,螺旋折叠用a表示,片状折叠用b表示,无规则折叠用*表示。因此可定义9种向量:a- >a,b->b,a->b,b一>a, *->a,a一>*, *一>b,b一>*,*一>*。相邻的两个向量共用四个 氨基酸形成向量親合。例如,V折叠码的向量是b-〉a,A折叠码的向量是a-〉a。a表示螺 旋特征,b表示片状特征。VA两个向量偶合即b-〉aa-〉a。这个向量偶合说明V向量的C 端是螺旋特征,A向量的N端也是螺旋特征,这两个向量很好的共用之间的4个氨基酸。再 举例说明,BVA折叠码的连接,用向量表示为b->bb一>aa一>a。
[0013] 本发明的蛋白质结构指纹数据库,还可以包括一条指纹:支链几何空间。每一个氨 基酸残基的侧链空间大小不相同,而且空间旋转柔性不相同。采用单字母代表氨基酸残基 的侧链空间的性质。大的侧链用L表示,小侧链S,非常小侧链T,不能旋转H。
[0014] 所述蛋白质折叠形状码,为27个,对应27个描述五个连续氨基酸残基的折叠形状 的向量。
[0015] 在蛋白质结构的指纹(PSF)基础上,我们将全球共享蛋白数据库(PDB)中超过 十一万蛋白质结构数据全部转化为蛋白质结构的指纹(PSF),构建了全球唯一蛋白结构指 纹数据库(PSF-PDB)。
[0016] 对于每一个蛋白质结构,全球共享蛋白数据库(PDB)中通常需要数千行的数据来 表示,到目前(2015年7月)为止,11万蛋白结构在计算机需要大约63兆(G)的储存空间, 数据量大,检索困难。在本发明提供的蛋白结构指纹数据库中,每一个蛋白只有要四行或五 行文字描述,计算机总共只需要大约0.325兆(G)的储存空间,储存空间压缩到二百分之 一。因此,大大减少了数据储存量,加快了检索速度,摆脱必须依赖超级大型计算机或者大 量计算机组合资源的局面,可以实现个人电脑运作。
【附图说明】
[0017] 图1,蛋白质结构指纹数据库格式:只有五行的数据。
[0018] 图2,舒尼替尼药物蛋白结合靶点区:高通量筛选过程中,对蛋白指纹相似性的定 量评分。
[0019] 图3,舒尼替尼药物蛋白结合靶点区:依据蛋白指纹对比评分实现高通量筛选。
【具体实施方式】
[0020] 本发明提供的蛋白质结构指纹数据库,包含四条表示蛋白结构指纹的字符串,由 氨基酸序列,蛋白质折叠形状码,物理化学性质和向量偶合组成。
[0021] 1)氨基酸序列,由表示组成蛋白质的氨基酸的字母串组成,代表其一级结构;
[0022] 2)蛋白质折叠形状码
[0023] 所述蛋白质折叠形状码,为27个,由26英文字母加上"$"符号组成,对应27个描 述五个连续氨基酸残基的折叠形状的向量;
[0024] 3)物理化学性质
[0025] 表示每一个氨基酸残基侧链的物理化性质,用7个字符分别表示,极性用N表示, 电性S,酸性A,碱性B,芳香性0,亲水性H,憎水性P;
[0026] 4)向量偶合
[0027] 每5个连续氨基酸形成的肽段的两端分别具有不同的折叠特征,螺旋折叠用a表 示,片状折叠用b表示,无规则折叠用*表示,定义9种向量:a->a,b->b,a->b,b- >a,*一〉a,a- >*,*一〉b,b- >*,*一>*来描述每个肽段的折叠特征,相邻的两个肽段共用 四个氨基酸形成向量耦合。
[0028] 还可以包括一条结构指纹:支链几何空间。表示每一个氨基酸残基的侧链空间大 小,大的侧链用L表示,小侧链S,非常小侧链T,不能旋转Η;
[0029] 2)中的蛋白质折叠形状码,对应27个描述五个连续氨基酸残基的折叠形状的向 量。如同在专利ZL200880003164. 2中描述,所述向量通过以下方法构建:
[0030]Α)取蛋白质中每五个连续的氨基酸作为一个基本单元;
[0031]Β)计算每个基本单元中的第一个二面角,该二面角是第一,第二,第三个氨基酸决 定的平面与第二、第三、第四个氨基酸决定的平面的夹角;该二面角为al,a2,a3所确定的 范围之一;
[0032] C)计算每个基本单元中的第二个二面角,该二面角是第二、第三、第四个氨基酸决 定的平面与第三、第四、第五个氨基酸决定的平面的夹角,该二面角为bl,b2,b3所确定的 范围之一;
[0033] D)计算每个基本单元中的第一与第五个氨基酸之间的伸张距离,所述伸张距离为 cl,c2,c3所确定的范围之一;
[0034]E)依据步骤B,C,D得到的数值确定每个基本单元的向量。
[0035]所述al从 0。~130。,a2 从 130。~-130。,a3 从-130。~0。;bl从 0。~ 130°,b2 从 130° ~-130°,b3 从-130° ~0°;cl从 0 ~7.0 埃,c2 从 4.0 ~17 埃,c3 大于12埃。
[0036] 蛋白质三维空间结构原始数据需要数百行到千行的数据描述一个蛋白结构。而采 用本发明蛋白质结构指纹数据库只需要5行指纹数据就描述蛋白结构特征。如图1所示。 因此,对数十万个蛋白结构,蛋白质结构指纹数据库储存空间得到减少,更重要的是可以大 大节省时间,对蛋白大数据实现高通量检索。
[0037] 另外一个例子说明如何运用蛋白质结构指纹数据库对蛋白大数据实现高通量筛 选,可以通过指纹相似性分数,对蛋白空间结构进行归一化的定量评估。这些依据蛋白原始 数据或者图像分析根本做不到。图2显示高通量筛选过程中,对舒尼替尼药物蛋白结合靶 点区的蛋白指纹相似性进行定量评分。图3显示依据蛋白指纹相似性评分,实现药物靶标 的高通量筛选。
[0038] 本发明将全球共享蛋白
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1