一种蛋白质互作网络构建的方法

文档序号:9631711阅读:1858来源:国知局
一种蛋白质互作网络构建的方法
【技术领域】
[0001 ] 本发明涉及生物技术领域,特别是一种蛋白质互作网络构建的方法。
【背景技术】
[0002]随着对人类蛋白质数据的不断补充,越来越多的蛋白质的未知功能亟需挖掘用于生物医学研究。大多数蛋白质必须与其他蛋白质或生物大分子相结合才能发挥其功能,因此,要研究蛋白质功能,必须明确其相互作用的蛋白质信息。并根据互作蛋白质功能,推测并验证目标蛋白在细胞功能、生物过程中发挥的作用。目前已有许多高通量鉴定蛋白质互作的方法,并分别储存在不同的蛋白质数据库中。现有的蛋白质互作数据库有以下几种:
[0003]1NHPRD (Human Protein Reference Database)只收录人的蛋白质相互作用(PPI)数据,是来源于文献挖掘的最大的人PPI数据库,有PTM(翻译后修饰)、亚细胞定位、结构域等信息。
[0004]2、DIP (Database of Interacting Proteins)是蛋白质相互作用数据库,收集了经实验验证的来自文献报道的蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。
[0005]3、ReaCt0me是一个汇集了由专家撰写,经同行评阅的有关人体内各项生物学反应及信号通路的数据库。其中包含了大量蛋白质-蛋白质互作信息,生物学反应以及相关文献,可以从整体水平上对生物学途径进行研究。
[0006]4、IntAct是一个存储和分析生物分子间相互作用的公共数据库,主要记录蛋白质相互作用及试验方法、实验条件和相互作用数据库,数据主要来自文献的人工检验或用户提交。
[0007]5、MINT(Molecular Interact1n Database)主要存储蛋白质物理相互作用,其主要来自于文献提取,经实验证实的生物分子相互作用。数据信息经MINT Assistant搜索后和检验人员的人工检验。
[0008]6、SPIKE (Signaling Integrated Knowledge Engine)主要存储蛋白质在生物信号通路中的相互作用关系以及大量的生物信号通路间关联互作信息。里面包含的信息主要偏向于DNA损伤、细胞周期、模式生物死亡以及相关通路。
[0009]7、B1Grid数据库包含了模式生物(人类、老鼠、线虫、酵母等)蛋白质相互作用和基因相互作用信息,包括高通量的实验数据和传统的实验数据。该数据库整合了来源于不同文献和不同实验手段的实验收据,数据比较冗余。
[0010]然而由于各个数据库之间存在数据的冗余和假阳性高的问题,使得单个蛋白质数据库中储存的蛋白质互作信息难以得到有效利用。另外由于现有的蛋白质数据库中的数据来源的不同,蛋白质以及序列信息的快速增加,和试验手段的局限性,单个蛋白质数据库中存储的蛋白质互作信息显得远远滞后。

【发明内容】

[0011]本发明的目的是要解决现有技术问题的不足,提供一种蛋白质互作网络构建的方法,构建一个可以全面且广泛地存储现有蛋白质互作关系,来源可靠并便于查询的蛋白质互作网络。
[0012]为达到上述目的,本发明是按照以下技术方案实施的:
[0013]—种蛋白质互作网络构建的方法,包括以下步骤:
[0014]步骤1:以 HPRD,DIP,Reactome,IntAct,MINT,SPIKE 以及 B1Grid 数据库中存储的人类蛋白质作为感兴趣蛋白质并构建感兴趣蛋白质集合A ;
[0015]步骤2:以感兴趣蛋白质集合A中的任一感兴趣蛋白质作为目标蛋白质,从HPRD,DIP,Reactome,IntAct,MINT,SPIKE以及B1Grid数据库中提取所有的目标蛋白质-蛋白质的互作关系;
[0016]步骤3:利用MySQL数据库整合步骤2中的目标蛋白质-蛋白质互作信息,去除在多个数据库中重复冗余的目标蛋白质-蛋白质互作关系,构建以目标蛋白质名称为唯一搜索链接的数据库,记为数据库A ;
[0017]步骤4:搜索数据库A,得到与目标蛋白质有互作关系的蛋白质集合,构建目标蛋白质的一级互作蛋白质数据库,并以此绘制目标蛋白质的一级蛋白质互作网络;
[0018]步骤5:以步骤4得到的与目标蛋白质有一级互作关系的蛋白质构建感兴趣蛋白质集合B,重新搜索数据库A,分别得到与感兴趣蛋白质集合B中的蛋白质互作的蛋白质集合,然后以此构建目标蛋白质的二级互作蛋白质数据库,联合步骤4中的目标蛋白质的一级蛋白质互作网络,绘制目标蛋白质的互作蛋白质数据库。
[0019]与现有技术相比,本发明构建蛋白质互作网络使用的候选数据库全面广泛,对已有数据库的整合使用和拓展应用思路新颖。该蛋白质互作数据库可以全面广泛地存储现有蛋白质互作关系,来源可靠并便于查询。对未知蛋白质功能的试验验证提供可靠的依据。
【具体实施方式】
[0020]下面结合具体实施例对本发明作进一步描述,在此发明的示意性实施例可以用来解释本发明,但并不作为对本发明的限定。
[0021]下面以一种蛋白质为实例,做进一步的说明
[0022]蛋白质类型:⑶147是细胞表面糖蛋白,属于免疫球蛋白超家族。
[0023]步骤1:以 HPRD,DIP,Reactome,IntAct,MINT,SPIKE 以及 B1Grid 数据库中存储的人类蛋白质作为感兴趣蛋白质并构建感兴趣蛋白质集合A ;
[0024]步骤2:以感兴趣蛋白质集合A中的⑶147作为目标蛋白质,从HPRD,DIP,Reactome,IntAct,MINT,SPIKE以及B1Grid数据库中提取所有的CD147-蛋白质的互作关系;
[0025]步骤3:利用MySQL数据库整合步骤2中的⑶147-蛋白质互作信息,去除在多个数据库中重复冗余的CD147-蛋白质互作关系,构建以CD147名称为唯一搜索链接的数据库,记为数据库A ;
[0026]步骤4:搜索数据库A,得到与⑶147有互作关系的蛋白质集合,构建⑶147的一级互作蛋白质数据库,并以此绘制CD147的一级蛋白质互作网络;
[0027]步骤5:以步骤4得到的与CD147有一级互作关系的蛋白质构建感兴趣蛋白质集合B (⑶1,⑶48,⑶11a,⑶18,⑶43等),重新搜索数据库A,分别得到与⑶1,⑶48等蛋白质互作的蛋白质集合,然后以此构建CD147的二级互作蛋白质数据库,联合步骤4中的CD147的一级蛋白质互作网络,绘制CD147的互作蛋白质数据库。
[0028]通过得到的⑶147互作蛋白质数据库,可以推断⑶147分子在生物学过程以及信号通路中相互作用的蛋白质分子,以不同蛋白质类型(例如膜表面分子、跨膜蛋白、胞浆蛋白、激酶等)对互作蛋白质进行提取,即可推断CD147分子生物学功能,并可以用于进行试验验证。
[0029]本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
【主权项】
1.一种蛋白质互作网络构建的方法,其特征在于,包括以下步骤: 步骤 1:以 HPRD,DIP,Reactome,IntAct,MINT,SPIKE 以及 B1Grid 数据库中存储的人类蛋白质作为感兴趣蛋白质并构建感兴趣蛋白质集合A ; 步骤2:以感兴趣蛋白质集合A中的任一感兴趣蛋白质作为目标蛋白质,从HPRD,DIP,Reactome,IntAct, MINT,SPIKE以及B1Grid数据库中提取所有的目标蛋白质-蛋白质的互作关系; 步骤3:利用MySQL数据库整合步骤2中的目标蛋白质-蛋白质互作信息,去除在多个数据库中重复冗余的目标蛋白质-蛋白质互作关系,构建以目标蛋白质名称为唯一搜索链接的数据库,记为数据库A ; 步骤4:搜索数据库A,得到与目标蛋白质有互作关系的蛋白质集合,构建目标蛋白质的一级互作蛋白质数据库,并以此绘制目标蛋白质的一级蛋白质互作网络; 步骤5:以步骤4得到的与目标蛋白质有一级互作关系的蛋白质构建感兴趣蛋白质集合B,重新搜索数据库A,分别得到与感兴趣蛋白质集合B中的蛋白质互作的蛋白质集合,然后以此构建目标蛋白质的一■级互作蛋白质数据库,联合步骤4中的目标蛋白质的一级蛋白质互作网络,绘制目标蛋白质的互作蛋白质数据库。
【专利摘要】本发明公开了一种蛋白质互作网络构建的方法,包括以下步骤:获取感兴趣的蛋白质集合;构建目标蛋白质的一级互作蛋白质数据库,并以此绘制目标蛋白质的一级蛋白质互作网络;构建目标蛋白质的二级互作蛋白质数据库,联合目标蛋白质的一级蛋白质互作网络,绘制目标蛋白质的互作蛋白质数据库。与现有技术相比,本发明构建蛋白质互作网络使用的候选数据库全面广泛,对已有数据库的整合使用和拓展应用思路新颖。该蛋白质互作数据库可以全面广泛地存储现有蛋白质互作关系,来源可靠并便于查询。对未知蛋白质功能的试验验证提供可靠的依据。
【IPC分类】G06F19/28
【公开号】CN105389483
【申请号】CN201510760997
【发明人】朱平, 张葵, 郑艳
【申请人】中国人民解放军第四军医大学
【公开日】2016年3月9日
【申请日】2015年11月10日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1