整合拓扑属性和功能的蛋白质生物网络模体识别方法

文档序号:6506218阅读:180来源:国知局
整合拓扑属性和功能的蛋白质生物网络模体识别方法
【专利摘要】本发明公开了一种整合拓扑属性和功能的蛋白质生物网络模体识别方法,本发明从模体的生物学意义出发,通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质相互作用的生物显著性,提出了一种整合拓扑属性和功能的蛋白质生物网络模体识别方法(Ecc-GOSS)。本发明实现简单,只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体,且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。
【专利说明】整合拓扑属性和功能的蛋白质生物网络模体识别方法
【技术领域】
[0001]本发明属于系统生物学领域,涉及一种整合拓扑属性和功能的蛋白质生物网络模体识别方法。
【背景技术】
[0002]在后基因组时代,为更好地理解生物分子交互和运作的机制,功能基因组学研究的主要目标是识别和分析细胞环境中的分子相互作用。蛋白质相互作用是一种特定类型分子相互作用,在传送信号、构建分子机器、参与酶反应等生物过程中起着核心作用。近年来,随着高通量蛋白质组技术的发展,可获得的蛋白质相互作用数据迅速增长。蛋白质相互作用被构建为无向图(其中顶点对应蛋白质,边对应蛋白质之间的相互作用)有助于从网络水平上理解细胞机制的基本构件和组织。蛋白质相互作用网络类似于复杂网络,拥有小世界和无尺度等全局特性。而在2002年由R.Milo等首次提出的网络模体则是其中非常重要的一种局部性质,网络模体定义为一种在给定网络中频繁出现的连通子图,并且其出现的次数要多于在相应的随机网络中的次数,被认为是复杂网络的基本构件块。所以,有效地识别网络模体对预测蛋白质相互作用、预测关键蛋白质及解释特定的生物进程具有十分重要的意义。
[0003]网络模体发现的计算复杂度非常高,它涉及到子图的同构测试及需要产生大量的随机网络来确定子图的唯一性。现有的网络模体发现方法主要有精确的枚举法和近似的采样方法。穷尽递归搜索(ERS)、枚举子图(ESU)和紧凑的拓扑模体属于精确方法。边采样方法(ESA)、顶点采样方法(RAND-ESU)及树过滤搜索方法(NEM0FINDER)属于近似方法。最近,Kim等人首次定义生物网络模体为生物上具有显著性的小的连通子图,并指出传统结构上的网络模体不足以解释模体的生物意义,因为部分结构上的非模体也具有生物意义;为有效的发现生物网络模体,Kim提出了 EDGEGO-BNM,EDGEBETWEENNESS-BNM,NMF-BNM,NMFGO-B匪和V0LTAGE-B匪五种方法,实验结果表明,基于蛋白质对的共同GO短语深度的EDGEG0-BNM方法和基于边介数的EDGEBETWEENNESS-BNM方法评价结果优于其他方法。
[0004]尽管Kim等提出的方法能较好的发现生物网络模体,但仍有几个挑战是研究者必须面对的。首先,目前每一个物种的蛋白质相互作用数据是不完整的;其次,蛋白质相互作用数据存在大量假阳性,特别是从大规模高通量实验得到的数据。对于假阳性,一般是通过使用不同的权重方法来评估相互作用的可靠性。此外,网络模体被认为是复杂网络的基本构件块,且树形结构的子图通常不是模体,那么网络模体中的相互作用是倾向于形成高密度连通的簇。
[0005]因此,有必要设计一种整合拓扑属性和功能的蛋白质生物网络模体识别方法。

【发明内容】

[0006]本发明所要解决的技术问题是提供一种整合拓扑属性和功能的蛋白质生物网络模体识别方法,该整合拓扑属性和功能的蛋白质生物网络模体识别方法只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体,且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。
[0007]发明的技术解决方案如下:
[0008]一种整合拓扑属性和功能的蛋白质生物网络模体识别方法,包括以下步骤:
[0009]I)建立蛋白质相互作用无向图:
[0010]输入一组蛋白质相互作用信息,过滤掉其中的重复相互作用和自相互作用,建立蛋白质相互作用无向图G ;重复相互作用指一对蛋白质相互作用信息被记录了 2次及以上【其被多种实验方法所证实而得到】;
其中,蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合;每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质;
[0011]2)计算蛋白质相互作用无向图G中每条边的生物显著性值;
[0012]3)将蛋白质相互作用无向图G中的每条边按照生物显著性值以非递减的顺序排序,删除最前的r条的边【即较小的生物显著性值的r条边】,得到图G’ ;
[0013]4)采用ESU方法枚举图G’中所有k个顶点的导出子图,所有被查找到的子图即所要识别的生物网络模体,整个识别过程结束;
[0014]所述的ESU方法 为枚举子图法。
[0015]所述的生物显著性值由下式计算:
[0016]Λ(?,ν) = OT x[.s./(",v)f 5
[0017]其中α和β都是控制边聚集系数与语义相似性的相对重要性的参数,α和β分别取值为I和2【使查找到的子图在复合物与功能模块中都具有较高的比例】;



Z1-S) +1
[0018]4,为边聚集系数,有?丨1;” = 1?Λ,;
CU,V'SlgJ
[0019]ss (U,v)为语义相似性,有S_,V) =;
[0020]通过调整参数r,使得在图G'中所查找到的子图数为原图G中子图数的30%;k取值为4和5,即查找顶点数为4和5的导出子图。
[0021]从计算角度来看,模体是相对于随机网络而言在真实网络中频繁出现的子图,而从生物学角度来看,模体是指生物网络中的基本构件块。这里参照Kim等提出的生物网络模体的定义,即生物网络模体的发现是尽可能的找到生物上具有显著性的小的连通子图,它不涉及子图的同构测试,也不需要产生大量的随机网络来进行子图的过表达测试。本发明通过在原网络中去掉一些生物上非显著的边来减少查询的子图数目同时增加了生物网络模体的发现比例。例如,如果去掉20%左右的边,那么原网络中的子图数将减少到30%。
[0022]该方法通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性,然后根据该值的大小去掉生物上非显著性的边。该方法的基本思想是:(I)生物网络模体的相互作用倾向于形成高密度连通的簇;(2)蛋白质对的GO语义相似性值越大,则两个蛋白质之间发生相互作用的概率越高。
[0023]事实上,在GO短语所表示的DAG图中,每一个短语可能有多条不同长度的路径到达根短语,因此,短语的深度不是一个精确的特异性的指标。而且,边介数是一种全局度量,所需的计算复杂度非常高。为了克服以上挑战,本发明提出了一种新的方法Ecc-GOSS:通过整合边聚集系数和GO短语的语义相似性来综合评价蛋白质相互作用的生物显著性,边聚集系数从拓扑结构上能有效地描述两个蛋白质共簇的概率,但它的有效性严重依赖于蛋白质相互作用网络的可靠性,为此,引入GO短语的语义相似性,它能从功能上有效评估蛋白质相互作用的可靠程度。该方法不仅提高了计算效率,而且对于存在的假阳性数据提高了鲁棒性。
[0024]有益效果:
[0025]本发明的整合拓扑属性和功能的蛋白质生物网络模体识别方法(Ecc-GOSS),从模体的生物学意义出发,通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性,在拓扑属性和生物功能两方面得到了一个较好的融合。本发明实现简单,只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体,为进一步研究提供有价值的参考信息,且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。
[0026]实验证明,Ecc-GOSS有效地克服了生物网络中的假阳性数据,使查找到的子图在复合物与功能模块中都具有较高的比例,且相比于其他方法具有最高的GO短语聚类分数,具体实验参数和对比表详见实施例。
【专利附图】

【附图说明】
[0027]图1是本发明Ecc-GOSS的流程图;
[0028]图2是蛋白质相互作用无向图实例;
[0029]图3是6种非同构的4顶点子图的形状和标签;
[0030]图4是6种方法在DIPCore netwrok中找到的4顶点的6种子图的相对频率;
[0031]图5是6种方法在Y2k网络中找到的4顶点的6种子图的相对频率。
【具体实施方式】
[0032]以下将结合附图和具体实施例对本发明做进一步详细说明:
[0033]实施例1:
[0034]一、基于整合拓扑属性和功能的蛋白质生物网络模体识别模型
[0035]本发明将生物网络模体定义为:通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性,然后根据该值的大小去掉生物上非显著性的边,在剩余子图中查找到的小规模连通子图。
[0036]为了清晰描述基于整合拓扑属性和功能的蛋白质生物网络模体识别模型,发明人将该模型的相关定义如下:
[0037]这里提出了一个衡量蛋白质对的生物显著性值指标p。,其表达形式如下:
[0038]Pe (U, V) = [C1'4: f X [ss* (u, v)f
[0039]其中,O代表4阶环边聚集系数,Λ..ν>,ν)代表蛋白质u和V的语义相似性。
[0040]基于整合拓扑属性和功能的蛋白质生物网络模体识别模型的目标是识别具有生物显著性的小规模连通子图。通过在原网络中去掉一些生物上非显著的边来减少查询的子图数目,同时增加了生物网络模体的发现比例。例如,如果去掉20%左右的边,那么原网络中的子图数将减少到30%。
[0041]基于整合拓扑属性和功能的蛋白质生物网络模体识别方法的整个流程如图1所示。首先输入一组蛋白质相互作用信息和相关基因本体论信息。方法Ecc-GOSS可以划分为6个子过程:
[0042]I)建立蛋白质相互作用无向图:输入一组蛋白质相互作用信息,过滤其中的重复相互作用和自相互作用,建立蛋白质相互作用无向图G(如图2所示);其中,蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合;每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质;重复相互作用指一对蛋白质相互作用信息被记录了 2次及以上【其被多种实验方法所证实而得到】;
[0043]2)计算图G中每条边的边聚集系数;
[0044]3)计算图G中每条边的语义相似性;
[0045]4)计算图G中每条边的生物显著性值;
[0046]5)图G中的每条边按照生物显著性值以非递减的顺序排序,去掉前r条较小的边【即较小的生物显著性值的r条边】,得到图G’ ;
[0047]6)采用ESU方法枚举图G’中所有k个顶点的导出子图,所有被查找的子图即所要识别的生物网络模体,整个识别过程结束。
[0048]二、基于整合拓扑属性和功能的蛋白质生物网络模体识别方法有效性验证
`[0049]为了验证方法Ecc-GOSS的有效性,将Ecc-GOSS方法应用于两个酵母蛋白质相互作用数据集,一个来源于相互作用的蛋白质数据库(DIP, Database of InteractingProteins),使用的是酵母20101010版本的核心数据集,记为DIP Core netwrok,去掉自相互作用和冗余的相互作用后总共包括2158个蛋白质和4301个相互作用;另一个来源于高通量的实验数据,使用其中的2455个高置信度水平的相互作用,总共含有988个蛋白质,通常称为Y2k网络。由于这个网络是一个大规模图,因此只限于考虑大小为4和5的子图。将方法 Ecc-GOSS 与 ESU、RAND-ESU、MFINDER、EDGEG0-BNM 和 EDGEBETWEENNESS-BNM 等 5 个方法在预测生物网络模体的包含在复合物中的比例、包含在功能模块中的比例及GO短语聚类分数等方面进行了比较。此外,在本实例中,还分析了参数α、B的设置对方法结果的影响及生物网络模体与结构网络模体的关系。
[0050]模体包含在复合物
[0051]若一个己知蛋白质复合物包含了子图g的所有顶点,则称子图g被包含在蛋白质复合物中。‘模体包含在复合物中的比例’定义为包含在复合物中的子图数与全部发现的子图数之比。
[0052]模体包含在功能模块
[0053]类似于上面的方法,若一个己知蛋白质功能模块包含了子图g的所有顶点,则称子图g被包含在蛋白质功能模块中。‘模体包含在功能模块中的比例’定义为包含在功能模块中的子图数与全部发现的子图数之比。
[0054]在具体实验中,使用具有蛋白质功能注解的MIPS(Munich Information Centerfor Protein Sequences: ftp://ftpmips.gsf.de/yeast/)中 CYGD(ComprehensiveYeast Genome Database)数据库中的数据集。用于分析和比较的蛋白质复合物列表选用complexcat—data—18052006,功能注解表选用 funcat—2.1—data—20070316.[0055]GOterm聚类分数
[0056]使用超几何聚集分布来计算子图g中某个GO短语的p-value,如下所示
[0057]
【权利要求】
1.一种整合拓扑属性和功能的蛋白质生物网络模体识别方法,其特征在于,包括以下步骤: 1)建立蛋白质相互作用无向图: 输入一组蛋白质相互作用信息,过滤掉其中的重复相互作用和自相互作用,建立蛋白质相互作用无向图G ;重复相互作用指一对蛋白质相互作用信息被记录了 2次及以上; 其中,蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合; 每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质; 2)计算蛋白质相互作用无向图G中每条边的生物显著性值; 3)将蛋白质相互作用无向图G中的每条边按照生物显著性值以非递减的顺序排序,删除最前的r条的边,得到图G’ ; 4)采用ESU方法枚举图G'中所有k个顶点的导出子图,所有被查找到的子图即所要识别的生物网络模体,整个识别过程结束; 所述的ESU方法为枚举子图法。
2.根据权利要求1所述的整合拓扑属性和功能的蛋白质生物网络模体识别方法,其特征在于,所述的生物显著性值由下式计算: 其中α和β都是控制边聚集系数与语义相似性的相对重要性的参数,α和β分别取值为I和2 ;`

ζ(呂)+1 广(4,为边聚集系数,有O I”.VSu,v SS (U,V)为语义相似性,有_,v) = e^ISM^ ;
3.根据权利要求1或2所述的整合拓扑属性和功能的蛋白质生物网络模体识别方法,其特征在于,通过调整参数r,使得在图G’中所查找到的子图数为原图G中子图数的30%;k取值为4和5,即查找顶点数为4和5的导出子图。
【文档编号】G06F17/30GK103514381SQ201310307364
【公开日】2014年1月15日 申请日期:2013年7月22日 优先权日:2013年7月22日
【发明者】骆嘉伟, 李光辉, 王伟胜, 江海, 刘智明, 蔡洁 申请人:湖南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1