一种基于功能模块的生物分子网络分析的方法

文档序号:6537343阅读:507来源:国知局
一种基于功能模块的生物分子网络分析的方法
【专利摘要】本发明属于生物信息【技术领域】。本发明提供了一种基于功能模块的生物分子网络如基因表达调控网络或蛋白质相互作用等网络间比较的方法,主要包括如下步骤:构建生物网络的邻接矩阵Madj,计算网络节点间的功能相似性矩阵Msim,计算网络边的功能权重矩阵,最小图熵算法挖掘网络模块,最后对网络模块进行功能富集分析,其中符号含义如说明书中所定义。
【专利说明】一种基于功能模块的生物分子网络分析的方法
[0001]
【技术领域】
[0002]本发明属于生物信息【技术领域】。更具体而言,本发明涉及生物分子网络如蛋白质-蛋白质相互作用网络或基因表达调控网络。
【背景技术】
[0003]过去的几十年,分子生物学的研究对象主要是生物体内部的单个组织、细胞或基因,利用的是经典还原论的思想,研究难免留于局部。实际上,生物体是一个复杂系统,生物分子之间存在层次性关联及相互作用,且生命现象并不是一个静态而是一个动态演化的过程。网络分析由于它的系统性及内部元素间的关联性已成为研究现代生物学及系统生物学的一个重要方法。
[0004]随着生物芯片、高通量测序、质谱等分子生物学实验技术的飞速发展,产生了海量的基因组学、转录组学、蛋白质组学及代谢组学等高通量数据,并伴随之产生了常见的生物网络如蛋白质相互作用网络、基因转录调控网络、代谢调控网络、非编码基因调控网络及各种跨组学调控网络等。这些网络的应用极大地促进了对基因表达调控机制、蛋白质功能机制、代谢物传递机制等的研究,并广泛应用于疾病机制研究,药物相互作用研究,育种遗传研究和考古进化研究等领域。
[0005]生物分子网络的复杂性,一方面体现在网络的分子组成,比如人类的基因数为20,000^30, 000个,人类蛋白质及其修饰的种类更是指数级增长;另一方面是生物分子间关系的复杂性,比如基因表达转录调控、转录后调控、非编码基因调控及蛋白质翻译后修饰等。一般网络的拓扑性质可以从全局进行分析,但从整体上研究生物分子网络的功能可行性较低。此外,生物分子网络还具有无尺度性、小世界特征和模块化特征,即网络中大部分的节点度较小,而少部分节点与其它节点的连接度比较高;网络中的大部分节点都不是直接相连的,但可以通过有限几个节点`进行连通;网络中的部分节点呈现高聚类性,模块内部连接紧密,模块间连接比较稀疏。模块是实现生物功能的主体,与功能之间的联系也更为紧密,承担着各个生物学功能的模块被定义为网络的功能模块。因此生物网络分析的策略是:首先从总体上分析网络的拓扑学性质,然后是挖掘全局网络中的模块,最后基于网络模块功能分析研究全局网络的功能机制。目前常用的网络模块识别算法和软件有层次聚类、k近邻、k均值、AutoS0ME、MCL、MC0DE、GLAY和MINE等,其中MCL马尔科夫聚类算法是一种基于随机流模拟的图聚类算法,MCODE是给定网络中每个节点一个权值(可以为节点的连接度),根据贪婪算法分离出网络中稠密的区域,再对这些区域进行整合,添加或删除节点。上述的方法中,无一例外均是采用网络拓扑属性进行网络模块的识别,然后基于基因本体论(Gene Ontology, GO)方法进行功能富集得到模块的功能。这些方法存在的共同问题是在挖掘网络模块的时候,依据的是网络中节点的拓扑学性质(度、聚类系数、介数等)而没有考虑相邻节点间的功能相似性。
【发明内容】

[0006]本发明结合了网络中节点间的功能相似性和拓扑性质,使得生物分子网络由无权重的网络成为边具有功能相似性权重的网络,然后再基于权重模块识别方法来挖掘生物网络中的功能模块。
[0007]本发明提供了一种基于功能模块的生物分子网络分析方法,通过网络中节点间的功能相似性结合网络的拓扑性质,筛选出网络中功能关联的一些节点和边,组成功能模块。
[0008]在一个实施方案中,对于数学化的生物网络G(V,E),V表示网络中的节点集合,E表示网络中边的集合,本发明是这样实现的,主要包括如下流程:
步骤1,基于所述生物网络G,构建网络节点间的邻接矩阵Madj,矩阵的行和列分别表示网络中的节点集合V,矩阵由0和I构成,如果两个节点间存在边关系,则矩阵中此两个节点所在行和列相交的元素为1,其他情况则为O。
[0009]步骤2,构建网络节点间的功能相似性矩阵Msim,矩阵的行和列分别表示网络中的节点集合V,矩阵由0.001-1之间的小数构成,如果两个节点间存在语义相似性,则此矩阵中此两个节点所在行和列相交的元素为这两个节点的功能语义相似性得分;功能语义相似性得分计算优选基因本体论中的分子功能(Molecular Function)或生物学过程(Biological Process)语义,其次是细胞学组成(Cellular Component)语义。如果两个分子节点间存在完全语义相似性则值为1,如果两个分子节点间不存在语义相似性则值为
0.001,功能语义相似性方法优选GOSemSim算法(Yu G, Bioinformatics 2010)。
[0010]步骤3,计算网络边的功能权重矩阵Me,
【权利要求】
1.一种基于功能模块的生物网络分析方法,通过网络中节点间的功能相似性结合网络的拓扑性质,筛选出网络中功能关联的一些节点和边,组成功能模块。
2.权利要求1的方法,对于给定的生物网络G(V,E),V网络中的节点集合,E网络中边的集合,该方法包含如下步骤: 步骤1,基于所述生物网络G,构建网络节点间的邻接矩阵Madj,矩阵的行和列分别表示网络中的节点集合V,矩阵由O和I构成,如果两个节点间存在边关系,则矩阵中此两个节点所在行和列相交的元素为1,其他情况则为O ; 步骤2,构建网络节点间的邻接矩阵Msim,矩阵的行和列分别表示网络中的节点集合V,矩阵由0.001-1的小数构成,如果两个节点间存在语义相似性,则矩阵中此两个节点所在行和列相交的元素为这两个节点的功能语义相似性得分,如果两个分子节点间存在完全语义相似性则为1,如果两个分子节点间不存在语义相似性则为0.001 ; 步骤3,计算网络边的功能权重矩阵Me,
3.权利要求1的方法,还包括步骤5,对步骤4识别出的功能模块进行功能富集分析(例如在线功能富集分析工具DAVID或Perl平台的GO::TermFinder工具)。
4.权利要求1-3任一项的方法,所述生物网络包含基因转录调控网络、蛋白质相互作用网络、代谢网络和非编码基因调控网络及其跨组学调控网络等。
5.权利要求2或3的方法,所述功能语义相似性得分计算基于基因本体GeneOntology的分子功能语义,或者基于生物学过程和细胞学组成语义,例如通过功能语义相似性算法 GOSemSim(Yu G, Bioinformatics 2010)进行计算。
6.权利要求2或3的方法,所述最小图熵算法为:图熵 S(0.P) = -1it1Pi1gzPi +q.log^.^, Q 表示子模块内的顶点集合,i 属于 Q ,p.= ^/Ni,Iii为节点与模块内的邻接节点间功能权重累加和,Ni为节点在大网络中与其邻接节点间功能权重累加和
【文档编号】G06F19/12GK103778349SQ201410042705
【公开日】2014年5月7日 申请日期:2014年1月29日 优先权日:2014年1月29日
【发明者】不公告发明人 申请人:思博奥科生物信息科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1