一种利用网络结构信息识别显著生物通路的方法

文档序号:6584850阅读:417来源:国知局
专利名称:一种利用网络结构信息识别显著生物通路的方法
技术领域
本发明涉及高通量生物芯片基因表达检测方法,特别涉及基因表达谱芯片检测中利用网络结构信息识别被显著影响的生物通路的方法。
背景技术
高通量技术和组学技术的发展,使得人们可以在系统水平上对生物体内部的分子过程进行检测,从而有助于了解基因及其它生物分子所参与的复杂的相互作用。基因芯片技术被广泛应用于测量基因组水平的基因表达值,从而产生出海量的生物数据,对这些数据的生物意义解读是当前基因芯片技术的一个难点。由于生物系统主要是通过基因与基因之间的相互作用而实现功能,因此,与传统的单基因分析方法不同,基因芯片数据处理的新挑战是如何找出被一组相关基因所影响的生物过程。特定生物过程常用其生物通路来表述,即指一组基因和小分子以化学反应、分子修饰或者信号传导的方式来实现特定生物功能的分子网络。由于生物通路通过基本的基因网络回路来实现特定的生物功能,那么对生物通路的干扰必定导致正常生物系统的紊乱。因此,在特定的生物条件下去寻找显著变化的生物通路能够有助于研究人员把注意力集中到对生物系统最为重要的一组基因上去。但是由于目前寻找显著的生物通路的方法把所有基因视为等同地位,因此在具体应用中还无法达到满意的效果。生物中通路包含着最重要的信息,即,其中的成员基因是如何与其他基因进行相互作用的。很明显对生物通路中关键基因的干扰要比对非关键基因的干扰对整个生物通路的影响更大。生物通路的形式是一个网络或者图,其中包含了节点和边,因此,网络的结构信息对于衡量生物通路的显著性是至关重要的。目前的方法并没有考虑到生物通路的结构信息,因此在实际的应用中对于揭示由于关键基因和关键调控路径所影响的生物通路还存在着很大的不足,无法找到真正起关键作用的生物通路。

发明内容
发明目的:本发明所要解决的技术问题是针对现有技术识别显著生物通路方法的不足,提出一种更加有效的利用网络结构信息的识别显著生物通路的方法,这种方法找到的生物通路能够揭示出其中重要的关键基因和调控路径。技术方案:本发明公开了一种利用网络结构信息识别显著生物通路的方法,包括以下步骤:步骤1,输入基因芯片数据,选择基因ID类型;步骤2,整理和使用公共的生物通路数据集,将基因芯片所含基因归属到所属已知的生物通路中;步骤3,使用生物通路的网络结构信息和基因芯片的表达信息计算每条生物通路的差异性总得分;步骤4,构建随机对照数据,计算每条生物通路的显著性,即P值;步骤5,对计算出的P值进行多假设检验的FDR控制,即对原始p值进行校正;
步骤6,根据设定的修正后的P值的阈值,判断每条生物通路的显著性是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果。本发明中,步骤I中,输入的基因芯片数据一般为矩阵格式,其中行对应着基因,列对应着不同的实验样本。基因统一使用Symbol来表不。本发明中,步骤2中,使用公共的生物通路数据集,对其中的每一条生物通路,判断基因芯片中的基因是否属于此生物通路。本发明中,步骤3中使用生物通路的网络结构信息和基因芯片表达信息计算每条生物通路的差异性具体包括以下步骤:步骤11将生物通路中的基因映射为网络节点;步骤12计算网络中心性指标;步骤13使用基因芯片数据判断网络节点被差异表达影响的程度;步骤14计算生物通路整体差异性的总得分;步骤11中,对生物通路中的每个节点判断其是否包含基因以及所包含基因的数目。步骤12中所述的网络中心性指标一共有三种:a)度:与网络中某个节点直接相连的节点个数,衡量一个基因调控其他基因的个数,按照网络边的方向,度分为入度和出度;b)最短路径中间性:衡量经过一个节点的信息流数量,在网络结构中,衡量起枢纽作用的关键基因,定义为,
权利要求
1.种利用网络结构信息识别显著生物通路的方法,其特征在于,包括以下步骤: 步骤(I ),输入基因芯片数据,选择基因ID类型; 步骤(2),整理和使用公共的生物通路数据集,将基因芯片所含基因归属到所属已知的生物通路中; 步骤(3),使用生物通路的网络结构信息和基因芯片的表达信息计算每条生物通路的差异性总得分; 步骤(4),构建随机对照数据,计算每条生物通路的显著性P值; 步骤(5),对计算出的P值进行多假设检验的FDR控制,即对原始P值进行校正; 步骤(6),根据设定的修正后的P值的阈值,判断每条生物通路的显著性是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果。
2.据权利要求1所述的一种利用网络结构信息识别显著生物通路的方法,其特征在于,步骤(3)中使用生物通路的网络结构信息和基因芯片的表达信息计算每条生物通路的差异性总得分具体包括以下步骤: (11)将生物通路中的基因映射为网络节点; (12)计算网络中心性指标; (13)使用基因芯片数据判断网络节点被差异表达影响的程度; (14)计算生物通路整体差异性的总得分。
3.据权利要求2所述的一种利用网络结构信息识别显著生物通路的方法,其特征在于,步骤(12)中所述的网络中心性指标包括三种中心性值向量: a)度:与网络中某个节点直接相连的节点个数,衡量一个基因调控其他基因的个数,按照网络边的方向,度分为入度和出度; b)最短路径中间性:衡量经过一个节点的信息流数量,在网络结构中,衡量起枢纽作用的关键基因,定义为,
4.据权利要求2所述的一种利用网络结构信息识别显著生物通路的方法,其特征在于,步骤(13)所述的使用基因芯片数据判断网络节点被差异表达影响的程度具体包括以下步骤:a)计算节点的表达值向量,如果节点只包含单个基因,则此节点的表达值向量为该基因的表达值向量;如果节点包含多个基因,则成员基因表达值矩阵的第一主成分作为该节点的表达值向量;b)计算每个节点的差异变化值:根据节点的表达值向量计算节点的差异变化值向量d。
5.据权利要求3所述的一种利用网络结构信息识别显著生物通路的方法,其特征在于,步骤(14)所述的使用生物通路的网络结构信息和基因芯片的表达信息计算每个生物通路的差异性总得分,具体为依次计算在三种中心性指标下的生物通路的差异性总得分: s=f (wd), 其中,S是生物通路的差异性总得分,W为一条生物通路中节点在相应网络中心性指标下的中心性值向量,d为某条生物通路中节点差异变化值向量,f为对w和d向量乘积的最大值函数或者加和函数;使用度作为中心性指标时,最后的生物通路的差异性总得分记为Sd ;使用最短路径中间性作为中心性指标时,最后的生物通路的差异性总得分记为Sspd ;使用最大传播距离作为中心性指标时,最后的生物通路的差异性总得分记为Sb。
6.据权利要求5所述的一种利用网络结构信息识别显著生物通路的方法,其特征在于,步骤(4)中构建随机对照数据,计算每条生物通路的显著性P值,包括如下步骤:将原始的基因表达值矩阵随机打乱,基于打乱的数据使用步骤(3)计算随机条件下在度、最短路径中间性和最大传播距离三种中心性指标下生物通路的差异性总得分4,<#和.< ;总共进行η次的数据随机打乱,获得3η个随机的生物通路整体差异性的总得分,在对应的中心性指标下,计算差异性得分的显著性P值:
7.据权利要求6所述的一种利用网络结构信息识别显著生物通路的方法,其特征在于,步骤(6)中度、最短路径中间性和最大传播距离下的差异性总得分的显著性P值只要任意一个超过阈值,则判定该条生物通路为显著生物通路。
全文摘要
本发明公开了一种利用网络结构信息识别显著生物通路的方法,包括以下步骤输入基因芯片数据;将基因芯片中测量的所有基因归属到已知的生物通路集合中;使用网络结构信息计算每条生物通路的差异性;构造随机对照数据,计算随机情况下每条生物通路差异性的分布,并且计算p值;对原始p值进行校正;判断每条生物通路的显著性是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果。本发明方法能够有效识别当生物条件发生变化时被显著影响的生物通路,同时也能从多种角度发现导致这些生物通路发生变化的关键基因和调控路径。
文档编号G06F19/18GK103093119SQ20131002814
公开日2013年5月8日 申请日期2013年1月24日 优先权日2013年1月24日
发明者顾祖光, 范垚, 李捷, 王进 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1